Minimax：目标将大模型幻觉率降低至3%，拒绝“重复造轮子”

发布日期：2024-12-06 13:35:33 文章来源：媒体管家 阅读次数：次

　　在大模型如火如荼地发展一年后，外界眼中火热的AI行业究竟现状如何？未来将走向何方？

　　“目前大模型还在快速迭代阶段，我们还没有看到上限。”12月4日，上海AI独角兽企业稀宇科技（MiniMax）副总裁刘华在接受澎湃新闻记者采访时坦言，“我们没感觉到Scaling Law（尺度定律）放缓，也不同意大模型在技术上正在面临天花板。”

　　MiniMax成立于2021年12月，旗下具备文本、语音、音乐、图像和视频等多模态大模型。一个值得关注的亮点是，在AI出海方面，MiniMax走在了国内最前列。最新数据显示，MiniMax旗下海螺AI海外版登顶10月AI产品全球增速榜，月访问量达1173万，同比增长高达2772.92%。

　　“我们从去年就开始开拓海外市场，中国有自己的工程师红利，也对产品有更好的理解。在坚持技术驱动的发展战略下，和海外AI企业相比，我们的迭代速度更快。”谈到出海成功的心得，刘华坦言。

　　在他看来，美国在AI大模型技术方面整体处于领先地位，而在语音、文字等细分领域，中国大模型追赶速度很快，例如海螺AI和快手旗下的可灵大模型等都在美国有广泛应用，目前在这些领域，两国技术水平已达到不相伯仲的阶段。

　　今年大模型从一开始的热潮涌动，又逐渐归于冷静，对于融资、变现、落地等话题的讨论始终在持续。MiniMax如何看待今年AI行业的整体发展？

　　“我们并没有观察到AI行业存在泡沫。”刘华表示，此前很多企业竞相入局基础大模型，开启“百模大战”，确实在一定程度造成了资源浪费和“重复造轮子”，“行业的资源应该得到有效分配，有实力做好基础大模型的企业并不多。更多企业适合开发的是AI应用，术业有专攻。”

　　据他披露， MiniMax的长期目标，首先是提升大模型实用性和渗透率，同时也要降低错误率。上一代ChatGPT系列模型普遍存在“幻觉”，错误率达到30%左右，导致在严肃生产场合无法使用，更多应用在文创领域。如果要让大模型进入严肃的生产、研发、科研、设计，就要进一步降低错误率，“我们的目标是把错误率从30%降低至2%-3%，为此一直在进行各种模型迭代。”

　　此外，实现无限长的输入和输出。从文本进化到语音和视频，大模型技术的进化需要更多的数据处理量。刘华告诉记者，目前MiniMax最新研发的，基于MoE + Linear Attention架构的abab 7大模型，使得长文本处理效率不断提高，比起传统架构有显著优化。

　　第三个目标是坚持多模态。未来大模型将从纯文本走向多模态，必然兼具文本、语音、视觉等多重功能。MiniMax将在海螺AI等应用上提供更丰富的功能，为艺术创作持续赋能，包括后续会提升AI视频生成的时长，这是重要的努力方向之一。

　　另一个业内关注的话题是大模型卷“投流”带来的高额广告支出，部分大模型公司动辄投入高达几千万甚至上亿的广告投放费用，引起人们关注。对此，刘华表示，单纯以扩大用户总规模为目的的投流价值不大，“对大模型的研发来说，最重要的是到底有多少用户能够留下，高频使用大模型，这才是最大的价值。”

　　“如果一味依赖于投流，带来的最大问题就是客户黏性和留存度较差。”刘华坦言，这也意味着对于大模型行业而言，单纯卷投放没有意义，还是要依靠扎实的技术吸引更多的用户。

　　算力是大模型发展不可或缺的要素，大模型需要处理海量的数据，并且需要在短时间内完成复杂的计算任务，这就意味着需要更高的计算能力，也离不开云计算厂商的支持。

　　三年前，MiniMax 就与腾讯云建立合作关系。“早期AI企业的需求可能只有几百卡、几千卡，现在普遍达到上万卡，后续会有更大规模的需求。”腾讯云北区云原生总经理田丰告诉澎湃新闻记者，“算力上的考验对于云服务商的组网能力和集群运维能力都会成为非常巨大的挑战，腾讯云为MiniMax 提供了一系列集计算、存储、网络为一体的高性能智算产品，让 MiniMax释放更多的精力聚焦在模型本身的训练和工程化上。”

　　例如，腾讯云高性能计算集群通过系统化的运维机制，可做到网络故障一分钟内发现问题，三分钟内定位问题，最快五分钟恢复系统。其千卡集群的日故障数已刷新至 0.16，是行业平均水平的三分之一。腾讯云星脉网络，可实现大模型训练过程中，网络通信占比（通信时间占总体时间比例）低至6%，整体训练效率提升了 20% 以上。

　　不过，田丰直言，并不是所有的大模型训练厂商都需要1万卡或是几万卡这样超大的算力集群，并且大集群不等于大算力，智能算力存在比较典型的木桶短板效应，需要不断调整GPU资源利用率和集群通信效能，才能真正优化算力的利用率。

　　“对于AI大模型的发展，无论是创业者还是投资人，都要有充分的耐心和信心，看似炫酷的技术，最终都要落实到商业化本身，才能走向盈利。想要指望大模型短期带来很高价值的经济效益可能性并不大，目前仍处于长跑的第一公里阶段。”田丰表示。

上一篇 : 高德红外起诉6名前员工：指控其侵害公司商业秘密，索赔2亿元

下一篇 : 创全球最大、首个等多项纪录，中国风电领跑全球