科技信息

大模子不特殊，现在开始卷「小模子」了？

在通往 AGI 的路上，绝大多数公司的蹊径是不绝做大参数，但面壁智能却走了一条相反的蹊径——尽大概把模子参数做小。2 月 1 日，面壁智能推出了只有 2B（注：20 亿）参数量级的模子 MiniCPM，而其性能却高出了大参数

在通往 AGI 的路上，绝大多数公司的蹊径是不绝做大参数，但面壁智能却走了一条相反的蹊径——尽大概把模子参数做小。

2 月 1 日，面壁智能推出了只有 2B（注：20 亿）参数量级的模子 MiniCPM，而其性能却高出了大参数模子 Mistral-7B（法国大模子公司 Mistral 旗下着名模子）、且部分逾越 Llama-13B（Meta 旗下着名开源大模子）等，内部称之为「以小博大」。

这个结果揭破了如许一个毕竟：许多超大参数的大模子，它们的模子服从大概并没有最大化。

「我们盼望探索模子性能的天花板。」面壁智能团结首创人刘知远传授称。他以为，从技能研判而言，2023 年 ChatGPT 和 GPT-4 的推出，表明大模子技能蹊径已经根本确定，接下来就是要探索其科学机理，并极致地优化服从。

他表现，在 Mistral-6B 的同一模子水平下，面壁智能团队的模子参数量是最小的。这大概意味着模子的服从被提升到了最高水平。「我以为我们做了一件挺牛的事。」他笑着说。

MiniCPM 在多项主流评测榜单、中英文匀称结果逾越 Mistral-7B | 面壁智能

面壁智能创建于 2022 年，由清华 NLP 实行室的刘知远副传授带头创建。这是国内最早研发大模子的团队之一，早在 2020 年，团队就发布了举世首个 20 亿级中文开源大模子 CPM。直到客岁 4 月，面壁智能担当了知乎投资，不久后知乎 CTO 李大海成为面壁智能 CEO。这家公司开始完成从学术界到商业界的转身。（见极客公园专访《对话面壁智能：和知乎的上风互补，会加速大模子的研发》）

此次面壁智能做小参数模子背后，不光是为了寻衅模子练习技能，更有深远的实际和商业意义。

更小的参数意味着更低的摆设门槛、更低的使用资本——这意味着它能在手机等终端上运行，乃至仅靠一块 CPU 就能运载，面壁智能因此将 MiniCPM 称为端侧大模子——它带来的意义是，模子能被更广大人群应用、也有更好的商业化远景。

「无论是面壁还是清华 NLP 实行室，我们的空想就是实现 AGI（通用人工智能）。任何完成这个目标必要做的，就是我们要做的事变。」关于 MiniCPM 背后的思考决议，刘知远云云说道。

模子练习不再「玄学」

面壁团队之以是实行「以小博大」蹊径，跟 Mistral-7B 有些渊源。

客岁 9 月，刚发布的 Mistral 7B 是「以小博大」的标杆之作：它只有 7B 巨细，却击败了参数量大得多的 Llama（注：全部基准测试中均优于 Llama 2 13B、并在许多基准测试中均优于 Llama 1 34B）。这引起了整个大模子行业的广泛关注。刘知远说，自此之后他内心就种下种子，盼望让团队也实行一下模子「以小博大」。

这极其查验模子的练习技能和服从。

不绝以来，大模子的练习过程被戏称为「炼丹」：核心是加大参数，整个练习过程却难以捉摸、全凭感觉，很少沉淀为科学体系的练习技能——不外，各大模子团队都在为此积极，盼望将自家的练习技能从「玄学」变成「科学」。

面壁智能也在做如许的实行。2023 年，团队做了上千次的「沙盒实行」（注：在拟真测试情况下，通过控制变量等方法，找到模子练习背后的科学原理和规律），对大模子的练习机理有了较为深刻的明白。「就像造飞机必要氛围动力学的支持，我们团队致力于把大模子的研究科学化。」刘知远说。

这也是他想研发 MiniCPM 的紧张缘故原由，「我想查验一下我们（总结）的练习科学，是不是真的科学。」他说。

面壁智能模子「沙盒试验」| 面壁智能

结果验证了他的等待。仅通过两周的练习，MiniCPM 就乐成实现了以小博大。这证明白团队的练习技能符合肯定科学。刘知远称，此次结果是过往沙盒实行「厚积薄发」的结果。「我们盼望通过 MiniCPM 让各人熟悉到，纵然 2B 尺寸大模子的结果极限，还没有被充实发掘出来，这是一个科学标题也是一个技能标题，必要各人共同探索。」他说。

现在，面壁智能团队已将 MiniCPM 背后的练习方法、过程写成文章，发布到 Github 上。

固然，除了练习技能本身，其他的要素也很紧张——比如优质数据集、Infra（AI 根本办法层的软件) 等。此次，面壁智能仅靠 1TB 的精选数据练习就完成了模子的「以小博大」，当问到数据的泉源是否跟知乎有肯定关系时，「知乎起了很紧张的作用，但终极还是算法自动选取的结果。」李大海对极客公园说。

Infra 方面，面壁智能表现，团队全流程优化加速工具套件平台，可以实现 10 倍推理加速，90% 资本低落。

大概由于诸多因素才研发出了 MiniCPM，以是团队并不担心公开练习的方法、过程。「说真话就算我写出来了，比如也不肯定能做出来。这大概就是我们的壁垒。」MiniCPM 的模子练习负责人、面壁智能研究员胡声鼎说。

端侧小模子，「直供」手机厂

作为一款小参数模子，MiniCPM 能摆设在手机等终端装备上，紧张被定位为端侧模子。现在，MiniCPM 已跑通了国际主流手机品牌和终端 CPU 芯片。

为什么有了云端模子，依然要端侧模子？从用户的角度来说，假设碰到极度的断网等情况（面壁团队现场举了户外探险的例子），用户依然可以通过端侧模子得到服务。这实际上拓宽了用户使用模子的场景。

MiniCPM 可搭载的手机型号 | 面壁智能

而从开发者的角度来说，端侧模子能资助他们减轻算力负担、低落算力资本。

以算力负担为例，李大海称假设大模子范畴出现了超等应用，必要成百上千万人同时在线，用户都在云端使用模子的话，算力带宽和资本，对于创业团队来说都将难以遭受。

以算力资本为例，李大海现场用一台搭配骁龙 855 芯片（高通于 2018 年推脱手机芯片）的手机做了一道数学题。按照运行 5 年盘算，每秒 7.5 tokens，那么 170 万 tokens 的推理资本仅需人民币 1 元，资本仅为 Mistral-Medium 的百分之一。

刘知远以为，将来大模子肯定是云端共存、协同的模式——就像人类的智能必要分布于大脑、小脑，将来的大模子的智能也会分布于云、端——它们各有差别的分工，就像大脑负责高级智能、小脑负责根本智能一样，将来大模子的高级智能将由云端实现，而根本智能将由终端实现。

自客岁 7 月以来，大模子上终端不绝是行业广泛趋势。光彩、华为、小米、OPPO、vivo 等手机厂商均推出了本身的终端大模子。当问到相比手机厂商，面壁智能做终端大模子的上风是什么时，李大海称将来假如云端必要联动，由同一个模子厂商做会更高效。

现在，面壁正在跟许多终端厂商沟通，探究将 MiniCPM 这款小模子落地的大概。

面壁智能 CEO 李大海、团结首创人兼首席科学家刘知远。图源 | 面壁智能

假如说云端模子紧张卖的是 API 调理费、办理方案，那么端侧模子的商业模式或有所差别——李大海表现，现在 MiniCPM 已经开源、经授权后可商用，将来将紧张从模子授权费中获取商业收入。「端侧模子有端侧模子的落地模式和场景，（云端）大模子有（云端）大模子的落地模式和场景。」他说。

和 Meta 一样，面壁也是将 MiniCPM 如许的端侧大模子和别的规模较小的大模子开源，将旗下 CPM-Cricket 等千亿大模子闭源。现在，面壁智能的模子收入紧张来自 B 端，紧张会集在金融、营销等范畴，现在已有招商银行、易车网、义乌小商品团体等客户。

谈及面壁智能将来的发展规划，李大海称，一方面是继续加强模子本领，无论是小模子还是大模子，并在此根本之上继续探索 Agent、上层应用的发展。另一方面则是探索落地和商业化。

「说真话我对我们的模子技能本领有信心，以是将来我们的重心会放在商业化上。」他说。

附：

GitHub 项目所在

https://github.com/OpenBMB/MiniCPM

HuggingFace 项目所在

https://huggingface.co/openbmb/MiniCPM-2B-sft-bf16

收藏邀请

上一篇：环球第一台苹果Vision Pro捧出店门！有人破晓四点列队、库克回应中国发布时间下一篇：欧洲最大3D打印构筑交付：占地约600㎡，可淘汰55%二氧化碳排放

我有任务需求要发布

专业服务商主动承接

快速解决你的需求

我要发布

专注IT众包服务

平台只专注IT众包，服务数十万用户，快速解决需求

资金安全

交易资金托管平台，保障资金安全，确认完成再付款

实力商家

优秀软件人才汇集，实力服务商入驻，高效解决需求

全程监管

交易过程中产生纠纷，官方100%介入受理，交易无忧

时代威客APP

时代威客公众号

时代威客小程序

猜你需要

热门需求

大模子不特殊，现在开始卷「小模子」了？

模子练习不再「玄学」

端侧小模子，「直供」手机厂

今日头条

热门资讯

优

快

专

保

新手帮助

平台规则

关于时代

便捷服务

微信小程序

新浪微博

手机客户端