小米宣布在手机跑通 13 亿参数大模型，这意味着什么？如何理解其技术水平？

随风舞动 · 发表于 2023-8-16 00:21:50|来自：北京

hshf007 · 发表于 2023-8-16 00:22:20|来自：北京

今年手机端大模型是个趋势。

小米的端侧也好，华为的云侧也好，都是AI化的一个方向，有更多的竞争，有更多的适配，都是促进行业进步的大好事。
我之前在这个问题里面就提到过：
我在期待手机的AI化。

2023 年，手机领域会有哪些新的发展趋势？
小米是国内第一个宣布在手机端跑通的。

之前Google表示其PaLM 2的轻量化模型Gecko能跑在最新的手机处理器上，每秒能处理20个Tokens。
也就是说差不多相当于每秒10个汉字或者15个单词左右。
当然，就小米这1.3B的参数量来说，算不算“大”其实是个问题。
不过也不重要，在手机端主要用途也是对话及日常应用，通过裁剪蒸馏确实可以用一个相对小的模型实现不错的效果。
非常棒。
如果以后小爱的各种音箱也能接入云端的大模型，小爱会聪明很多。

第一个在手机上正式应用大模型的是隔壁华为。

当然，这个也没办法，毕竟华为在AI领域算国内领头羊。
不管是算力还是算法还是应用，华为都称得上领先。

2021年4月，盘古大模型正式对外发布。其中，盘古NLP大模型作为业界首个千亿参数的中文预训练大模型，在CLUE打榜中实现了业界领先。为了训练NLP大模型，团队在训练过程中使用了40TB的文本数据，包含了大量的通用知识与行业经验。

华为的盘古NLP模型参数规模和文本数据都和GPT3比较接近，GPT3是1750亿参数+大约45TB数据，华为盘古NLP大概是2000亿参数和40TB数据。
——这都是2021年的数据
如何评价华为 HDC 2023 上发布的鸿蒙4 ？有哪些值得关注的信息？
但华为囿于各种限制，目前大模型跑在云端，正在开展手机端实验。
隔壁绿厂技术也不错。

其实OPPO做大模型还早点。
大概在前年我就注意到OPPO在做大模型方面的东西了，不过绿厂一直比较低调，学术方面有不少产出，但对外没什么大规模宣传。
去年跟信通院合作的大模型标准核心起草单位里面，手机厂商也就是华为和OPPO。

之前也在CLUE上刷过榜，一个3B的大模型跑出来了第一的成绩。

DataFunTalk：OPPO基于大模型与知识图谱的技术实践探索

所以正如我之前说的。我在期待今年手机的AI化，不管是在线的还是离线的，大模型加持下的AI都可以摆脱原来智障的形象。而应用于手机端的模型参数进一步减少，可以大幅降低大模型的算力和内存需求，让各种产品真正意义上的更聪明。
小米的端侧也好，华为的云侧也好，都是AI化的一个方向，有更多的竞争，有更多的适配，都是促进行业进步的大好事。

likeart · 发表于 2023-8-16 00:22:30|来自：北京

发布会的片语没有透露更多细节，1.3B模型[初步] 跑通的业务场景以及端-云协同问题也并未提及。以下结合几个迹象作一个合理推测。
# 推测小米模型是基于高通 AI 平台

当前端云侧大模型项目的共识是：解决算力成本。其中作为端边侧计算路线的领军厂商，Qualcomm设想的方案是“Mixture AI”，从端云协同的角色分配上建立一种类似MoE的子任务门控和协作的方式，由此达到任务负载分配和降本增效的目的。QCom的官方解释是【在适当的场景和时间之下分配端云两侧AI计算的任务，高效响应场景，高效利用资源，如同头足目的章鱼，由末端计算节点/末端大脑处理最临近的workload；便是混合AI 】。

由于高通和小米两者的发布时间前后衔接，且发布会并未公布小米新机是否搭载自研AI加速器和软件栈，那么可以主观推测下一代小米14将会首发搭载<骁龙8 Gen3，集成Hexagon加速器>；这一代骁龙的重点就是提升AI性能，且同步发布了FrameExit框架、开发环境和AI Studio工具链，以支持下游用户自行设计、训练、优化和部署模型。小米1.3B模型大概是基于QCom的计算平台和AI工具链。

并且，端侧1.3B的模型规模也与QCom实现的模型规模吻合（Stable Diffusion）；QCom去年发布了全球首个在Android设备运行的Stable Diffusion（包含QNN全栈工具），该模型15秒内完成部署和收敛。

以下是从QCom AI工具链的角度推论一下小米1.3B模型背后的软硬基础设施。
QCom的混合AI平台，软件核心是基于一套轻量化设计的框架、分类器/编排器（orchestrator）以及几个门控策略机制和QNN SDK组成。如官方解释【倘若模型大小、prompt和生成长度小于某门控限定值，且提供可接受的精度，推理即可完全在终端侧进行；倘若是复杂任务，模型则可以跨云端和终端组合训练/推理】。也就是说，所谓混合AI支持模型在端侧和云端同时+分时（异步+同步）运行，在端侧运行轻量化模型时，在云端并行处理完整模型的多个token，并按需更新端侧的处理结果。如此即可较大限度解决AP能耗和成本问题，也在数据隐私和个性化方面提供了更大的设计空间。

Mixture AI的例子：部分ASR/CV/TTS任务交由终端侧AP和简单模型运行；针对复杂任务，终端侧编排器可向云端提交改进或更加个性化的prompt，反之后者也会更新端侧模型的参数和结果

由此结合三个因素：【高容量存储+高算力AP（集成Hexagon）的终端设备、针对端边场景施加算法优化和门控机制的框架和工具链（FrameExit+AI Studio）、利用高质量的本地数据】－－这三个因素中的前两者都是QCom优势。下游主机厂商可以根据机器的外设特性、OS特性、用户富媒体资源的特性以及云服务等方面，基于QCom工具链设计并部署模型在端云两侧，可以快速交付服务，并可以基于用户数据和新场景持续做迭代。
以图像/视频业务为例，主流CNN算法的开销较大，卷积处理图像时需要逐行/逐列将图像像素完整遍历；但是实际场景的图像体验，往往存在大量无变化/可复用的图像贴片，它们无需重复的采样和计算。其实QCom FrameExit框架就是为此而生的，这个模型是由多个级联的orchestrator构成，通过门控机制，可以根据视频帧/像素的复用度和复杂度来动态改变模型的计算规模（所用的神经元规模、参数规模）。比如，当看到视频前后帧差异大的时候，算法会调度整个模型参与计算；当前后帧差异小的时候，仅调度模型完成差异部分的计算，其它部分复用。这种方式可以在拉升性能、降低开销的基础上保持精度。
FrameExit 框架是QCom Mixture AI全家桶方案的组件之一；同样重要的还有Hexagon加速器和相应的软件栈；但是FrameExit的“门控和动态负载策略”显然是大模型端云协同计划中的最关键设计。
# QCom FrameExit 框架和工具解读

由此可见，FrameExit框架如其名，是一种基于“条件化提前退出（Conditional Early Exiting）策略”的框架；是将简单的采样策略与提前阻断任务的动态门控策略相结合的方案；早期主要用于优化视频识别场景，可以用较少的frame处理简单视频，用更多的frame处理更复杂的视频；实现这个策略的目的是让更大场景的视频任务能够应用在资源有限的硬件上。如今应该已经适配多模态任务。
原理如下图示；FrameExit的原理就是用多个级联的门控模块来动态平衡推理任务中的负载（Accu% & Cost%），通过在整个网络中插入一连串的中间分类器/编排器（orchestrator）来动态的、策略性发现图像分类任务的“可以提前退出的最佳节点”，即这组级联的门控策略来确定何时停止对视频输入任务的进一步处理；模型根据输入的复杂度来动态调整计算量。其中的Gating Module是可以学习的，当推理进行的足够可靠或是满足策略条件时，它就会决定停止计算。每个orchestrator都对应一个关联的门策略，这些门在不同的时间步长连接以便允许提前退出任务（门会延迟启动，以便在最后一级分类器上完成分类，以便获得最大的识别准确度）。
Gating Module是以自监督的方式学习，学习目的是动态评估和控制模型输出精度与总计算开销之间的平衡。门的学习过程是分别利用一个损失函数来优化特征提取器网络和orchestrator的参数，以及另一个损失函数来构成门控策略（识别并生成动态伪标签来训练门），见原作论文。
另外，FrameExit 论文也提出了一个“累积特征池模块”来生成视频表示，使模型用于自我迭代以便持续进行更可靠的预测。以上都是2021年的论文解释，如今应该已经适配多模态任务。

FrameExit的级联分类器及其逐一对应的门控策略的运行原理

关于FrameExit的级联分类器及其逐一对应的门控策略的运行原理，参考如下的Paper和代码：
FrameExit: Conditional Early Exiting for Efficient Video Recognitionhttps://github.com/Qualcomm-AI-research/FrameExit除了伴随Hexagon加速器发布的FrameExit框架，作为完整AI软件栈的其它部分，QCom也发布了开发环境和工具链，包括推理开发包QNN SDK、AP硬件驱动程序、虚拟化平台和编译器，以及主流的NN框架（TensorFlow/PyTorch/ONNX/Keras等），以及包括TensorFlow Lite/Micro和ONNX Runtime等在内的Runtime等等。下游主机厂商可以根据机器的外设特性、OS特性、用户富媒体资源的特性以及云服务等方面，基于这些工具链来设计并部署大模型在端云两侧，可以快速交付服务，并可以基于用户数据和新场景持续做迭代。

值得注意的是：骁龙8 Gen3搭载的Hexagon加速器专门设计了弹性负载的供电单元，可以基于工作负载来适配功率，这与FrameExit分配负载的设计初衷相得益彰。另外，Hexagon还针对Transfomer Multi-ead Attention做了硬件优化，并扩充了INT4加速单元、支持微切片推理，能够在支持高性能推理的同时，降低能耗和内存占用；
最新的跑分是在MobileBERT，基于特定用例可以跑出相比上一代4.35X的性能提升。

这种端云协同的理念不仅出现在QCom产品上，另一个例子是MS365 Copilot和Bing Chat服务；至少百亿参数的模型在用户终端运行，更复杂的任务将按需发送至Azure云端处理。对于端侧用户而言，这种体验是无缝的，因为端侧的神经网络程序或是基于策略运行的<Arbiter>将会决定是否需要协同云端算力。倘若用户对于结果质量不满意，那么当再次发起同一请求时可能就会将任务导入一个更好/更远/更宽的模型。同时由于端侧AI性能随着芯片和系统的迭代不断提升，它将分流更多云端的计算负载。
综上所述，我主观推测小米1.3B模型是基于QCom Mixture AI平台和Hexagon加速器的实现。这或许也符合新机发布和服务快速交付的节奏。刚刚查询的数据显示，搭载QCom AI引擎的终端设备出货量已经超过20亿，与这个生态相竞争，还是有限融入这个生态，硬件厂商会做出最佳选择。
<hr/>

zhl5025 · 发表于 2023-8-16 00:23:11|来自：北京

现在大家对大模型的定义比较宽泛，13亿（1.3B）参数的模型只是原来GPT2（1.5B）的级别，算不算大模型呢？可算可不算。
但还有一点是可以媲美 60 亿模型在云端的运算结果，这就很不错了。
但小米宣布在手机跑通13亿参数大模型，意味着大模型推理加速是必要的，各家准备开卷，本地大模型不再是梦，解决离线调用问题（无须联网调用云端服务）。
但是技术水平感觉一般（如果手机跑130亿大模型，速度很快，那就很强）。主要是现在有很多大模型推理加速的项目，比如fastllm、vllm等，加速效果都很不错。各大厂估计也有专门的团队来做推理加速，毕竟大模型推理十分耗费资源，如何降低推理成本也是大模型落地的必须攻克的难题。
PS：每一个做大模型的厂商&个人都是新时代的好青年，都值得被鼓励。

wang800123 · 发表于 2023-8-16 00:23:27|来自：北京

手机上的大模型部署之争已经拉开！

前几天，网传苹果宣布正式加入人工智能大战，未来会推出Apple AI，手机端的Siri以及智能家居生态系统，将借助于大模型获得史诗级进化。
但是苹果的AI部署之路有些慢。

而华为在上周的发布会，发布的小艺上，已经用上了AI大模型能力，让其可以更好地给用户服务。功能上和预期的差不多，可提供更贴心的个性化服务，提供复杂场景任务编排，具有看图说话能力，还可提供更高效的生产力服务等。

小米也发布了自家的大模型，跑分成绩还是可以的，6B参数的大模型，比阿里的Qwen-7B跑分还要强那么一丢丢。这二者应该能达到一个水平吧？
当然榜单只是榜单，用户体验才是最重要的。
其实大模型很容易分辨出好坏来，大家只要用，就能够排出个一二三来。
目前还是GPT4第一，GPT3.5第二，Claude就明显要傻一些，国内我觉得体验好的还是讯飞的，其次是百度的，其他的就没有用过的了。
再说一下跑分上相比于chatgpt的不足，主要是STEM上，这是Science，Technology，Engineering，Mathematics等的缩写，也就是在科学工程知识上，不如chatgpt。而社会人文等都表现的还可以。STEM对于大家还是很重要的，对于解决问题有很大的帮助。

至于在手机上跑通大模型意味着什么？

那就是意味着可以更高效地为用户提供服务。
云端的服务需要计算，有延迟，需要数据传输，可能会涉及到隐私问题。
而本地的大模型，可以实现更高的效率，也有助于用户隐私保护。
大模型的本地化部署，应该也是一个重要的发展方向，手机，笔记本，各类app要是都能用大模型重写一遍，或者内置了一些类似的服务，会极大地改变体验和交互方式。
对于小米来说，依托于本地化的大模型，可以让小爱变得更加聪明，可以让小米的智能化服务做的更好。
无论是智能手机，还是智能家居，未来还有智能汽车，依托于大模型赋能后，体验都会获得质的飞跃。
以上，期待小爱超进化：派蒙！

peeperp · 发表于 2023-8-16 00:23:35|来自：北京

先说意义，再说技术水平。
一、对于用户：
1、可以用到更智能的小爱同学，因为有大模型加持，就不仅仅是问下天气和时间这类，你会觉得她的智商一下提高了很多；
2、离线状态下也能用，因为这套大模型是可以直接跑在端上，不需要联网，但是离线状态下应该回答会更弱一点，因为无法调用最近的数据。

二、对于手机厂商：
1、更精致的用户画像，以后小爱同学会更懂你，因为你用的越多，你的画像会越精准；
2、为更多商业化埋下伏笔，为啥手机厂商都急着做大模型加持手机，因为手机+大模型会变成你的“个人助理”，他可以帮你买机票、订酒店、订外卖，甚至未来还会主动给你推销一些符合你生活规律的商品，比如根据你的规律，知道你家鸡蛋不够了，可能就直接给你买了；

三、对于其他大模型或AIGC公司：
竞争越来越激烈了，本来想做个APP帮你实现“个人助理”，现在貌似手机厂商还是想做和客户直接的流量入口，毕竟你的APP是装在别人的终端上的。
未来大概率就是类似于小米商店、应用宝这类一样，先过手机厂商，在分发给其他APP或者小爱内部的插件去执行。

四、对于其他硬件厂商：
这是个机会，早日接入更智能的小爱同学或者小布同学，让更智能的小爱同学来适配你的产品，全屋智能的时代已经很近了。

五、模型的水平
我们看榜单，这份榜单目前是有一定争议的，但是小叔个人认为这份榜单是最接地气，最符合国内环境的，我也建议周边的大模型公司尽量去冲这份榜单。
因为这样，国内客户才敢用。
C-Eval 一开始看以为是个外国榜单，进去一看其实是个国内团队在做，是顶级高校背景。
它是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。
我在里面看到了文言文，马克思主义，顿时理解了这份榜单的用意。

小米目前的排名是第九名，个人觉得，小米的进步空间还很大，因为小米也不缺算力，也不缺数据，要真加把劲，进前五问题不大。

当初这份榜单比较有争议的点是排在第一个的 ChatGLM2，他的成绩竟然超过了 GPT4。
这家公司是智谱AI，清华背景，剩下的大家自己琢磨。

另外小米还有个1.3B的模型是可以在端上跑的，意味着不太需要很高的算力支持，这是主要的差异点。
雷总也是比较爱开炮，一场发布会都是在PK苹果和一加，模型则是对比的Baichuan13B，这是王小川创立的百川智能，刚大模型创业不久就被躺枪。
所以未来低算力要求的大模型，应该也会成为智能硬件的标配。

小米宣布在手机跑通 13 亿参数大模型，这意味着什么？如何理解其技术水平？

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家