如何看待 vivo 大模型即将发布,为何手机厂商都在布局 AI 大模型,有哪些信息值得关注?

[复制链接]
forevershe 发表于 2023-9-27 02:35:43|来自:中国 | 显示全部楼层 |阅读模式
2023 年 9 月,在博鳌亚洲论坛国际科技与创新论坛上,vivo 称即将发布自研大模型。
据悉,该模型为行业领先的 1750 亿参数的超级大规模云端模型,也是行业首家7B 端侧大模型,端侧过滤,离线可用,同时还实现了行业首家十亿大模型开源。
你觉得,都有哪些信息值得关注?另外,大模型对于手机厂商来说有什么意义?
全部回复5 显示全部楼层
wanghuan 发表于 2023-9-27 02:36:07|来自:中国 | 显示全部楼层
从2011年Siri诞生以来,语音智能助手在智能手机上出现,已经有了十多年的历史。但直到今天,此类智能助手产品依然被诟病为“人工智障”——不同厂家的产品有好有坏,但通常都难以让消费者满意。
具体而言,很多情况下消费者期望的是智能助手能准确地理解自己提出的问题,给出对应的回答或者执行正确的命令。但实际上,目前的智能助手只能对一部分预设的场景进行响应,大多数情况下依然只能回落到互联网搜索返回结果的情况——显然这远不是用户想要的。
尽管随着AI技术的发展,业界的语音识别和自然语言处理能力都有了很大的提升,但依然远无法满足用户对于真正智能的智能助手的期待。而近年来,随着大模型技术的出现,手机的智能助手终于获得了摆脱“人工智障”处境的希望和契机。
现阶段,以GPT家族为代表的业界一流大模型,已经展现出了优秀的性能与潜力——大模型不仅可以依靠自身的知识储备(例如ChatGPT)或者外部检索信息(例如New Bing)对用户提出的问题给出流畅且基本准确的回答,而且还可以成为优秀的AI智能体(Agent),借助第三方工具解决依靠自身难以解决的问题。
目前ChatGPT已经开放第三方插件,而学术界基于开源模型的tool learning研究也取得了一系列成果。尽管目前大模型距离完美依然有很远的距离,仍然要面对诸如计算代价高昂,幻觉问题难以充分克服之类的缺陷,但目前的大模型已经具备了非常充分的可用性,可以在很多场景发挥足够大的作用。
目前大模型行业有一个明显的发展趋势——那就是基于全能通用的基座大模型,发展服务于各个具体方向,专精某一个细分行业的垂类大模型。显然,手机智能助手天生就是一个垂类大模型的优秀舞台。
站在手机助手的角度,目前语音到文本的ASR技术已经基本上发展成熟,主要的瓶颈就在于如何更加智能更加有效地让模型回答问题和执行命令——大模型(哪怕是体量小一点的大模型)显然可以很完美地解决这些问题。站在大模型的角度,具体到手机这一场景,许多通用场景下需要解决的问题自然就不是问题了。用户对于手机助手的需求方向相对单一,绝大多数需求都可以归类到内容问答、闲聊和工具调用(例如日程管理、购物买票等)这几个典型场景之中,任务难度也相对比较简单,诸如代码生成之类的通用大模型较高难度任务,在手机场景显然是完全不需要考虑的。
当然,手机场景给大模型带来的并不全是机遇,同样也有挑战——作为典型的C端消费产品,市场上主流的品牌都具有数以千万甚至亿级的用户总量,其中哪怕只有1%的用户使用大模型产品,都会带来极其可观的访问量,进而带来巨大的计算压力。
以当前的硬件技术水平,即使是OpenAI也做不到足额足量敞开向用户提供访问——GPT-4到今天依然限制只能付费用户使用,且每3小时只有50次提问机会(不久之前的限制更加严格,3小时仅有25次提问机会)。而且,由于应用场景的特点,手机上的智能助手不可避免地需要使用到手机中储存的用户个人信息,这些隐私信息显然不能随意上传给云端的大模型。
既然云不可靠,那么全程部署到端侧可以吗?显然也不是那么可行——当前手机芯片能够提供的AI算力仍然有限,即使是开源模型中尺寸较小的7B模型,想要在手机上达到可用的推理性能也依然要面临非常大的挑战。这还仅仅是考虑了推理速度——实际上如果对7B模型进行进一步的推断优化,很可能需要牺牲原本就不充裕的模型性能,严重的情况下甚至可能导致模型无法有效完成任务,满足用户需求。
除了性能问题之外,内容安全问题同样是大模型在手机场景应用中的挑战——基于监管要求,大模型服务的提供者必须尽可能确保大模型不会输出有害内容,避免给用户带来潜在损害。对于云侧提供服务的大模型而言,内容安全问题相对容易解决——即使是无法完全从模型的源头避免有害内容输出,也可以通过输出端的附加手段(例如单独的内容审核策略)阻断有害内容输出。但显然端侧大模型不能这么做——无论是隐私问题还是计算代价问题,把输出送到云侧审核都是不可接受的。
由此可见,未来大模型与手机的结合,仍然有很长的路要走——端侧与云侧不同尺寸模型之间的协同配合,将成为大模型在手机这一舞台上施展拳脚的必由之路。
2023 年 9 月,在博鳌亚洲论坛国际科技与创新论坛上,vivo称即将发布自研大模型——在C-Eval中文测试集上,可以看到vivoLM-7B模型的平均分为74.3分,提交时在非公开模型中排名第二(2023年9月18日结果,目前排名可能有变动),今后vivo可能会将这一7B模型开源。


尽管目前的大模型评测手段仍然存在局限性,无法充分准确地全面反映通用基座模型的性能,但对于垂类模型而言,这样的性能已经足够证明其具有在具体细分垂类下的可用性潜力了。这个7B模型仅仅是一个开始——事实上vivo要发布的并非是一个单独的7B模型,而是一个涵盖多种不同尺寸的,完整的模型矩阵。
与目前已有的开源模型家族(例如著名的LLAMA系列)不同,vivo此次发布的模型矩阵,并非是对已有开源模型的简单模仿与迁移训练,而是针对手机行业的实际需求做了充分的调整。整个模型矩阵的尺寸既有最小的1B模型,也有业界主流的7B、66B模型,而最大的基座模型则直接达到了130B和175B(与GPT-3相同)。
基座大模型(尤其是千亿级大模型)的训练,不仅需要大量人力物力的投入,而且对于整个Pipeline的方方面面都有着极高的要求——数据清洗,资源调度,并行化计算,每一个步骤都需要极高的算法与工程能力支撑。如果技术实力不够强大,那么就算你财大气粗,有万卡级别的A100集群,那也依然会受困于垃圾数据和设备空转,无法真正训练出一个优秀的大模型(尤其是千亿级大模型)。vivo大模型矩阵的构成,本身就证明vivo在AI算法技术和工程能力方面,具备非常深厚的技术积累。
显然,这一不同于其他模型家族的体量矩阵,是针对手机智能助手这一需求做了充分适配的结果。7B甚至1B的“微型”模型,经过面向NPU的工程化之后,可以在手机上以较低的负载(200ma电流)长时间运行——此时大模型对手机的压力并不比一个音乐播放App更高,这就为大模型在手机场景的应用提供了基础和切入点。
不仅如此,vivo的AI团队还基于RLHF等方法,对模型进行了进一步的人工对齐与调优——直接将内容安全集成在模型内部,让端侧模型从源头避免有害内容的输出,自然就解决了端侧内容安全的问题。这一策略说起来容易,但要落地实现,却需要极高的技术能力。
当然,尺寸的缩小必然会带来性能的劣化——因此需要有更加强大的模型来协助端侧解决一些更加困难的问题,此时部署在云侧的66B模型就成为了端侧模型的强力助力。而千亿级参数的全尺寸大模型,则扮演了“教师”和“基座”的角色,以完整的全尺寸探索大模型的能力能够达到的上限,指引垂类大模型研发迭代。
得益于开源模型与框架相关生态的发展,目前大模型市场已经涌现出了很多大大小小的玩家,进入大模型市场的门槛已经比半年前低了很多。但尽管如此,基座大模型的从头训练依然有着极高的门槛——国内仅有少数企业具备基座大模型的训练能力,而能够进行千亿级的全尺寸大模型训练的玩家就更加稀少了。
可以预见,接下来OriginOS4将从系统底层集成大模型的能力,让大模型为用户体验的提升赋能。目前在手机系统中,除了常见的拍照和语音助手之外,同样也有其它的一系列基于AI的应用场景,而大模型能够赋能的远不止一个语音助手。举个简单的例子,手机输入法的联想功能实际上就是自然语言处理技术的一个典型的应用场景——此前的输入法只能通过用户之前的输入习惯给出一两个候选词的预测结果,而现在基于大模型,输入法可以直接基于用户的习惯和已经写过的内容,直接帮助用户续写内容,大幅提高工作效率。
无论是对于整个行业还是对于手机这一细分方向,“大模型到底能做什么”这个问题都还没有一个比较置信的答案。大模型到底有多大的潜力,能给实际的产品带来怎样的变化,仍然无从可知。但无论具体场景如何,有一点是确定无疑的——想要在这条道路上探索,必须具备坚实的技术积累。本次vivo展示的大模型矩阵,体现出了vivo在AI技术方面的惊人实力。期待vivo可以给出大模型赋能手机系统,提升用户体验的优秀答卷。
Sprite 发表于 2023-9-27 02:36:58|来自:中国 | 显示全部楼层
过去一年里,随着ChatGPT的出圈,人工智能大模型掀起了新一轮创业热潮,国内一度呈“百模大战”发展趋势。但在这轮热度散去后,国内真正沉淀下来的,还是那些早有布局的团队,例如百度、阿里、腾讯这些老牌互联网企业,或是智谱华章、智源、复旦这种高校及科研机构,知乎的总结回答,也来自于智海图,算得上老牌团队。vivo也属于这类企业,这次博鳌会议上,vivo发布的产品只是他们过去几年的积累和沉淀。
当然,到了这个阶段,大模型的应用正超过大模型本体,成为大模型主要发展方向,而能落到手机的端侧大模型,则是创造应用的重点。
大模型定义与应用

什么是大模型?

大模型全名叫人工智能预训练大模型,我们听到最多的OpenAI ChatGPT中的GPT,为Generative Pre-Trained Transformer的缩写,即生成式预训练Transformer模型。
Transformer架构来自2017年谷歌发布,奠定了大模型领域主流算法架构的基础,2018年谷歌发布基于Transformer的双向深层预训练模型BERT,极大助力自然语言处理领域的发展。
我国大模型起步的稍微晚一点,大约从2019年前后各大厂开始布局,到2021年已有华为、阿里、百度、商汤科技、浪潮等国内各科技企业相继发布“文心一言”、“通义千问”、“混元”、“盘古”等大模型。
vivo这套大模型,如果按照时间倒推,开始研究的时间应该也是在2019年前后,差不多与国内主要大厂一同起步,并一起经历了大模型的发展和爆发期。


大模型的核心能力在于算力、数据、算法

参数规模是大模型精度的基础。大模型参数量与训练量超过一定规模后,会“涌现”能力,模型精度大幅提升,同时模型可从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力,包括语言理解能力、生成能力、逻辑推理能力等。这可能也是为什么vivo要先做两个参数千亿级以上的模型,先把模型跑起来,让模型具备对应能力。


算力水平是大模型处理能力的决定性因素。大模型的训练、推理均需高算力支撑。
根据OpenAI的论文:
大模型训练算力需求=2×参数数量×3×数据规模×训练轮数
大模型推理算力需求=模型大小×推演批次大小×平均序列长度×推演速度
以OpenAI数据为基础,训练1轮GPT-3需要的算力为3.14×1023 FLOP。
随着用户数量增长,推理算力需求将随之增长。这也是为什么ChatGPT最火的时候,蹦字速度特别慢,因为算力不够。
数据是模型学习和理解事物本质的基础。数据的规模、质量与覆盖程度是大模型的训练与调优的关键养料。更丰富的数据能有效提升大模型泛化能力,降低模型过拟合问题。如OpenAI采用了维基百科、Project Gutenberg和Book Corpus书籍期刊、GitHub代码仓库、WebText2新闻文章、Open Subtitles电影字幕等数据,到GPT3的训练数据也就是45T。而vivo那边攒了2800T数据,洗出来了150T,这套数据的宽度和质量非常不错。
压缩算法是加速大模型落地的关键。大模型结构复杂,存储与计算成本极高,通过量化、剪枝、蒸馏、专家化等算法组合“瘦身”,可以将一个庞大而复杂的预训练模型转化为一个精简的模型。这也是为什么vivo先训练千亿级别参数大模型,然后推出的660亿参数、70亿参数和10亿参数大模型的原因。
大模型正打破边界,从云端、高性能PC进入手机端

手机端跑大模型,软硬件都准备上了

大模型在手机端应用落地推进得很快。年初谷歌在I/O开发者大会上发布PaLM2,其中一个版本为壁虎(Gecko),可运行于手机端,每秒20个token,折算下来速度基本能满足对话需求,自此拉开了手机端运行大模型的序幕。


同时,高通和联发科等手机SoC厂商,也开始支持大模型的应用,给手机上跑大模型奠定了硬件基础。
高通那边在今年2月就发布了全球首个运行在安卓手机上的图片生成软件Stable Diffusion的终端演示,并在Asghar的实验室中实现70亿个参数的AI模型处理能力;MTK则表示年底的新一代旗舰移动芯片,将采用针对 Llama 2 模型而优化的软件栈(NeuroPilot),与搭配支持 Transformer 模型做骨干网络加速的升级版 AI 处理器(APU)。
手机端,大模型可以干什么?

大模型可以提升各类语音助手的有效性
现在各路语音助手主要原理依然是对先做语音识别,再从库里找到对应问题的回答。这种方式的语义理解能力不够好,经常会出现答非所问,甚至“抱歉,我听不懂”,且对话上下不够连续。接入大模型后,不仅可以提升语义理解、上下文对话,让语音助手更智能。而在语音中不止如此,以大模型的能力,还可以将会议录音快速整理成去掉语气词和重复内容的文字版,还可以提炼要点,一份会议纪要可能从未如此简单。
图像识别中,大模型可能能实现更佳的拍摄效果。
通过大模型,实现更精准的的语义分割,进而识别图中物体,实现更真实、更有特点的虚化效果。
或是结合类似Stable Diffusion相关的技术,结合超分辨率算法,进行更好的后期纹理填充,让手机超长焦实用性进一步提升。
甚至通过拍题辅导孩子做作业,还能列出多种解法,比此前的以图搜题还要更智能一些。“妈妈再也不用担心我的学习啦”
还可以和智能家居联动,更好理解用户需求。
目前的智能家居都是写出一大堆预设,或者让用户自定义一部分预设,进而实现不同场景的变化。但对于实际应用,预设只能满足一部分需求,大模型可能可以更好理解这些需求,进而让智能家居真正“智能”起来,而不是只有背后的程序员智能。
总之,尽管目前大模型还没有开始在手机上开展大规模应用,但大模型的能力可以让智能手机在各类交互中,真正实现具有人类的自然型的智能。
然而,手机端跑大模型并非易事

大模型的内存需求、算力需求极高,而手机作为随身携带的电子产品,对功耗非常敏感。
也因此,vivo这条路线也非常明确,从1750亿参数到70亿参数再到10亿参数,对大模型进行了充分的裁剪和蒸馏,使之能在手机上跑起来。
大模型想要在手机上跑起来,一个问题是内存。
目前大模型对于显存需求巨高,在默认参数下,其对显存的需求是:
2 * 2 * n_layers * max_batch_size * max_seq_len * n_heads * head_dim字节
层数、精度、模型大小、序列长度等都会影响显存。简化一点的算法大概是每10亿参数需要2G显存。
因此,我们常见的超过千亿参数模型只能在云端训练和推理,以1750亿参数为例,其对于显存的需求高达400G左右,一块A80 40G远远不够,需要一把卡。
目前国内相对流行的能在本地跑的大模型是ChatGLM 6B,通过模型量化技术,这个60亿参数的大模型可以只需要6G显存——也就是前几年最流行的甜点显卡——Nvidia GTX1060 6G版刚好可以跑得起来的,但其精度也降至INT4,如果要跑在FP16的半精度下,这个模型就需要至少13个G的显存才跑得起来。
也因此,在手机上还需要进一步裁剪。毕竟,开一个语音助手不能把所有后台全给杀了,目前手机排除系统占用和常用软件,可用内存通常为4G起步,留给大模型的内存/显存空间相当有限。
另一个问题则是功耗。
如果各位用大模型“炼丹”过,都能感受到在运算过程中显卡的呼啸声。
甚至从产业端来看,服务器那边已经准备开始用液冷代替风冷,以实现更高效率的散热效果。
手机对功耗非常敏感,一方面是绝大部分手机散热为纯被动散热,只能依靠机身和边框和空气的传导;另一方面是手机电池也不大,如果在运算过程中功耗过高,则对手机续航市场会造成负面影响。
所以vivo从1750亿参数开始做起,先做一个功能相对更全的大模型,用以验证工程能力和模型能力。然后在此基础上,裁剪、蒸馏出来一个10亿参数的模型,继承大部分大模型的能力,用于跑在手机端,降低功耗、提升手机体验。同时,在云端还有个660亿参数的模型,用来补足手机模型能力。
vivo据说准备在OriginOS 4中加入手机端侧大模型,这确实是件大好事

首先,模型能力应该不错。

从最近的跑分来看,vivo从千亿参数大模型蒸馏而来的70亿参数模型质量不错。
vivo他们跑了两个榜单的分数,C-Eval和CMMLU,分数都在榜单前列,二者主要都是对日常知识以及从小学至大学本科级别知识的回答准确度测评。


尤其是在社会科学和人文科学两方面得分在前二十名里面都算高的,也就说明,vivo家大模型相对来说,对于我们日常可能问到语音助手的问题,回答的准确率会更高,语音助手也就可以更不“智障”。


其次,vivo这套模型是端云结合的。

手机上运行,对模型能力的要求没有那么高。
相对来说,短期内主要应用于语音助手相关领域,能做好日常的语义理解功能,结合搜索,就能让语音助手的能力指数级提升。
退一万步讲,在电脑上用起来最方便的大模型功能之一——编程,手机这块屏幕确实有点小,不太方便编程。
同时,手机上运行个人隐私保护更好。
云端的大模型,我们提出的问题和交互信息,都会反馈到第三方服务器上,存在个人信息泄露风险。
因此,大企业正将大模型本地化部署。例如,三星半导体在经历员工使用ChatGPT导致信息泄露后,本地化部署了一套大模型供员工使用。
对于个人,无论什么层面的信息泄露,也都算不上好事。因此,仅跑在端侧的大模型,用于处理个人日常事务,也是个不错的选择。
但是,毕竟相较于云端的模型,手机上这套模型的参数量和性能都低了不少。
因此,我个人猜测,vivo应该会采用端云结合的模式,即通过判断问题的复杂度,然后将计算分配至本地或云端。
简单的问题,例如查天气、查公交、简单对话,甚至一些初中题,能运行的就交给手机端了。更复杂一点的,比如高中题、大学题、写文章,甚至临时写代码的需求,就交给云端解决。
这也是vivo形成这套大模型矩阵的原因,从大到小都有,分层次解决不同难度的问题。
最后,vivo还开放了70亿参数模型,推动行业共同进步

大模型作为这两年的新产物,最有趣的地方在于其生态。
OpenAI自GPT2后闭源,变成了CloseAI,反倒是Meta接过了开源的名号,“羊驼”在第三方开发者中焕发了不少创新生态,甚至不少中文大模型也采用了“羊驼”。
而国内最火的大模型之一是GLM-6B,一个60亿参数的模型,在降低一定精度后,刚好可以在普及率最高的甜点卡上跑起来。
vivo这套70亿参数模型在适当降低精度后,理论上可以在8G显存级别的显卡上跑起来,也就是这两年的主流独显级别。如果vivo再稍微出点人手支持开源社区建设,这套70亿参数的模型的开发生态也会更有趣,可能有不少开发者在上面跑出来更新、更高效的应用。
这才是更能推动行业往前走的方向,有模型、有数据、有人手的支持,共建第三方应用生态。
总结:

大模型的应用,未来可能就会像现在的搜索功能,成为互联网基础设施的一部分。也因此,各家正加紧研发和应用大模型,避免在下一步互联网应用中掉队。手机端的应用是我今年最看好,也最期待的部分,它能将大模型的能力真正导入普通消费者的日常生活中。
vivo与国内头部企业几乎同一时间启动研发大模型,从应用上看,能力也处于第一梯队。这次博鳌论坛上发布的五套10亿级到1750亿参数大模型矩阵,表明了vivo在大模型的开发和应用上的积累和野心,即云端结合将让大模型未来成为基础设施的一部分。
008at 发表于 2023-9-27 02:37:24|来自:中国 | 显示全部楼层
1.
从未有哪个时代比现在更接近未来。
早在3年之前,我就做过一个视频,介绍GPT3,拥有 1750 亿个参数 ,它打破了人类有史以来创建的最大神经网络的纪录。当时我认为他是2020年最强的人工智能,甚至没有加之一。


两年后的的故事估计你们都知道了,基于GPT3.5的ChatGPT横空出世,一个新的时代开始了。
毫无疑问,AI将会成为所有创新的最底层的创新之一,正如现在的互联网,他已经不在是一个行业了,而是基础能力。
于是一时间,无数资源涌入大模型这个赛道,有真实力者,也不乏蹭热度的人。


2.
GPT,Generative Pre-Training 生成式预训练。
它的目标只有一个,就是预测下一个词汇,输入『我』,他会猜下一个字是『爱』,再猜下一个字『你』,然后就一个字接一个字的接下去。当然『我』之后也可以接『是』『帅哥』,生成另外一段不同的文本。
那么哪一段才是正确的,结果拥有巨大的不确定性,怎么办?
大力出奇迹!
这就是『涌现』现象,当足够多的微小个体凑在一起时,在宏观层面上展现出微观个体无法解释的特殊现象。


就像小时候牙牙学语的你,尽管爸妈教你的都是你不认识的零散的词汇,但突然某一天,就能够完整地说出一句话。
那么答案就很简单了,收集更多的数据。
当然,数据是需要积累的,算法也是不断调整的,这需要时间,人力和资源的不断投入。
而vivo早在2017年,就成立了人工智能全球研究院,第一轮就投入了1000人,之后每年更是增加300多人,毫无疑问,这种团队的能力要比你短时间内拉起来的一个班子战斗力强上很多。
数据,是这个时代的『能源』,一如工业时代的石油一般,要想让模型更加领先,你必须要更多的数据,vivo在2018年就有一个300人的团队做知识图谱的建设,到现在整个图谱的规模应该超过了2800T。
如何快速地让模型能力进化,仅依靠初期的数据标注和反馈是不够的,这就是『应用』的重要性,这也就是为什么OpenAI用了很多年才推出了GPT3.5,而发布能力更为强大的4.0只用了半年不到,很重要的一环,就是模型发布后,大量的用户交互和反馈极大地促进了这个过程。
作为一个手机终端厂商来说,最不缺的就是『反馈』,而且这个『反馈』不仅仅是只有『Chat』这种形式,手机本身可以在无数的场景中获得反馈。
其次就是算力,算力不是说你买显卡就行,而且现在这个市场行情,你有钱也不一定买得到,这就需要一定的『工程能力』,如何用有效的资源,更加高效地部署,vivo显然是有经验的,因为很多算法实践是可以直接落地到产品和应用中去的。
也正是因为如此,甫一面世的vivo大模型就出在了C-Eval、MMLU 出现在双榜单中,而且名列前茅。
3.
对于大模型来讲,我们最为熟悉的应用就是聊天。
打开App或者网页,点击对话框,输入你想说的文本,这其实是一种很低效的的应用交互方式,而且这个过程,还很考验你的Prompt能力,写好一个好的Prompt,决定着你获得答案的质量。
这也是我不看好一些厂商推出大模型的的原因,很简单,因为他们的业务场景是很难落地的,只能是搞一个对话框出来。但是当你把大模型塞进手机之后,一定程度上就可以去掉这个很蠢的对话框。
<hr/>



黑格尔语言就是思维的形体,但实际上,人类承载语言的方式,不仅只有文本,还有语音,而且这两者有所不同,前者更有逻辑,后者更为事实和自然,其实走到AI这一步,可以很好的去消弥这两者之间的差异。
这也就是为什么我们助理都会以语音助手的形式出现,这是一个最为自然的入口,也是一个最为常见的场景,因为日常中的所有交流,都需要声音传递来实现。
当大模型的能力接上系统级别的接口的时候,就可以实现更多场景化的智能处理,这也让我对未来的OriginOS4充满期待。
我举几个例子:
比如你去开会,现在的方案就是,录音,然后语音转文本,你会发现这个转化的文本里边全是嗯嗯啊啊的语气词,又或者是口误,又或者存在一些不重要的关键信息。
而大模型可以帮你做什么呢?
快速总结,提取关键信息,而且这种总结可以套用一些『范式』来完成,比如你也可以要求它以SOWT/5H2W/PEST/4P理论的形式整理,快速地完成一份会议纪要或者是可行性的报告,以PPT或者PDF的形式输出。
其实从技术层面上来讲,这点目前已经可以实现了,但是你需要在不同的设备,服务应用中来回切换:
我经常会用语音备忘录来记录一些灵感,然后将这些录音文件导进电脑,经过一个语音转文字的服务,再粘贴到大模型中,让他处理润色,去除口语,优化逻辑不通的地方,然后我再整理一遍。
手动的跑通这个流程,效率的提升其实并不明显,但是当这套流程落地在手机应用上,就会变得很丝滑,一气呵成。
甚至你都不需要打开录音软件,或者开启相应的功能,你只需要对你的语音助理说一句『开会了』,他就知道下来应该干什么了,应该交付给你一份什么样的东西。
大模型的能力也不仅局限于此。
所谓的人工智能的处理过程,本质上是一个『信息获取』-『意图识别』-『输出执行』。
最初我被大模型震惊,并不是他的回答多么令我满意,而是从字里行间,你会发现,它似乎真的理解了你的问题是什么,快速且准确。
经常会遇到这样的一个问题,想用某张照片但是在相册中死活找不到,虽然相册也有AI分类,但是只是简单的猫狗花草之类的简单归类,当时人类对于图片的记忆,往往是场景式的内容,而这也是大模型相比于传统聚类算法的优势,它可以很快很准确地找到你想要的资源。
但是它不仅是帮你找到,更会识别你的意图,然后做出提示,你是否需要更多的场景的照片,写一篇游记或者是分享给友人,这都是可以实现的场景。
当然,我们也说了,在手机上,意图识别不只局限于文本或者语音的输入,每一次与手机的交互,都会极大地优化这个过程。
4.
当然更大的模型需要你付出的就是更多的计算成本。
凡事讲究一个性价比。
由于算力的问题,目前大模型还是在云端运算的,但是对于手机这种私人化的产品来说,隐私也是一件必须考虑的事情。
于是,大模型本地化成为了一个必答题,我们也不难发现一些端倪。
苹果在A17 Pro 处理器中加入了巨量的晶体管,高通甚至宣布,正在逐渐转型成一家智能边缘计算(在移动终端等数据源头提供计算服务)的公司。
于是问题就变成了——
把大模型带进手机,拢共分几步?
vivo的策略是什么呢?
推出一个大模型矩阵,一共包含五个大模型,10亿,70亿,660亿,1300亿,1750亿。
为什么vivo不像别人一样,发布一两个模型就够了,原因很简单,大模型要基于『手机生态』来承载落地。
作为一个应用,最重要的还是性能;
你问一个问题,几十秒之后才能给你回复,你会用吗?
而承载在一个移动端的设备上,势必要考虑性能和功耗。
如果在本地运行一个AIGC的应用,那结果是惨烈的,我曾经在安卓手机上部署过stable diffusion,生成一张512的图大概需要4分钟,跑几张之后,你会发现手机电量已经没了一大半,也几乎烫的不能用了。
所以我们就需要一个适合手机这个体量的模型来进行应用,能够快速反馈,也不会增加功耗,就像一个普通的应用那样。当然,从私人数据安全出发,一个不出端的大模型,也是必要的。
当然小模型也有小的限制,虽然快,但是能力有所削弱,简单的任务就交给1b来完成,如果涉及到复杂的分析和决策,那还是得交给云端的大模型完成,本质上来说,vivo五个大模型,更像是一个智能体,什么样的场景应用什么样的模型,才能在性能、效率、资源、成本间找到一个最为合适的策略。
很明显,这是一个很务实,且很有效的落地方案。
5.
大模型的本质上就是整个互联网或者人类文化的『压缩采样』,不同参数模型的区别只是采样的宽度和深度的不同而已。
我一直认为,未来也许只会有一个『唯一的大模型』,只能这样,才能发挥出最为强大的能力。
不过目前这个状况,你也知道,各自为政,重复造轮子,对于消费者来说,我们并不需要一个重复的GPT4。
这也就是必须要为vivo点赞的原因,vivo分享了7b和端侧过滤的能力,对于业界来说,无疑是一件好事。
6.
刘慈溪在《乡村教师》里边写到:
舰队统帅大怒,“你是想告诉我们,一种没有记忆遗传,相互间用声波进行信息交流,并且是以令人难以置信的每秒1至10比特的速率进行交流的物种,能创造出5B级文明?!而且这种文明是在没有任何外部高级文明培植的情况下自行进化的?!”
 “但,阁下,确实如此。”
 “但在这种状态下,这个物种根本不可能在每代之间积累和传递知识,而这是文明进化所必需的!”
现在来看,有时候科幻也会被时代所局限。
就目前来讲,手机已经成为了我们身体的一部分,早前一部分大脑的记忆功能,比如友人的电话号码,到天安门怎么走,这一部分记忆已在手机上承载。
而现在的人类的一部分思维,也可以由手机来承载。从某种程度上来说,二十年前的人类和现在的人类已经不是一类生物了。
当我们谈及人工智能的时候,总有人会提到『智械危机』。
但对于人类来说,还有一条路可以走,『成为人工智能』,毫无疑问,手机将会成为这个过程的载体。
当然,这里的『手机』不只是直板屏幕这样的形态
而寄居手机中的大模型,则是这个过程中一个重要的里程碑。
send2008 发表于 2023-9-27 02:38:23|来自:中国 | 显示全部楼层
我是某985的CS本硕,SE PHD在读,研究方向是使用深度学习的方法应用于计算机视觉的检测和分割任务,比如缺陷检测以及姿态识别等等。
所以这算是个我行业相关的问题,来聊聊这件事。
在回答前一个问题「如何看待vivo大模型即将发布」之前,我想先聊聊「为何手机厂商都在布局 AI 大模型」。
大模型的诞生

目前我们常说的大模型,通常指的是NLP(Natural Languate Processin,自然语言处理)中的LLM(Large Language Model,大语言模型),在CV领域上的大模型目前用于专业领域比较多,普通消费者遇见的机会不多。
NLP通俗的说,就是让AI可以听懂并且响应人类语言,这个很容易理解,大家即使没有使用过ChatGPT等基于LLM开发的聊天机器人,也多少听说过这类东西能做什么。
而这个大模型的「大」字,究竟是说什么「大」?
这得从深度学习模型和人工智能这俩概念聊起,深度学习其实只是人工智能的路线之一,它的根基——神经网络的很多基本技术和概念,其实在上个世纪就形成了。
通过神经网络来搞人工智能,是个偏向仿生学的理念。
现代解刨学告诉我们,动物的大脑是由神经元以及神经元之间的连接构成。人类的思考,本质上是大脑中大量神经元之间,按照规律传递化学/电信号来实现的。
人类的学习过程,实际上也是这些神经元们建立或者断开连接的过程。
神经网络的原理与之类似,想通过计算机软件的运算,构建一种神经元一样的数据结构,让计算机拥有类似的思考和学习能力,而这些人造神经元中,记录不同神经元之间连接关系的数据量,就是「参数」。
最早的神经网路可以追溯到上世纪中期的感知机:


但很显然,这东西不会有太好的表现。
很简单的道理,没什么动物的神经网络构造会像这样简单,而当时的计算机也并不能应付更复杂的网络。
所以在相当长的一段时间,人们指的AI更偏向于机器学习中的非深度方法,比如做个K-means聚类,做个SVM分类等等。
因为相对于神经网络来说,它们要求的计算资源很低,而且在特定的专业任务上也能有一个不错的表现。
后来有意思的事就来了,计算机性能提升到了早年研究者难以想象的程度。
人们发现可以设计更复杂,层数更多的网络,计算机也能求解了。
这个层数更多,也就是所谓的「深」度学习。


同样是很简单的道理,在纸质书的年代,我们学习越复杂的知识,就会遇见更厚的书,因为表述一个复杂的概念,需要很多简单的概念堆积成一整套结构。——也就是越深的模型,越能描述更复杂的概念。这和神经网络学派的仿生学的理念也不谋而合,动物的大脑本就复杂的,AI要想搞得像人,肯定也得往这个方向发展才是。
在深度学习的神经网络模型火起来之后,研究者们广撒网的做了很多工作,比如更复杂的模型结构、更多样的训练方法、更多样的神经元构造等等。
总体上看,人们发现设计包含更多神经元的模型,就需要更大的内存(不是硬盘)来存储模型,也需要更多的数据和算力来训练模型。
在一段时间的发展后,人们摸清楚了,要如何使用几十台甚至几百上千台服务器共同训练一个模型,并试着将人类互联网几十年积攒下来的海量数据进行整理,并喂给这个模型。
人们发现当神经网络的数量,也就是参数的数量不断变「大」,并超过某个数量级时,模型开始变的不再只能简单的和人类一问一答或是做些特定的识别任务,它们开始具有推理、生成的能力,可以理解语言的含义,并做出解答时。
——「大」模型诞生了。
新世代的基础

大模型的诞生过程,乃至整个神经网络学派发展的过程,概括起来就是四个字——「力大砖飞」
实际上,人类现在也并不能严谨的弄清AI神经网络模型为什么会有效。
比如,为什么参数高到一定程度,到了大模型的程度,模型就具有了推理能力?
像这样的问题,其背后是没有非常严谨的数学解释的。
就像人类的脑科学研究者还在孜孜不倦的研究人脑的学习和推理原理一样,这些网络为什么可以工作,也是AI的热点研究方向之一,通常是数学专业的人在做。
但大多数人来说,这是无所谓的事。
就像我本人并不知道我的大脑是怎么工作的,也并不妨碍我一边喝着糖和咖啡因,一边在这里回答题主的问题一样,大模型好用就够了。
大模型好用在哪呢?
很明显的一个应用,就是给人类提供「电子幕僚」。
比如题主现在提出的问题,就需要一个科技Yttrium一边掉着头发,一边查阅书刊和搜索引擎,一边绞尽脑汁的敲字,来用通俗易懂的语言解释什么是大模型,来充当这个「幕僚」的身份。


而且我这个肥宅要喝咖啡和可乐,要吃炸鸡,然后在两个小时后才能写完回答。
但当计算机实现这个能力之后,只要通电和通网,它可以随时随地的,在几秒内完成回答。
而且它的背后是网络上人类积攒的海量知识,远远超过我作答时书架上三两本我甚至都没看完的东西,以及为了完成回答,在百度/谷歌上搜索的一些文章。
这种足以让我一个根正苗红本硕博985学渣瞬间躺平的能力,是极其可怕的,而这还是仅仅只是AI大模型发挥作用的一小部分。
如果在民用和各种专业领域大规模使用这样的工具,必然会对当前社会的生产力做出不小的推动,很多行业的人力运转逻辑都会为此重建。
也正是基于这样的逻辑,AI大模型,以及背后环绕的一整个算力部署、算法研发、训练调优生态,被很多大佬认为是未来世界的基石。
为什么是手机厂商

聊到这里,其实「为何手机厂商都在布局 AI 大模型」,答案已经逐渐浮出水面。
首先,我们完全找不到另一种,可以像手机一样适合AI大模型落地日常生活的设备。
我们可以认真的剖析下我们手上的手机,它有着最适合作为日常AI终端的全面性:

  • 它具有通信功能,可以和运行AI大模型的服务器集群链接;
  • 它具有大容量的内存,可以在本机中运行AI神经网络模型,并且内存容量在不断增大;
  • 它具有强悍的运算性能,可以在本机中运行AI神经网络模型,并且运算性能在不断增大;
  • 它具有多维度信息录入能力,麦克风、触屏、摄像头、地磁传感器、气压传感器、卫星定位、加速度传感器等等,并且传感器的数量和能力在不断增加;
  • 它具有多维度信息呈现能力,屏幕甚至折叠屏幕、听筒和扬声器、振动马达可以传递丰富的信息;
  • 它具有足够的便携性能,可以不接入电源,通过电池续航独立工作,体积和重量适合塞进口袋并且手持使用;
  • 它具有当代生活所必须的丰富软件生态,人们在日常生活的方方面面都很难离开手机,使用AI对软件生态提升效率和体验,会直接提升人们生活的效率和体验;
运算能力更强的个人PC不可能24小时待机并让人拿在手里,而随身佩戴的智能穿戴设备,其计算能力则难当大任……
所以,手机,确实是最合适的,哪怕将来手机的形态发生了革新,我们依然需要手机这样定位的设备来让AI部署并与我们交互。
在这之后,一个新的问题出来了,为什么手机厂商要自己搞?
为什么要自己弄,而不是直接用国内外互联网大厂已经做好的模型做接入呢?
原因有很多,但我觉得可以归类于两个方面:
安全方面,手机是贴身设备,手机厂商是要对用户的隐私安全负责的,接入三方服务越多,暴露的用户信息也越多,AI大模型的问答方式会包含更敏感的隐私信息,负责的手机厂商应该避免将这些信息交给第三方。
不仅仅是隐私,手机会在万物互联中扮演越发重要的角色,而那些具有执行机构的联网设备,对安全的要求会更高,比如与手机网联的智能汽车,针对这方面安全性的攻击会带来比隐私泄露更可怕的后果。


体验方面,手机系统的底层功能接口可以开放给自己研发的模型,不管是现在的云端部署,还是将来的端侧部署,都能带来更丰富、更稳定的使用体验。
体验方面的原因,其实也会叠加到安全方面,当有第三方参与时,系统放开底层权限则意味着不安全,而不放开,则意味着有些功能没法实现。
比如在将来进行端侧部署的时候,系统的性能调度和内存管理必须深入的对接AI大模型的本地服务,才能让整机的AI体验做到最佳,采用三方开发的SDK是无法实现这一点的。
而且,AI大模型在手机上的落地应用,显然会是一个长期演进的过程,如果想让自己的产品快速高效的迭代,并保持领先的竞争力,手机厂商基本上也就只有自研一条路可走。
就像现在主流的手机大厂都是自己组建了大规模的影像团队一样,这种在未来会是高频次并对用户体验影响巨大的基础功能类服务,是必须得牢牢握在手机厂商自己手中的。
如何做好手机大模型

在完成背景的介绍后,我们终于可以聊一聊前一个问题了「如何看待vivo大模型即将发布」
关于vivo的这个大模型,其实除了「即将发布」这个信息外,其实还有几个可以补充的消息。
比如,vivo的7B大模型模型vivoLM-7B(7B指参数量在70亿量级),在C-Eval中拿下了74.3的平均分,在受限访问的模型(也就是模型结构暂未公布)中当前排名第四。


这个成绩是当前手机厂商的最高分,也超过了目前所有已经公开访问的模型。
目前已经公布的模型最高分是Alibaba Cloud的Qwen-14B,平均得分是72.1分,而非常著名的,来自OpenAI的GPT-4模型得分是68.7分。
C-Eval基本上是国内最权威的「中文」大模型基准了,是清华大学、上海交大、爱丁堡大学共同完成的评价体系,题库中覆盖人文,社科,理工,其他专业四个大方向,52 个学科,比MMLU等榜单更符合国内的使用环境(比如MMLU中的历史问题是考察的美国历史)。


这个模型考察的是知识和推理的能力,并且所有题目是经过额外的处理和人工清洗的,不会使用网络上已经存在的真题,而且测试集只公开题目不公开答案,一定程度上防止大模型研发团队利用过拟合(可以通俗的理解为考前给模型透露真题)拿到高分。
所以,确实可以说vivo这个即将发布的大模型,在模型性能上是非常先进的。
而且它只有7B的参数量!
7B这个数字为什么我要强调下呢?
因为,这是一个小到足以塞进手机的模型。
虽然vivo的7B模型没有开源,但通过参数量反推,7B模型需要的内存(显存,服务器通常使用显卡来运算)容量都不大,float 16的精度下也就十几个G,如果采用int8甚至int4的精度,做到10个G以内是没有问题的。
让模型运行的内存空间,是比计算性能更重要的指标,一个模型能不能跑,是0和1的区别,而计算性能则更多反应出跑起来后运行速度的快/慢。
这样的大小是可以塞进一个旗舰手机的,手机可以做到一小半的内存来跑模型,另一多半的内存来做数据处理和业务应用的响应。
这意味着这样的模型,已经初步具备了端侧部署的能力。当然,目前距离大模型的手机端侧部署,确实还差很多问题要解决,但能在这样小的空间占用下,做到领先的性能,意味着这个路线已经迈出了划分「能」和「不能」之间的起跑线。
所以对于「如何看待vivo大模型即将发布」,以及「如何做好手机大模型」这样的问题,vivo用实际行动做出了解答:就是要做大模型中的小模型,用瞄准手机端侧部署的未来理想,让模型性能做到领先。
当然,能做到这一点,和vivo从2017年开始筹备,2018年正式建立人工智能全球研究院,着手AI研发,有很大的关系。
研发AI技术,当然得从根底做起,一直以「本分」作为企业文化的vivo也是从AI最根底的基础开始做起的。
当前流行版本的人工智能的四要素是数据、人力、算法、算力,在一些更古老的版本里,通常称之为人工智能三要素,少了一个人力。
AI的落地,并不只是科学问题,它实际上包含了非常高的工程难度。
而大模型使用的数据、人力、算法、算力,其实有很多都是之前各种小模型中都会有用到的,手机厂商只有提前成立团队,并确认认真的搞AI,做出积累而不是浮于表面功夫,才能在大模型爆发后迅速跟进,做出性能优异的作品。
这样的优秀模型表现,实际上也正是vivo一直深耕AI四要素积累后交出的答卷。
其实,能做出优秀的7B模型,这样较小的参数体量,带来的也并不只是面向未来,端侧部署的可能性,相比于更大的模型,它可以上线后立竿见影的节约服务器集群的租用开销。
而vivo的底牌也并不仅仅于此,在博鳌的论坛里,vivo公布自己的模型其实并不是这一个,而是五个。
vivo构建了五个参数数量不同级别的大模型,分别应对不同场景下的性能、精度、成本等综合因素。
这种做法其实很像手机的多核处理器采用的超大核、大核、中核架构。
依赖这样的大模型组合拳构建的智能体,vivo可以在手机大模型上线OriginOS4(目前听到的消息,vivo将会在vdc开发者大会发布搭载自研大模型的OriginOS4)之后,拥有令友商羡慕的战术空间,并在新的时代赢下主动权。
对未来的展望

客观的说,虽然很多人对大模型的未来抱有积极的态度,但现在确实有非常多的问题要解决:
比如我前面提到的端侧部署场景,从模型自身的角度看,一定会出现模型压缩后精度下降导致的性能下降问题。
比如端侧部署场景下,手机芯片的性能调度、手机内存的分配、手机功耗的控制,和响应体验的要求之间如何取舍。
比如云端部署场景下,运行在手机本地的助手如何改进,如何保证用户体验,并将模型的推理能力应用化,切实给用户提供价值;
……
有意思的事,这些问题的解决方案,其实也已经体现在了手机厂商的技术更新中。
比如OriginOS等国产定制系统一直在性能功耗、内存调度这些领域内深度打磨;比如vivo自研芯片已经出到了V3,手机厂商的这些自研芯片,本质上其实都是NPU,比通用CPU更适合进行AI运算;比如Jovi等智能助手,已经早早的探索到了搜索、建议、扫描、车载等众多功能,并等待AI大模型带来的跨越式的「智力」提升……
我觉得在未来,大模型会是一种基础设施,云计算、边缘计算、端侧计算多层级智能,是构建人类未来智能社会的基石。
届时,不只是手机,人类身边的计算终端都要拥抱人工智能,而手机作为最「贴身」的设备,会是其中最值得关注的先行者。
期待手机厂商们能给这个未来做个优美的序曲。
netwolf 发表于 2023-9-27 02:38:28|来自:中国 | 显示全部楼层
一个很有意思的话题,智能手机的未来在哪里?或者说,手机会沿着怎样的思路去持续迭代演变?
上世纪八十年代,motorola带来了第一代的民用手机,它的核心定位很简单,就是一部可以移动的电话。此后的二十多年里,手机的技术部分快速进步,体积缩减和价格下降是主旋律,但基本的产品底层逻辑保持不变。
2007年,iPhone横空出世,大屏+多点触控解放了手机的想象力,叠加3G和4G网络的全面普及,移动生态极速发展,手机从移动电话进化到移动终端,从而成为个人最重要的随身工具,并深刻影响和改变了我们的生活方式。
此后的十多年时间里,技术在发展,产品在进步,但产品的内核逻辑依然没有变,更大的屏幕、更强的性能和更好的影像并不会改变这一点。
但,如今,我觉得又站在了一个新的时代起点上了。
此前关于虚拟现实的讨论中,很多人提到,智能眼镜有没有可能替代手机成为全新的各种核心智能终端?
这个讨论里,过度关注虚拟现实的价值,而忽略了整个的智能化大进程,所以我们后面看到这个讨论并没有持续的生命力,慢慢也就淡出了人们的视野。
所以,这个智能化的关键在哪里?
我觉得是以一种全新的方式来满足用户的需求,这个全新方式的关键,是智能,从被动到主动,而大模型,是整个的智能化过程的一个关键节点性东西,它必将深刻改变着这个行业,所有对未来抱有充分期待的厂商,必然需要在这个赛道持续发力,且持续领先。
所以,第一件事儿,大模型的价值到底在哪里?
ChatGPT的火爆,把大模型带入了大众的视野,但人工智能这个事儿,并不是以此开始。
人工智能最早可以追溯到上个世纪五十年代,以专家系统知识库为主,去做一个规则的推理。80年代起,机器学习开始出现,用数据去区分概率,比如神经网络、卷积网络等等,而标志性事件是阿尔法狗出现并在围棋上战胜最顶级的人类选手。再然后就是Chat GPT把大模型带入大众视野了。
大模型的出现和进入民用应用领域,这是一个关键的节点,而这个事情对于智能终端来说,我觉得是下一代的技术变革的起点。
对于终端来说,大模型所带动的人工智能的飞速进步,它最核心的吸引点在于终端服务边界的全新定义。
过去的手机,它是一个被动的工具,我们按照手机熟悉的范式语言进行沟通,手机给出响应的反馈,这种范式包括最初我们用键盘来输入和控制,后面用触控来输入和控制,以及,再后面的语音输入和控制。
键盘、触控或者过去的语音输入,输入的方式在变化,但基础逻辑没有变,它都是基于一个基本结构的人的主动选择,机器只是被动执行,背后的逻辑主体是人,是人的工作的具象化过程。
而在大模型下,被动式反应快速向主动式反应进化。
一个简单的例子,比如我们去吃饭。
在目前的智能手机上,首先我们需要用地图找到目标区域附近的饭店,然后通过饭店的官方介绍、用户点评以及我们的经验做一个判断,最后通过手机导航到达这个区域。
而在大模型下,这个逻辑会变成,你只需要告诉手机,我想在什么时候,什么区域,什么时间吃什么口味的,什么价格的饭。然后,整个的信息搜索、识别、比较和决策,都交给手机来完成。
而这个,所能够带来的想象力空间,是超出了当前产品边界的。
第二件事儿,为什么vivo要做大模型?
技术永远是产品发展的第一推动力,至少在想象力空间上,大模型正在展现出重新定义产品的可能,虽然这个可能的实现也许会需要很久,五年甚至是十年以上才会以一个真正成熟的状态呈现,过程中需要解决的问题很多,技术、生态和商业层面的,但一旦这个状态真正呈现,那么它将彻底重构这个行业的格局。
而这个,我觉得才是个人智能终端未来发展的最核心的底层逻辑,相较之下,我们的核心终端的形态到底是手机、手表或者眼镜之类的,反而不重要。
讨论未来个人的核心设备是手机还是眼镜,反而是舍本逐末了。在产品最内核的进化脉络被把握的时候,形态的变化只是技术节点上的顺水推舟。
我们去看vivo整个的发展历程,会很容易发现,他们对于整个行业进化的底层内核的把握,一直是很精准的,这也是为什么整个行业起起落落,但vivo一直在最核心的竞争圈子内。
2016年,vivo的大崛起,最核心的部分是对于线下渠道的标准化和规范化改造,而这种改造所创造的用户价值,才是vivo可以一跃升级为行业巨头的根本所在。
这部分被很多人忽略了,智能手机发展第一阶段里,大家把目光都聚焦在了价格和网络舆论上,而很少去关注vivo所瞄准的品质保证、线下服务、渠道乱象整治等等,所以很多人到今天可能都不太能理解,vivo当初为什么能崛起。
2018年,随着智能手机普及潮和第二波的品质化升级潮结束,智能手机进入一个常态化的势能积蓄阶段。
vivo的整个发展重心转向了内在技术核心的塑造上,之后我们看到的vivo高端化的稳步推进,包括系统曾经的进化、影像技术的迭代提升,产品形态的不断探索,等等,都是因为内核脉络的精准把握而实现的。
2022年,vivo凭借押宝天玑9000而一举突破高端,最内核的抓手在于多年影像能力的积累而成为行业真正搞定天玑平台影像调教的厂商。
而现在,在人工智能开始在这个行业显现威力的时候,vivo的大模型也基本进入成熟阶段,成为第一批发布的厂商之一,且技术领先。
第三件事儿,vivo的大模型做得怎么样?
目前的消息,vivo的大模型将会在OriginOS 4上和大家见面,而目前,关于vivo大模型的信息,我们已经可以看到一些信息了,在C-Eval的Models With Limited Access榜单上,vivo排名全球总榜第四,全球中文榜排名第二。


而在CMMLU的榜单上,vivo自研的大模型则排到了第一位。


很多朋友也许会对这个排名感到意外,怎么vivo的大模型排名突然这么高?
这里其实有一个认知的误区,大众开始熟悉大模型是从ChatGPT开始的,但只是说这个事儿把大模型带到了大众认知里,而不是大模型研发的起点。
vivo人工智能全球研究院是2017年开始筹备,2018年正式建立的,至今已经有六年的时间,这个起点我们基本可以认为是2016年阿尔法狗在围棋上赢了人类顶级选手开始的。
到2019年,vivo的人工智能研究人员就是千人以上级别,vivo对于人工智能的理解,也就是数据、人力、算法和算力,规模是质量的起点。
而对于通用人工智能的研究,则是18年的时候开始介入的,主要理由是,手机的智能语音助手开始出现,传统的触控交互开始向语音交互转变,但因为技术的限制,传统语音助手基于范式输入的执行方式,体验并不友好。
对于更大众的用户来说,通用语言的控制才是更正确的方式,也就是让机器理解你的语言,而不是反过来你先学习机器的语言,再与机器交流。
而ChatGPT,恰恰是通用人工智的一个代表性作品,也就是我们所说的,让机器理解我们的语言方式,用自然语义去替代范式语义,同时把人工智能的边界大幅度拓展。也就是说,机器真的能够理解我们正常说话,且,真的可以帮助我们完成正常说话下的任务要求。
大模型进入终端,现在面临两个问题,一个是算法问题,这个是技术上的问题,另一个则是算力和成本问题。对于大模型来说,算力越强自然是越智能,但问题在于,成本和功耗怎么去平衡?
目前的公开大模型计算主要都在云端进行,而云端必然会面临一个问题,手机会记录个人的隐私数据,这部分数据进入云端天然会有潜在的风险,这个问题怎么解决?
对于手机侧来说,理想的大模型当然是在手机端直接运行,用手机本身的算力来解决问题,隐私数据补上云端,安全没问题。自有算力解决,成本也不成问题。
所以vivo即将发布的大模型是一个模型矩阵,而不是单一模型,包括10亿、70亿、660亿、1300亿和1750亿共五个大模型组成,这个区分是按照算力来进行的。
这个是算力的问题,那么,应用场景呢?
第一个能够提升的是输入法的提升,包括智能推荐词和语音输入,这部分可以大幅度提升我们的输入效率;第二个是智能助手,在接入大模型之后,智能助手的能力可以得到大幅度的提升,从简单的对话走向真正可以帮助我们完成很多事情的真正的助手,生活助手和学习助手。
但手机侧的算力毕竟是有限的,如果我们想要真正实现理想的人工智能状态,那么必然需要把一部分高强度算力依赖的部署放到云端去,这就是vivo做大模型矩阵,而不是单个大模型的理由。
结论
大模型出现的时候,尤其是ChatGPT出现的时候,手机厂商应该是最兴奋的了,因为手机是个人最重要的智能终端,也是大部分人的智能设备中心,这是天然更接近用户,更容易打通大模型和用户之间壁垒的载体。
以及,智能手机在智能化发展上的许多瓶颈问题,在大模型逐步成熟之后,看到了解决的可能。
对于手机厂商来说,这是机遇、也是挑战。赢了,可能就是持续突破,领先对手的绝佳窗口期,但如果输了,那可能就是背景板了。
vivo过去几年里,展现了很多很不错的成果,这其中最为人所熟知的是影像能力的突飞猛进,而这背后的核心支撑,其实是长期累计的基础投入。
而到了大模型时代,同样如此,这个投入需要持续的时间更久、需要解决的问题更多,但一旦解决了,且走在了行业前列,那么未来可能的预期收益,必然更大。
当然,对于用户来说,理论上说再说,到底如何,还得等到真实的产品出现,也就是OriginOS 4上的方案量产,再等等吧。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则