AI 技术的最新趋势和应用场景是什么？哪些技术在未来有潜力成为热门创业方向？

zhaoxiaoning · 发表于 2023-9-3 01:49:24|来自：北京

shenzhen · 发表于 2023-9-3 01:49:56|来自：北京

在这个时代，人们可以利用云计算、大数据分析等技术来处理和呈现多模态信息。AI系统可以通过语音和图像识别技术对多媒体文件进行分析，从而实现智能的分类、检索和推荐。此外，随着5G和物联网技术的不断发展，多模态信息的处理和应用将会越来越普及。
AIGC时代的到来，必然会带来巨大的机遇和挑战。

AIGC带来的机遇

01 AIGC时代：万物皆可AI生成

AIGC是一种可以广泛应用于文本、图像、音频和视频生成的人工智能技术。在文本生成方面，它可以运用多种算法进行创作，例如Jasper、copy.Ai、ChatGPT、Bard和GTP4等。在图像生成领域，它可以使用技术如EditGAN、Deepfake、DALL-E和Stable Diffusion等，创造出各种令人惊叹的图片。对于音频生成，AIGC也拥有许多强大的工具，如DeepMusic、WaveNet、Deep Voice和MusicAutoBot等，可以生成高质量的音乐和声音效果。最后，对于视频生成，AIGC同样可以提供很多资源，比如Deepfake、VideoGPT、GliaCloud和ImageVideo等，能够制作出专业级别的视觉效果和动画。总之，AIGC在多个领域都有着广泛的应用前景，并且将会继续不断地发展和完善。

（以上图来自网络）

02 多模态大模型的分类与发展脉络

在单模态模型阶段（2012年前），深度学习技术没有普及，研究人员主要关注单一类型的数据处理，例如图像分类模型AlexNet等。
紧接着进入单模态模型融合阶段（2012-2018年），随着深度学习技术的不断发展和应用场景的多样化，研究人员开始尝试将多个单模态模型进行融合，实现不同数据类型之间的交叉学习和融合，例如HT100M、LXMERT、VisualBERT、videoBERT等模型。
目前已经处于多模态统一大模型阶段（2018年至今），研究人员开始提出采用单个模型处理多个数据类型的方法，这类模型通常包含多种输入和输出方式，需要大量的计算资源和数据支持，已经取得良好的效果。例如UNITER模型，它是一个基于Transformer结构的多模态统一大模型，能够同时处理文本、图片和视频等数据类型。它在内部使用了跨模态交叉注意力机制来实现不同数据类型之间的交互，从而使得整个模型能够更好地理解多种数据的语义信息，并取得了领先的性能。

（以上图来自网络）

03 文图生成AIGC-变得精致，可控

近年来，随着人工智能技术的不断发展，文图生成技术也得到了显著的进步。今天的文图生成模型不仅能够生成逼真高清的图像，还能够实现更精致的效果，并具备可控性。在实现更精致的效果上，研究人员针对传统GAN模型存在的缺陷，提出了许多改进方法，如Pix2PixHD、SPADE等。这些模型能够增强模型输出的细节表现力，生成更加真实、精细的图像。在提高模型的可控性上，研究人员引入了条件图像生成的思想。通过给定不同的条件信息，包括语义标签、风格向量等，可以使模型生成更多样化、个性化的图像。例如，BigGAN、StyleGAN2等模型就能够根据不同的条件生成各种风格迥异的图像。除此之外，研究人员还提出了interpolated GAN和controllable GAN等模型，使得用户可以通过插值等方式来精细控制生成图像的各个细节。总之，文图生成技术在逼真高清的图像生成上取得了巨大的成功，在精细度和可控性方面也有了很大提高，这些技术的不断进步将为我们带来更加优秀、多样化的文图生成应用。

（以上图来自网络）

然而，文图生成AIGC的出现使得画风变得更加逼真高清，更有风格和意境。文图生成是利用人工智能技术根据输入的文本生成图像。在文图生成的研究中，逼真高清、融合多种风格和意境的图像生成是重要的研究方向。其中，高清作画模型如Google Imagen，能够实现高分辨率、逼真的图像生成；而意境绘画模型如StableDiffusion，则注重于将多种风格和意境进行融合，生成更加个性化、有深度的图像。这些模型的应用场景非常广泛，如艺术创作、平面设计等领域。

（以上图来自网络）

04 视频生成AIGC – 自然流畅、栩栩如生

视频生成AIGC（Artificial Intelligence Generated Content）技术正越来越成熟，能够使得生成的视频像真实一样自然流畅、栩栩如生。视频生成AIGC技术所用的算法和模型也得到了不断的优化和改进。新型的神经网络算法、光学与物理学建模等技术被引入到视频生成AIGC中，使得生成的视频更加逼真。视频生成AIGC的研究重点在于如何捕捉到影片的场景、运动和情绪，以此生成自然流畅的视频。为此，研究人员将深度学习算法应用于视频生成，使得机器可以从大量的视频数据中学习各种动作和情感，从而产生栩栩如生的视频。此外，生成的视频不仅要接近真实，还要做到自然流畅。研究人员还提出了许多技术手段，比如光流分析、双向循环生成模型等，能够在不同场景下实现平滑过渡，从而使得视频更加自然流畅。视频生成AIGC技术的发展使得我们可以生成更加逼真、自然流畅的视频，应用场景非常广泛，如影视制作、游戏开发等领域。未来，视频生成AIGC将会进一步推进技术的发展和创新，给我们带来更多的惊喜和新体验。

（以上图来自网络）

05 多模态AIGC大模型驱动的具身智能

多模态AIGC大模型驱动的具身智能是一种人工智能技术，它可以将传感器信号和文本输入结合起来，建立语言和感知的链接，从而操控机器人完成任务规划和物品操作。谷歌推出的5620亿参数PaLM-E就是其中的代表。这种技术的应用场景也很广泛，如智能家居、无人驾驶和工业自动化等领域。通过大模型驱动的具身智能，机器人可以更加智能地感知周围环境，并根据文本输入来规划相应的行动，实现人机协同。 PaLM-E模型采用了先进的多模态AIGC技术，它可以结合图像、声音、触觉等多个传感器信号来进行深度学习，并从中提取出关键特征。同时，PaLM-E还能够将文本输入转换为语义表示，与感知信息相结合进行综合判断和决策。这种技术的发展使得机器人可以更加智能地感知和理解周围环境，进而实现精准的任务执行和物品操作。 PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。
点击此处查看视频
（以上视频来自论文《Google’s PaLM-E is a generalist robot brain that takes commands》）
06 GPT-4 的发布，标志着 AIGC 迈入了多模态融合的新纪元

GPT-4的模型取得了重大突破，它拥有强大的图像识别能力，处理长达 2.5 万字的文本输入，让回答准确性大幅提升，以及能够生成歌词、富有创意的文本，可以实现风格的多样化。
GPT-4 作为一个强大的多模态模型，能够接受图像和文本输入，并输出准确的文本回答。实验证明，GPT-4 在各种专业测试和学术基准上的表现堪比人类水平。举个例子，在模拟律师考试中，GPT-4 能够取得前 10% 的成绩，而 GPT-3.5 则稍显逊色，只能排在倒数 10%。GPT-4 的新功能允许用户指定视觉或语言任务，并以纯文本设置并行处理文本和图像形式的 prompt。具体而言，当输入包含文本和图像时，GPT-4 能生成相应的文本输出，如自然语言、代码等。在许多领域，包括带有文本和照片的文档、图表或屏幕截图等，GPT-4 都展现出了与纯文本输入类似的功能。此外，它还可以利用为纯文本语言模型开发的测试时间技术进行增强，如少样本和思维链 prompt。GPT-4是世界第一款强有力的AI系统，会掀起一场新的工业革命，带来新的社会分工，创造新的应用场景，全面提升人类的智能化水平。

（以上图来自网络）

如今，虽然大模型已经建立了基础，但真正的挑战仍然在于如何将其应用到实际场景中。
例如，在自动驾驶领域，需要考虑不同的天气条件、不同的交通状况等复杂情况，这些都需要AI技术在实际应用中不断实现迭代和优化。此外，AI在推理、判断和创造等方面仍面临许多挑战，实现真正的智能仍然需要突破。因此，虽然大模型已经取得了重大进展，但AI的发展之路仍然任重而道远。
这就不得不提一下华为云发布盘古大模型了！
中国，东莞，2023年7月7日，华为开发者大会2023（Cloud）7月7日在中国东莞正式揭开帷幕，在下午举行的大会主题演讲中，华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中，盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向，持续打造核心竞争力，为行业客户、伙伴及开发者提供更好的服务。昇腾AI云服务单集群提供2000P Flops算力，千卡训练30天长稳率达到90%，为业界提供稳定可靠的AI算力，让大模型触手可及。

华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0

张平安表示：“盘古大模型要让每个行业、每个企业、每个人都拥有自己的专家助手，让工作更高效更轻松。我们始终坚持AI for Industries的战略，在深耕行业的道路上不断前行。我坚信大模型将重塑千行百业，而每一个开发者，都将是改变世界的英雄。”
盘古大模型3.0：重塑千行百业

华为云盘古大模型从一开始就聚焦为行业服务，本次大会发布的盘古大模型3.0也是一个面向行业的大模型系列，包括“5+N+X”三层架构：
L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型，提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型，匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集，包括NLP大模型的知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力，这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型，盘古提供一致的能力集。
L1层是N个行业大模型，华为云既可以提供使用行业公开数据训练的行业通用大模型，包括政务，金融，制造，矿山，气象等大模型；也可以基于行业客户的自有数据，在盘古大模型的L0和L1层上，为客户训练自己的专有大模型。
L2层为客户提供了更多细化场景的模型，更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景，为客户提供“开箱即用”的模型服务。
盘古大模型采用完全的分层解耦设计，可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集，也可以单独升级基础模型，也可以单独升级能力集。在L0和L1大模型的基础上，华为云还为客户提供了大模型行业开发套件，通过对客户自有数据的二次训练，客户就可以拥有自己的专属行业大模型。同时，根据客户不同的数据安全与合规诉求，盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

华为常务董事、华为云CEO张平安

“盘古为行业而生，就要为行业着想，更好地服务千行百业的客户”，张平安表示。如今，盘古大模型已在金融、制造、医药研发、煤矿、铁路等诸多行业发挥着巨大价值。
在政务领域，华为云携手深圳市福田区政务服务数据管理局，上线了基于盘古政务大模型的福田政务智慧助手小福，能够精准理解民众咨询意图，改变传统的一网通办模式，把老百姓的话语转化为政府办事的语言，让城市更有爱。盘古政务大模型对超过20万条政务数据进行精调，包括12345热线、政策文件、政务百科等，掌握了丰富的法律法规、办事流程等行业知识。基于盘古政务大模型的小福，在一网通办业务中体现出行业性、专业性、领先性和惠民性。

华为云EI服务产品部部长尤鹏介绍盘古政务大模型

在煤矿领域，盘古矿山大模型已经在全国8个矿井规模使用，一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景，让更多的煤矿工人能够在地面上作业，不仅能让煤矿工人的工作环境更加舒适，而且可以极大地减少安全事故。
在铁路领域，盘古铁路大模型能精准识别现网运行的67种货车、430多种故障，无故障图片筛除率高达95%，成为货运列检员身边有力的数字助手，将列检员从每日数百万张的“图海”检测中解放出来。
在气象领域，盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型，同时预测速度也有大幅提升。原来预测一个台风未来10天的路径，需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型，通过AI推理的方式，研究者只需单台服务器上单卡配置，10秒内就可以获得更精确的预测结果。

华为云人工智能领域首席科学家田奇介绍如何从基础大模型炼成行业大模型

在金融领域，盘古金融大模型可以对银行的各种操作、政策、案例文档进行预训练，能根据客户的问题，为柜台工作人员自动生成流程和操作指导，将原来需要平均5次的操作降低为1次，办结时间缩短5分钟以上。盘古大模型让数十万网点柜员都拥有自己的智慧助手。
在制造领域，过去单产线制定器件分配计划，往往要花费3个小时以上才能做齐1天的生产计划。盘古制造大模型学习了华为产线上各种器件数据、业务流程及规则以后，能够对业务需求进行准确的意图理解，并调用天筹AI求解器插件，1分钟即可做出未来3天的生产计划。
在药物研发领域，原来一款新药研发平均需要10年时间、花费10亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球40年来首个新靶点、新类别的抗生素，并将先导药物研发周期缩短至1个月、研发成本降低70%。
技术扎根、极致效能，打造世界AI另一极

大模型的创新不仅仅是模型自身的创新，更依赖于AI的各项根技术创新。华为在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台，以及异构计算架构CANN、全场景AI框架昇思MindSpore，AI开发生产线ModelArts等，为大模型开发和运行提供分布式并行加速，算子和编译优化、集群级通信优化等关键能力。基于华为的AI根技术，大模型训练效能可以调优到业界主流GPU的1.1倍。

华为诺亚方舟实验室主任姚骏介绍盘古基础大模型全栈创新

算力是训练大模型的基础。在本次大会上，张平安宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外，还支持Pytorch、Tensorflow等主流AI框架。同时，这些框架中90%的算子，都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。
此外，在大模型训练过程中经常会遇到GPU故障，研发人员不得不经常重启训练，时间长，代价大。昇腾AI云服务可以提供更长稳的AI算力服务，千卡训练30天长稳率达到90%，断点恢复时长不超过10分钟。例如，美图仅用30天就将70个模型迁移到了昇腾，同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速，AI性能较原有方案提升了30%。
“为了帮助全球客户、伙伴、开发者训练和使用大模型，我们致力于为全球客户打造世界AI另一极，为所有AI开发者提供新的选择”，张平安表示。
深度融合，盘古大模型重构产品创新

除了在千行百业的落地实践，华为云盘古大模型也深度融入了华为云的产品服务，重构产品创新。
例如，在资料服务中，通过盘古大模型的文案生成和代码生成技术，能够提升资料撰写和前端代码编写效率，将新产品上市、赋能周期大为缩短。在云客服，通过嵌入行业知识库和意图挖掘能力的对话问答，实现全流程AI优先作答，提升客服工作效率30%。在BI，通过NL2SQL和AutoGraph智能路由，实现SQL到可视化图表的自动推荐，通过多轮自然语言交互，让人人都能便捷地从数据中洞察业务细节。在云搜索，通过多模态Embedding和NL2API技术，实现视频、文本、图谱等广泛场景搜索，借助强大的语义理解和泛化能力，让搜索准确率提高15%。
同时，华为云将CodeArts研发工具与盘古大模型相结合，正式发布了面向开发者的智能编程助手CodeArts Snap。该工具训练了760亿行精选代码、1300万篇技术文档，具备智能生成、智能问答、智能协同三大核心功能，可以实现一句对话让代码生成、一次点击即可自动注释和生成测试用例，一条指令即可智能部署，让每个软件开发者都有自己的编程助手。

华为云PaaS服务产品部部长徐峰介绍CodeArts重塑软件开发

此外，为了让企业在AI时代构筑更强的内容创新能力，华为云通过盘古基础大模型赋能MetaStudio数字内容生产线，打造了盘古数字人大模型，提供模型生成和模型驱动两大服务，并已经使用了20万小时音视频数据进行了预训练。基于这两大服务，开发者可以快速生成和驱动数字人模型，赋能在线教育、文娱直播、企业会议等行业应用，让每个企业员工实现“数字人自由”。例如，用户只需在华为云MetaStudio的服务页面上传20秒的个人视频，就可以快速生成个性化的数字人讲解视频，过去3个研发人员3天完成的工作，现在只需要3分钟就可以完成。

华为云媒体服务产品部部长吕阳明介绍MetaStudio重塑数字内容生产

点击关注，第一时间了解华为云新鲜技术~

tjohn · 发表于 2023-9-3 01:50:41|来自：北京

Google Trends 是一个由谷歌（Google）提供的在线服务，用于显示各种搜索查询在特定时间段和地区内的流行度。它不仅可以展示单个搜索词或短语的趋势，还可以比较多个词汇或短语的相对流行度。数据可以按不同的时间范围（如过去一小时、24小时、7天、一年等）以及不同地理位置进行筛选。

就跟百度搜索指数一样，哪个词汇背搜索的多了，就可以反映出在某段时间内的受关注度。

那么我们就可以利用搜索指数来观察和总结AI技术的最新趋势。
首先我们先把近三个月来的AI指数拿出来。

可以看到是一个很典型的时间序列，很有规律。
如果把时间拉长到一年，可以看到在2022年的12月份之前AI的搜索稳定在20左右，然后到了 12月，搜索量开始增多。

接着一直升高，直到5月份左右达到最高100，然后开始回落，开始稳定在50-75之间。
那么我们可以假设2022年的12月左右和2023年的4月左右在AI届有了比较重大的消息或者事件发生。
那我们先来想想去年的12月份有什么事情发生？
没错，就是ChatGPT的发布。

2022年的11月30号发布了ChatGPT，短暂的发酵后，差不多一周后达到了搜索的高峰期。
然后在2023年的3月23日，OpenAI发布了ChatGPT的Plugins。

它这个玩法也是在当时引起了巨大的轰动。
那么我们来检查下我们的推测对不对。

从这两幅图来看

在绿色框中这一段时间，AI很平稳，ChatGPT还没有出现。

在ChatGPT出现之后，红色和蓝色基本上呈现着非常相似的变化。
把过年的数据拿出来做一个相关性correlation分析的话，可以看到他们的相关系数很高。

其实从肉眼上也能看得出来。
AI和ChatGPT在过去一年变化是非常趋同的。
短的时间尺度，比如一个月，也是非常一致的。

我们可以说ChatGPT就代表了过去一年的AI最新趋势。
而ChatGPT背后的LLM技术就是AI的最热方向。
其他的方向比如扩散模型Diffusion也有不错的发展，具体可看：目前有哪些比较成功的人工智能应用？
所以说，如果想通过ChatGPT来学习人工智能或者任意的学科的话。它比多数书籍更强大，像个知无不言的老师，它可以放大你的能力，比如说你不擅长代码，那么它可以帮助你实现你的想法，无论什么语言它都可以做的非常棒。其实无论是从业者，还是对这一行感兴趣的朋友，都特别推荐去看看「知乎知学堂」的2天公开课，快速掌握大模型的潜力和应用。
伴随着LLM技术的其实有两条赛道。
第一个就是通用型大模型，以ChatGPT，Claude和文心一言，通义千问等为代表，特点就是什么内容都懂一些，可以理解为上知天文下知地理，天上地下无所不知，因为他们的特点就是大规模的利用网络上的资料进行学习和消化，虽然各种胡乱回答的现象依然存在，但不可否认这些问题都是可以在未来一步步的解决并优化的。
第二个就是垂直型大模型，可以理解为为醉心于某个特定领域的大模型，如果把大模型比做一个接受了全科教育的学生的话，那么垂直大模型就是「教育/医疗/金融等」某个专业的研究生或者说是博士生。

从上面这个图也可以看到，现在拥有大模型且有能力做大模型的公司或者机构，数量还是非常有限的。
而现状是通用型大模型大多数只能存在于规模比较大的公司，因为它需要的很多的钱，以及不需要靠它挣钱的决心，所以目前来看大模型大概率只能是一个只进不出的买卖。
比如OpenAI，最强的ChatGPT，也基本上是赚的少花的多，现在每天要花70万美元在基本运营上，当然了，微软注资100亿美元，可以花很久。
你看其他的，百度的文心一言，阿里云的通义千问等，都是国内的科技巨头在做，并且很明显的，他们有自己的核心赚钱业务。
做大模型他们有充足的资金以及充足的技术，比如都有的AI技术储备和以及人才储备，足够的资金储备，这样才能够在短时间在跟上前沿。
而垂直型模型就比较的经济友好型了。相对于通用型大模型，它就胜在「垂直」。
因为对于垂直型模型的使用者，他们在使用前的需求就很明确，找医疗大模型就是问医疗相关问题，找教育大模型就是问怎么做题。
这样即使垂直型大模型在编程方面完全不懂，也丝毫不影响它在垂直领域的成功。
但垂直模型的智能水平其实非常取决于通用型大模型，因为垂直型大模型的弟子还得是通用型大模型，因为就像醉心于某个研究领域的博士生，他在读博前也肯定得经历完整的小学初中高中大学研究生教育，只有循序渐进的接受教育才有可能从事更高深的研究。
而通用型大模型干的就是这个事。
我其实有点儿担心大模型到了最后其实只需要一个，因为现在的垂直型不过是通用型还不够强。
因为通用型大模型也是不管什么都学，垂直型学的垂直知识会多，但不会多多少。
而随着通用型的更新换代，通用型可能会主宰一切领域。
当然了，这一天估计还会很久，而这段空档期，垂直型当然会继续增强。

我是平凡，一个在英国留学的计算机博士，可以关注我看到更多的分享。

evercrete · 发表于 2023-9-3 01:51:10|来自：北京

巧了，最近我们在做的AI Agent（尤其是LLM-based AI Agent，即基于大型语言模型的人工智能代理）可能是题目中提到的“AI最新趋势”和“可能的创业方向”的共同答案（之一），而具体应用场景就有很多了，比如复杂任务自动化，情感陪伴机器人等。下面详细说一下。

什么是AI Agent：

其实到目前为止也没有明确的定义。我们在之前的论文中定义为（一个基于人工智能的程序，它能够完成需要人类智能的复杂任务）：Artificial Intelligence Agent (AI Agent) is defined as a program that employs artificial intelligence techniques to perform tasks that typically require human-like intelligence. AI Agents can take many forms, from simple chatbots to complex autonomous systems that interact with their environment and make decisions in real time. They can be trained using a variety of machine learning techniques, including supervised, unsupervised, and reinforcement learning, and can be programmed to perform specific tasks or learn from their experiences in order to improve their performance over time.

“AI最新趋势”

ChatGPT（一种特定的LLM）是最火、最新的方向之一，这个大家肯定不质疑。基于ChatGPT的技术自然是更新的技术，虽然很难判断是不是最新趋势，但现在来看AI Agent肯定是最新技术之一。

“可能的创业方向”

LLM-based AI Agent是在类ChatGPT的LLM基础上，进行planning、reasoning、decision、tool usage（规划、推理、决策、工具使用）等技术加成，让LLM不仅能够进行通用问答，还能真正和现实世界中的实体进行交互，达到改变世界的目的。这种技术极大的拓展了LLM的应用范围，自然能够找到更多的创业方向。例如：
1、复杂任务自动化：帮助用户处理繁琐、重复性且需要大量文本处理的工作。例如，自动化文档摘要生成、智能客服和自动回复系统等。其实也有大量的非文本处理任务，这个很关键，具体就不说了。
2、情感陪伴机器人：LLM嵌入机器人，它能够与用户进行自然语言交互并提供情感支持和陪伴。这种机器人可以在孤独、焦虑或需要情感支持的人群中发挥作用。
3、LLM本身就可以完成的文本类任务：例如智能内容生成和编辑（生成文章、博客、新闻稿等，并提供语法纠正、风格建议和内容优化等功能）、教育和培训领域的智能助手（为学生、教师和培训师提供个性化的学习支持、知识问答和辅助教学）。

关键技术

大家如果感兴趣可以看我们的论文《TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents》，里面有一些关键技术的讨论。另外可以看下最新综述《A Survey on Large Language Model based Autonomous Agents》。这两个论文都是近一个月之内的。

romi · 发表于 2023-9-3 01:51:52|来自：北京

其实你要判断趋势很简单，如果连一个毫不相关的人都能知道，且能侃几句的，那就是趋势。
借用饭圈的一个词来讲，那就是“出圈”。
那你再联想一下最近关于 AI 你经常听到的，那 AI 技术最新的趋势应该就在你嘴边了：大模型（Large Language Model LLM）。
大家更熟悉的应该是它的基础模型 ChatGPT。
它可以模仿人类，可以和我们正常的沟通交流，偶尔犯错，但是大多数情况下都是正常的。
从去年底到现在，ChatGPT 越来越火，借着它的东风，也让大模型变的瞩目，各路资本闻着味儿的进场，疯狂开砸大模型。
AI 也再一次成为了大众关注的焦点，有一个有意思的小数据，在夸克发布的《2023高考志愿》报告中，人工智能相关专业的关注度上升最快。
有钱有关注度，这就是掌握了发展密码，这势必会让 AI 技术的发展持续高速。
基于大模型的特点，它衍生出来的应用场景也特别多。
比如智能问答系统，像智能客服。虽然一直都有智能问答，接入了 ChatGPT 的智能问答和之前的智能问答肯定没有可比性，必将有极大的提升。
比如视频制作。RunWay 公司在今年2月推出了一款文本生成视频的 AI 大模型 Gen-1，6 月迭代版本 Gen-2 也发布了，可一句话生成视频，真正的从零开始生产视频。
视频版 Midjourney 又进化了，可一句话生成视频，谷歌注资，将带来哪些影响？

Gen-2 生成的视频

比如 AI 律师。北京大学团队在今年 7 月份发布法律大模型 ChatLaw，用语言模型建立面向未来的普惠法律服务，用技术降低普通人获取法律知识的成本，仅是“降低普通民众获得法律知识的成本”这一条，就价值不可估量。
北大团队发布法律大模型 ChatLaw，为大众提供普惠法律服务，将带来哪些影响？

比如内容审核。8 月 OpenAI（ChatGPT 就是他们研发的）称，他们开发了一种使用 GPT-4 进行内容审核的解决方案，一天可以完成六个月内容审核的工作，有望减轻人工审核元的负担。
北大团队发布法律大模型 ChatLaw，为大众提供普惠法律服务，将带来哪些影响？

当然上面只是一小小小小小小部分，还有更多像 AI 作图、AI 健康这种都是很好的应用场景。
原先的 AI 大众都知道，但也只是知道而已，到底 AI 是什么也没概念，也体会不到，大模型的出现以及和各行各业的结合，会让大众也有了参与感，以及确实从 AI 身上得到实惠。
要说在未来成为热门的创业方向，我之前回答了一个问题：
AI 时代，哪些专业具有更高的就业潜力？替代性较强的专业是否还有继续学习的必要性？我感觉在里面说过一句话：

一个人的工作机会取决于个人有没有跟着时代的步伐进行自身技能升级，是不是敢于拥抱时代的变化，而不是祈求于现在找到关于未来的正确答案。

我感觉换个主语拿在这里依然适用。
如果非得问在未来有潜力成为热门创业方向？
我能看到的热门，是要将 AI 技术与普罗大众日常生活息息相关的结合。
学习人工智能需要哪些基础知识？

hh2008 · 发表于 2023-9-3 01:52:21|来自：北京

很泛的 AI 就不说了，很多创业公司都做了快 10 年了，不存在什么「有潜力」的创业方向了，说说 LLM 吧：

1. 智能虚拟助手和语音交互：随着LLM技术的改进，智能虚拟助手将变得越来越自然、智能和交互性更强。创业公司可以开发具有特定领域专长的虚拟助手，如医疗保健助手、法律助手或金融助手，以满足不同行业的需求。

2. 数据隐私和安全：LLM技术的使用引发了对数据隐私和安全的担忧。创业公司可以致力于开发创新的数据保护和隐私解决方案，如数据加密、去标识化技术或个性化数据控制工具，以确保用户数据的安全性和保密性。

3. 智能内容创作和自动化：LLM技术可以被应用于自动化内容生成和创作。创业公司可以开发智能内容生成工具，如自动生成新闻报道、博客文章或社交媒体帖子的系统，节省时间和资源，提高生产效率。

4. 个性化教育和学习：LLM技术可以用于提供个性化的教育体验和学习支持。创业公司可以建立在线学习平台，利用LLM技术为学生提供定制化的学习资源和辅导，帮助他们更高效地学习和掌握知识。

5. 医疗诊断和治疗辅助：LLM技术可以在医疗领域中应用于辅助诊断和治疗。创业公司可以开发智能医疗影像分析工具，帮助医生更准确地检测疾病、提供个性化的治疗建议，并加速医疗决策的速度，改善患者的治疗结果。
<hr/>But 此时此刻，恰如彼时彼刻
即使现在碰巧能赌对未来的方向，但也是有极大可能死在黎明前的沙滩上
其实，创业完全没有必要去“赌”未来。比如苹果 1993 年发布的支持手写的 PDA（Personal Digital Assistant 个人掌上电子助理）：

Newton是由苹果电脑公司开发和销售的一系列个人数字助理（PDA）。作为PDA类别中的早期设备，它是第一个具有手写识别功能的设备。苹果从1987年开始开发这个平台，并在1993年8月首次推出了这些设备。生产正式结束于1998年2月27日。Newton设备运行在专有操作系统Newton OS上，其中包括苹果的MessagePad系列和eMate 300，其他公司也发布了运行在Newton OS上的设备。大多数Newton设备基于ARM 610 RISC处理器，并且都采用基于手写输入的方式。
尽管在推出时被认为是技术创新，但由于价格高昂以及其手写识别功能存在早期问题等多种因素限制了其销售量。这导致史蒂夫·乔布斯回归苹果后，在1998年指示下最终停止了该平台的开发工作。

1993 年发布的 Newton 是 PDA 这个词的发明者

比如，微软在 1999 年推出的“占领客厅”的“维纳斯计划”：

微软推出了一种被称为“维纳斯计划”的廉价个人电脑替代品，旨在向中国广大消费者提供。然而，该计划的成功与否取决于中国互联网建设的发展速度。这种顶置盒或VCD机采用嵌入式Windows CE操作系统简化版本（即所谓的“维纳斯”），售价仅为个人电脑的五分之一左右。它可以充分利用中国庞大的电视机资源（3.2亿台），让大多数并不富裕的中国消费者能够体验精彩的互联网世界。 1999年3月，微软耗资数十亿美元全球推广“维纳斯计划”，试图进军信息家电领域，但最终以失败告终。

随后，微软又在 2001 年推出了 XBox，但一直发展很慢，直到 2006 年才售卖达到了 2400 万的销量。

维纳斯客厅机顶盒

虽然现在整个技术圈的节奏相比 20~30 年前节奏加快了很多，但个人感觉目前基于 DNN 的 AI 已经进入了生产成熟期，但 LLM 这波热潮还处于期望膨胀期。如果碰巧你在做的领域能够利用 LLM 锦上添花，那请不要犹豫去尝试，但如果你只是一个“圈外人”，我的建议是先潜心学习，不要担心会“错过”。
因为，旁人眼中的爆发前面是很多年的积累，自己眼中的错过其实是跟你毫无关系

[其他] AI 技术的最新趋势和应用场景是什么？哪些技术在未来有潜力成为热门创业方向？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家