科技巨头微软重磅官宣「推出 AI 自研芯片」,如何看待企业此举?

[复制链接]
龙岗数据1 发表于 2023-11-23 02:39:23|来自:摩尔多瓦 | 显示全部楼层 |阅读模式
据微软官网,在当地时间周三(11月15日)举行的Microsoft Ignite全球技术大会上,微软发布自研人工智能Microsoft Azure Maia ,以及英特尔CPU的竞品:基于Arm架构的云原生芯片Microsoft Azure Cobalt。



图片来源:微软官网

Microsoft Azure Maia 是一款AI加速器芯片,用于OpenAI模型、Bing、GitHub Copilot和 ChatGPT 等AI工作负载运行云端训练和推理。
Microsoft Azure Cobalt是一款基于 Arm 架构的云原生芯片,针对通用工作负载的性能、功率和成本效益进行了优化。
全部回复6 显示全部楼层
www.im286.net 发表于 2023-11-23 02:39:56|来自:摩尔多瓦 | 显示全部楼层
这是一款很尴尬的产品,甚至很多自媒体都点出了其中的尴尬。引用一下 @半导体行业观察 的报道
从这些FLOPS 看来,该芯片完全彻底碾压了 Google 的 TPUv5 (Viperfish) 以及亚马逊的 Trainium/Inferentia2 芯片。与 Nvidia 的 H100 和 AMD 的 MI300X 相比,微软Maia 100的差距也并不远。
来到内存带宽方面,微软Maia 100的规格是 1.6TB/s 的内存带宽。这仍然碾压亚马逊的Trainium/Inferentia2,但却逊于TPUv5 ,更不用说 H100 和 MI300X 了。
按照semianalysis的说法,之所以微软会出现这样的“错误”,是完全因为这该芯片是在LLM热潮发生之前设计的。因此,Maia 100在片上内存与片外内存方面有点不平衡——微软在芯片上放置了大量 SRAM,因为大量 SRAM 对于某些模型架构来说是有意义的。大型缓存通常有助于减少所需的内存带宽,但这不适用于大型语言模型。据介绍,微软在这个芯片上使用了 4 个 HBM 堆栈,而不是像 Nvidia 和AMD那样的 6 个和 8 个堆栈。
这种尴尬发生在目前几乎所有的自研AI芯片上。很多AI芯片都是在LLM热潮发生之前立项设计的。其典型特征是为堆算力极致优化,算力堆料堆得足够猛,提供大量SRAM来支持更好的数据复用,很多会在低精度上进行摇摆,很多也会支持很强的互联组更大系统。唯独内存方面一般都只是舍弃或者跟随NVidia,很多连HBM都不会上,即使上HBM也大多是2颗、4颗,微软这款已经算一众尴尬当中相对不那么尴尬的了。
可惜内存带宽成了大模型最大的瓶颈,基于SRAM的存内计算方向走到极致的Cerebras已经尴尬得快抠出三室一厅了。甚至包括NVidia的Hopper、Ada Lovelace和Blackwell都出现了一定程度这样的“错误”。Hopper相比Ampere在算力的堆料上比内存的堆料上更猛,当然内存毕竟也提升了,实际性能当然也提升,但利用率更低了。Ada Lovelace其实更不是标准的计算卡系列,和Turing架构一样,是为了填补图形卡和游戏卡市场与计算卡市场的周期gap增加的一代产品,更是连HBM都没有上,都是用的GDDR。但大模型这种高价值场景出现,游戏市场老黄都懒得照顾了,强行把Ada Lovelace这种为图形设计的卡硬推给大模型市场,这低得尴尬的内存带宽连微软的这款Maia都不如,属实坑钱,最后甚至采取奢饰品配货的方式搭配旗舰计算卡强卖给客户。Blackwell的情况我们不得而知,不过按照各自公开消息猜测,Blackwell原先计划一定是在Hopper的算力和内存上更猛地堆料,但算力的堆料会更猛烈一些。但LLM的热潮发生后,大概率推翻重新设计,但随着AMD的竞争压力,推翻重新设计会留给AMD接近两年的时间窗口抢占市场,又不得不把原先的Blackwell设计拿回来做很多妥协。而推翻重新设计的会作为下一代,以更快的速度推向市场。Blackwell之前的这些空挡只能拿着Hopper架构继续升级内存来顶上,甚至出现了H200这种一代计算卡架构的内存升级版。
Ada Lovelace这种架构定位真的是尴尬到扣地板的,其实Turing和Ada Lovelace都是定位GDDR,可以服务游戏和图形市场,也能服务以前的深度学习推理市场。但大模型把推理卡市场的逻辑彻底颠覆掉了,游戏和图形市场的溢价相比大模型又逐渐让老黄看不上,真是尴尬得要死。
其实尴尬是相对的,只要没有更领先的,就不会尴尬。NVidia这几年虽然算力堆料更猛,但内存堆料也不差,哪怕定位尴尬,仍然可以作为地表最强的LLM产品形态,让其他所有人尴尬。但很可惜,AMD因为多年押宝chiplet降低CPU和GPU双线的研发成本,意外获得了在LLM热潮后快速堆料的能力,MI300系列甚至不需要重新设计,只需要再推出新的封装形态,升级一下内存,就可以快速推出MI300X,搞得老黄得顶着巨大的尴尬疯狂开发布会,拿着手头尴尬的几代架构紧急堆料。
不过反过来讲,这种尴尬是相对LLM热潮之前立项的产品因为半导体冗长的研发周期产生的。两三年后,新一轮的自研芯片出现后,也许尴尬的就是NVidia高企的利润率了。
baicai 发表于 2023-11-23 02:40:09|来自:摩尔多瓦 | 显示全部楼层
微软早就该造自己的 AI 芯片了,可惜被 FPGA 耽误了……
2016 年左右,微软在数据中心大规模部署 FPGA 可是业界的热点,当时我还写过一个回答:如何评价微软在数据中心使用 FPGA 代替传统 CPU 的做法?
在搞完 Bing Ranking 加速和智能网卡之后,每台新上架的服务器已经有了一台 FPGA,然后 FPGA 的老大 Doug Burger 就想,AI 这么重要,FPGA 也可以用来做 AI。
但是我们知道 FPGA 相比同等面积和工艺 ASIC 的算力差着数量级呢,要让 FPGA 的性能追平 ASIC,就只能在量化和稀疏上做文章。
因此就看到了顶会上连篇累牍的 FPGA 量化稀疏 paper,甚至 2-bit 和 binary(1-bit)的都出来了。
其实大多数大模型 16-bit 权重真的可以量化到 8-bit 而不太损失精度。但要压缩到 4-bit,精度一般就会有比较大的损失了。
NVIDIA 的 Tensor Core 也可以很高效地执行 16-bit 和 8-bit 的计算,8-bit 的算力基本上是 16-bit 的两倍。但当年还没有 Tensor Core,FPGA 用 8-bit 的性能就可能有点优势。
最后微软选了用 FPGA 做 AI 这条路,跟 NVIDIA 的差距越拉越大。
还好最近几年微软醒悟过来了,FPGA 还是适合用来做智能网卡,也适合做存储编码、压缩、加密等特定算法的加速,但搞 AI 还是 ASIC 更在行。
danssion 发表于 2023-11-23 02:40:22|来自:摩尔多瓦 | 显示全部楼层
陈巍:微软推出针对大模型计算的专用AI芯片Maia 100,意味着AI芯片走向新的阶段。从目前微软、谷歌、特斯拉、英伟达几家的AI芯片性能和架构比对来看,未来应该不会是英伟达GPU一家独大了。新架构的或逐渐崛起,替代现有GPGPU架构。


典型的近存计算参考上图,包括AMD的3D V-Cache+HBM,以及特斯拉的Dojo,都有非常典型的近存架构特点,而不仅仅是机械的堆SRAM。


很多人感觉Maia的HBM有点小,以及内存带宽也小。但实际上这可能是针对场景权衡后的优化考量。
就超大规模重算力集群来看,有几个业内的观点可以分享给大家,这些观点与大家所知的常规单卡架构观点基本上是相反的。HBM多还是SRAM多,与计算系统偏向单卡还是集群有很大关系。
1)对于计算集群,HBM并非越大越好。(这与单卡HBM越大越方便是相反的)实际上HBM在集群计算重起到的是storage的作用,而不是computing cache的作用。对于大模型计算来说,所有计算中的weight要重复的在芯片内的cache或register中循环。对于使用的weight来说,使用的cache容量x频率≈使用的HBM容量x调度频率。如果cache容量足够大(类似特斯拉Dojo),以空间换效率,将weight分布在集群的不同计算卡上,通过集群分摊chache/SRAM的方式摆脱对HBM的依赖。当然对于Training,则需要更大的HBM来缓存训练数据。
2)内存带宽并不一定是集群计算的瓶颈。(这与单卡内存带宽越大越好相反)在大模型计算(Inference)中,如果计算架构依赖于storage(在集群里是HBM)的频繁调度,就会产生内存瓶颈。但对Maia和Dojo这类架构,为了将性能进一步提升,事实上将大量weight分布在集群中的SRAM上,避免了对HBM的频繁读取。内存带宽只在初次load weight时使用。
对于Azura来说,24个Maia用单位时间跑一个6B的模型,和用单颗Maia用24个单位时间跑一个6B的模型,可以让客户产生更高的满意度和付费动力。事实上Maia可能选择了一个更能优化大模型部署成本(经济性)和满意度的方案。
3)国内自研AI芯片不上传统HBM是非常合理的。HBM其实就是3D版的DRAM,由于制造工艺和产能的原因,导致HBM的性价比很低。从AI芯片产品定位来看,只有英伟达携生态优势溢价可以搞这种低性价比的方案。相对来说,连Apple的 M系列CPU(含有GPU和NPU)也只舍得用LPDDR,而没有直接采用HBM。对于国产AI芯片来说,如果采用HBM跟NV在同一产品定位区间进行竞争(技术跟随,但没有生态优势,HBM产能受限难以大量处货),基本上是肉包子打狗。
就Maia 100性能来看,MXFP4算力达到了3200TFLOPS,MXInt8算力达到1600TFLOPS(这里有可能是新闻笔误,因为INT8算力一般按照TOPS单位)。SIMD算力为48TFLOPS,具备140MB L1缓存和448MB L2缓存,HBM3容量为64GB,TDP功耗860W,采用TSMC N5工艺,面积820mm^2,105BIllion晶体管。


我们对比一下Maia 100和其他几个家世显赫的AI芯片性能,可以看到Maia具有大量的片上SRAM(单芯片合计588MB),甚至超过了特斯拉D1,有可能是存算一体(近存计算)架构的AI DSA。初步猜测其架构和液冷方式与特斯拉Dojo接近。需要注意的是,这款芯片由微软自己设计,而没有经由第三方。
就成本来说,微软使用Maia的成本可能在GPGPU成本的1/3-1/20,对于大模型的推理(Inference)来说,具有非常强的成本竞争力。
Maia一方面代表了Microsoft AI Accelerator,另一方面也代表“希腊七仙女”中的“一姐”迈亚(Maia)。在希腊神话中迈亚是风雨女神,宙斯的情人,同时Maia在希腊语中也有母亲的含义。
按照现在的命名方式,应该会有Maia 200,Maia 300,也不排除下代架构采用其他“七仙女”名字的可能。
延伸阅读:

陈巍:大模型的部署训练架构与算力芯片(收录于GPT-4/ChatGPT技术与产业分析)陈巍:特斯拉Dojo芯片架构全面分析(超越GPGPU?)   收录于《先进封装Chiplet与片上超算》陈巍:被列入禁运的英伟达最先进H100 GPU架构深入解读陈巍:面向大模型的最强DSA——TPU v5e架构分析(收录于《AI芯片设计:原理与实践》)陈巍:微软三星淡马锡领投大模型存算一体,d-Matrix的Corsair架构分析(收录于《先进存算一体芯片设计》)陈巍:存算一体技术是什么?发展史、优势、应用方向、主要介质(收录于存算一体芯片赛道投资融资分析/20220517更新)
gvell 发表于 2023-11-23 02:40:31|来自:摩尔多瓦 | 显示全部楼层
此前,坊间曾传出传言:微软在悄悄构建自己的芯片,用于训练大语言模型,避免对英伟达过度依赖。
现在证实了——传言是真的!
今年的大模型热,让H100的需求激增,单块甚至在eBay上卖出了超过4w美元的价格。
这块大蛋糕,微软绝对不会放下,Azure Maia和Azure Cobalt CPU明年就会上市。




SemiAnalysis深度分析:https://www.semianalysis.com/p/microsoft-infrastructure-ai-and-cpu
Azure Maia GPU(Athena/雅典娜)

虽然微软是四巨头(亚马逊、谷歌、Meta、微软)里最后一个发布产品的,但这次的Maia 100 GPU却毫不逊色——
在算力方面能与英伟达(H100)和AMD(MI300X)一战,在网络IO方面遥遥领先,而在显存带宽方面则稍显落后。与目前使用第二代Trainium/Inferentia2芯片的亚马逊相比,纸面上的各项指标都实现了碾压。




具体来说,Maia采用的是台积电5nm节点工艺,拥有1050亿个晶体管的单片芯片。并支持微软首次实现的8位以下数据类型,即MX数据类型。
算力方面,Maia在MXInt8格式下,算力可以达到1600 TFLOPS,在MXFP4格式下则为3200 TFLOPS。
由于是在LLM热潮出现之前设计的,Maia的显存带宽只有1.6TB/s。虽然这比Trainium/Inferentia2高,但明显低于TPUv5,更不用说H100和MI300X了。此外,微软采用的是4层HBM,而不是英伟达的6层,甚至AMD的8层。
据业内人士分析,微软当时在芯片上加载了大量的SRAM,从而帮助减少所需的显存带宽,但这似乎并不适用于现在的大语言模型。




Maia的另一个有趣之处,便是微软对网络的处理。
就AMD和英伟达而言,它们都有自己的Infinity Fabric和NVLink,用于小范围芯片的高速连接(通常为8个)。如果要将数以万计的GPU连接在一起,则需要将以太网/InfiniBand的PCIe网卡外接。
对此,微软采取了完全不同的方式——每个芯片都有自己的内置RDMA以太网IO。这样,每个芯片的IO总量就达到了4.8Tbps,超过了英伟达和AMD。




为了充分发挥出Maia的性能,微软专门打造了名为Ares的机架和集群,并首次采用了「Sidekick」全液冷设计。
这些机架是为Maia高度定制的,比标准的19"或OCP机架更宽。
具体来说,微软在一个机架上搭载了8台服务器,其中每台服务器有4个Maia加速器,也就是共计32个Maia芯片。除此之外,还会配备网络交换机。
此外,Maia机架的功率可以达到约40KW,这比大多数仍只支持约12KW机架的传统数据中心也要大得多。




Maia 100服务器机架和「Sidekick」液却
值得注意的是,微软使用的是自己从第三方获得SerDes授权,并直接向台积电提交设计,而不是依赖Broadcom或Marvell这样的后端合作伙伴。
Sam Altman表示,第一次看到微软Maia芯片的设计时,自己和同事感到非常兴奋。而OpenAI也已经用自己的模型(GPT-3.5 Turbo)对Maia进行了改进和测试。




就在昨天 ,Sam Altman刚刚宣布访问量激增超出承受能力,Plus账号注册暂停

Azure Cobalt CPU
CPU方面,Microsoft Azure Cobalt是一款基于Armv9架构的云原生芯片,针对通用工作负载的性能、功率和成本效益进行了优化。
具体来说,Azure Cobalt 100 CPU共有128个核心,并支持12条DDR5通道。
与微软第一款基于Neoverse N1的Arm CPU相比,基于Neoverse N2的Cobalt 100在性能上提升了40%。




与Arm传统的只授权IP的商业模式不同,Neoverse Genesis CSS(计算子系统)平台可以使CPU的开发更快、更容易,且成本更低。








就Cobalt 100而言,微软采用的是2个Genesis计算子系统,并将它们连接成1个CPU。








Arm此前曾表示,有一个项目从启动到完成芯片只用了13个月。根据业界推测,这里提到的很可能就是微软。




可以说,微软花了许多心思。在设计上的独具匠心,不仅让它具有高性能,还能控制每个内核和每个虚拟机的性能和功耗。




用于测试Microsoft Azure Cobalt片上系统的探针台
目前,微软正在Microsoft Teams和SQL Server等工作负载上测试Cobalt CPU,计划明年向客户提供用于各种工作负载的虚拟机。
重新思考AI时代的云基础设施

实际上,微软在芯片开发上有着悠久的历史。
20多年前,微软就和Xbox合作,还为Surface设备共同设计了芯片。17年,微软就开始构建云硬件堆栈。
Azure Maia AI芯片和Azure Cobalt CPU都是在微软内部构建的,微软对整个云服务器堆栈进行了深入检修,以优化性能,功耗和成本。
用微软硬件系统负责人Rani Borkar的话说,「我们正在重新思考人工智能时代的云基础设施,并从字面上优化该基础设施的每一层。」
现在,微软、AMD、Arm、英特尔、Meta、英伟达和高通在内的集团,都在标准化AI模型的下一代数据格式。




微软:我们和英伟达是互补,不是竞争

跟H100、H200,甚至是AMD最新的MI300X比较,Maia的性能如何呢?
Borkar回避了这个问题,而是重申微软与英伟达和AMD的合作对于Azure AI云的未来很重要。
「重要的是,在云运行的规模上优化和集成堆栈的每一层、最大限度地提高性能、使供应链多样化,为客户提供基础设施的选择。」
据悉,要实现ChatGPT的商业化,OpenAI需要30,000块A100,如果用微软自研的芯片,显然会降低AI成本。




考虑到目前AI领域的速度,Maia 100的继任者很可能会和H200相同的速度推出,也就是大概20个月后。
随着微软本周推出更多的Copilot功能和Bing Chat的品牌重塑,Maia必然会大显身手。
GPT性能/总拥有成本

对于芯片来说,最重要的是性能。
在推理方面,需要注意的是,微软所做的内存权衡是非常不利的,这使得微软很难与之竞争。
H100的内存带宽是其2倍多,H200是其3倍,而MI300X甚至更高。
因此,在LLM推理方面,Maia 100的性能处于劣势。就每秒处理更大批大小的token而言,GPT-4推理的性能大约是 H100的1/3。
值得注意的是,这本身并不是一个大问题,因为制造成本与英伟达的巨大利润率弥补了大部分差距。
问题是,电源和散热仍需要更多成本,而且token到token的延迟更差。
在聊天机器人和许多协同Copliot工具等对延迟敏感的应用中,Maia无法与英伟达和AMD GPU竞争。
后两种GPU都可以使用更大的批处理量,同时可接受延迟,因此它们的利用率会更高,性能TCO也比Maia高得多。
在GPT-3.5 Turbo等较小的模型中,情况要好一些,但微软不能只部署针对小模型的优化硬件。因为随着时间的推移,GPT-3.5 Turbo等小模型将被逐步淘汰。
不仅在硬件上强强联合,微软会上还宣布将英伟达AI代工厂服务(Nvidia AI Foundry)引入Azure。
不仅有英伟达的基础模型、NeMo框架、DGX Cloud AI超算以及服务全部集成到微软Azure平台,向企业和开发者开放。
悠游桂林 发表于 2023-11-23 02:41:01|来自:摩尔多瓦 | 显示全部楼层
为知友们提供更多信息:
科技巨头微软重磅官宣:推出AI自研芯片!

每经编辑 杜宇
据微软官网,在当地时间周三(11月15日)举行的Microsoft Ignite全球技术大会上,微软发布自研人工智能Microsoft Azure Maia ,以及英特尔CPU的竞品:基于Arm架构的云原生芯片Microsoft Azure Cobalt。



图片来源:微软官网

Microsoft Azure Maia 是一款AI加速器芯片,用于OpenAI模型、Bing、GitHub Copilot和 ChatGPT 等AI工作负载运行云端训练和推理。
Microsoft Azure Cobalt是一款基于 Arm 架构的云原生芯片,针对通用工作负载的性能、功率和成本效益进行了优化。
此外,Azure Boost也将正式商用。该系统可将存储和网络进程从主机服务器转迁移到专用硬件和软件上,从而提高存储和网络速度。



图片来源:视觉中国-VCG41N1256651755 (图文无关)

微软称,作为定制芯片的补充,我们正在拓展与芯片供应商的合作伙伴关系,为客户提供基础设施选项。
微软表示,将在微软智能云Azure中添加AMD MI300X加速虚拟机(VMs)。ND MI300虚拟机(VMs)将采用AMD最新的GPU——AMD Instinct MI300X,旨在加速AI工作负载的处理,以实现高范围的AI模型训练和生成式推理。
为英伟达H100 Tensor Core GPU打造的全新NC H100 v5虚拟机系列开放预览,将提高大中型AI训练和生成式推理的性能、可靠性和效率。微软称还发布了ND H200 v5虚拟机系列计划,这是一款AI优化虚拟机,配备了即将推出的英伟达H200 Tensor Core GPU。
微软表示,将继续拓展生成式AI模型的选择和灵活性,为开发者提供全面的、领先的开放模型选择。模型即服务(Model-as-a-Service)是微软在Build开发者大会上发布的模型目录中的新功能,让专业开发者将能够轻松将Meta Llama 2、Mistral即将推出的高级模型以及G42 Jais等最新的AI模型作为API端点集成到他们的应用当中,还可以用自己的数据定制这些模型,无需担心GPU基础架构的设置和管理,消除复杂性。
随着Azure AI Studio预览版的推出,企业拥有了一个统一且可信的平台,可以集中在一个地点,更轻松地探索、构建、测试和部署AI应用程序。借助Azure AI Studio,您可以利用自己的数据构建、训练自己的“智能副驾”,或者使用您的数据来构建其他基础和开放模型。
Azure AI Search的功能Vector Search现在已正式商用,企业可以在其生成式AI应用中为每个用户带来高精准度的体验。
新的GPT-3.5 Turbo模型(支持16K token提示词长度)将正式商用,GPT-4 Turbo将于2023年11月底在Azure OpenAI服务中公开预览。GPT-4 Turbo将使客户能够扩展提示词长度,为生成式AI应用带来更多控制和效率。
GPT-4 Turbo with Vision即将推出预览版,DALLE·3现已在Azure Open AI服务中公开预览,与GPT-4共同推动下一代企业解决方案的发展,使企业能够利用图像实现高级功能。与Azure AI视觉服务一起使用时,GPT-4 Turbo with Vision可以理解视频以生成文本输出,进一步提高人类的创造力。



图片来源:视觉中国-VCG111418488090

在当天的Microsoft Ignite全球技术大会上,微软还发布了Microsoft 365 Copilot新增功能。
Microsoft Copilot Studio:AI转型始于挖掘企业独特的数据和工作流程。Microsoft Copilot Studio是一个低代码工具,旨在通过集成关键业务数据来定制Microsoft Copilot for Microsoft 365,并构建供企业内部或外部使用的定制Copilot。6Copilot Studio可与连接器、插件和GPT配合使用,允许IT团队将Copilot引导至用于特定查询的最佳数据源。
Microsoft Copilot for Service:最新的Copilot提供基于用户角色的支持,帮助企业加快客户服务的AI转型。Copilot for Service包括Microsoft Copilot for Microsoft 365,能够利用生成式AI扩展现有的联络中心。在客户互动中,客服人员可以用自然语言向Copilot for Service提问,并从知识库中获得基于数据源的相关洞察,从而更快、更智能地解决问题。
Copilot in Microsoft Dynamics 365 Guides:结合生成式AI和混合现实能力,这款Copilot可以帮助一线人员在不影响工作流程的情况下,更快地完成复杂任务和解决问题。这款无需手动操作的Copilot将率先用于HoloLens 2,帮助服务行业专业人员使用自然语言和人类手势,通过叠加在设备上的内容和全息图提供交互式指导。
Microsoft Copilot for Azure:这是一款针对IT人员、可简化日常IT管理的AI伙伴。它不仅仅是一个工具,更提供了统一的聊天体验,能够理解用户的角色和目标,并提高设计、操作和排除应用及基础架构故障的能力。Microsoft Copilot for Azure可帮助IT团队深入了解其使用情况,释放新的Azure能力,并在云端和边缘协调任务。
微软股价再创历史新高,截至当地时间11月15日收盘,微软(MSFT)报369.67美元,跌幅0.16%,市值2.7万亿美元。



每日经济新闻综合微软官方网站

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。
Serzrgn 发表于 2023-11-25 20:19:18|来自:摩尔多瓦 | 显示全部楼层

Where is Administrator jinriwenda.com ??

Can I contact admin??
It is about advertisement on your website.
Regards.

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则