亚马逊云科技推动AI/ML创新三大驱动力有何意义？

东德 · 发表于 2023-10-29 10:22:23|来自：北京朝阳

生成式 AI（Generative AI）大趋势下，云计算巨头纷纷下场，亚马逊云科技始终认为生成式 AI 不只是大模型，从生成式 AI 应用场景选择，基础模型使用与定制化，再到最终的生成式 AI 应用开发，每一步都需要一定的技术积累和实践经验才能实现。重投 OpenAI 竞品的亚马逊云科技，还将在基础模型、数据、生成式AI原生应用方面有些新的动作和创新？

猫猫去偷欢 · 发表于 2023-10-29 10:23:13|来自：北京朝阳

算个屁。
三千分之一个恒大

天涯海閣 · 发表于 2023-10-29 10:23:52|来自：北京朝阳

生成式AI应用，现在已经风头无两，动辄狂吸数亿美元的投资！
可以说，全世界的大科技公司和独角兽们，已经为生成式AI打造了丰富的生态系统，版图还在不断扩张。
在10月24日刚刚结束的生成式AI构建者大会上，亚马逊云科技就提出了为用户构建完整端到端生成式AI的技术堆栈。
具体来说，亚马逊云科技从5个方面来助力企业和开发者释放生成式AI潜力：

- 选择合适的应用场景，从典型场景入手创新业务模式
- 借助专门构建的生成式AI工具和基础设施，快速构建高性价比的生成式AI应用
- 夯实数据基座，使用私有化数据，打造差异化竞争优势
- 借助云原生服务，加速AI原生应用构建，助力业务敏捷创新
- 借助开箱即用的生成式AI服务，消除重复性工作并专注创新本身

根据IDC在2023年2月发布的全球CIO快速调研，金融、能源、医疗、法律行业的头部机构，在1年内都会尝试引进大模型以及生成式AI能力。
如今我们可以看到，这项预测已经成真。
为生成式AI定制数据

生成式AI，可以用一个公式呈现，即提示词+上下文+大模型=输出结果。

举个栗子，当一位客户想要更换球鞋的颜色，他会提出「我买的鞋子可以换成棕色的吗？」，提出问题便是提示词。
那么上下文是指，之前购买的历史对话信息，以及客户订单记录等数据。
然后需要寻求大模型，检索退换货相关策略，然后根据以往的售后处理案例，再给出结果。
这样，一个生成式AI应用真正的价值就体现了。
但我们要清楚的是，这其中的基础模型，并不是生成式AI的全部。
若说，在这些华丽的应用背后，有着一个非常关键要素——数据。

相比于传统的应用，生成式AI在数据的利用上，有一套特有的流程。
其所需的能力涉及到从数据/语料加工、基础模型训练/调优，到数据治理、知识召回、提示工程等一系列模块。
玩转数据，可是个技术活

目前，已经有72%的头部科技公司指出，「管理数据」已经是阻止他们扩展AI用例的最大挑战之一。
就拿现在最为火热的向量数据库来说，它可以可加速AI应用程序的开发，并简化由AI驱动的应用程序工作负载的运作。
然而，作为一项相对较新的技术，目前能够做出高质量向量数据库的企业，并不多。

与此同时，用户的隐私等问题，也让企业对于私有数据的采用望而却步。
对于垂直领域模型的训练微调，都需要一定的数据累积。
但有些数据是无法共享，拿来公开训练的，比如医疗领域大模型，涉及患者个人、病历等私人重要信息。

另外，数据质量管控不到位、数据源分散或者出现数据孤岛、缺乏数据素养等问题，在很多企业中不知不觉积累了很多「数据负债」。
全球领先的解决方案
显然，面对如此复杂多变的挑战，企业需要一套全面且一站式的解决方案，才能真正让让生成式AI技术实现赋能。
简而言之，就是一个强大的「数据底座」。
其中包括，能够存储各种类型的数据库，然后能够提供将多个数据源打通的服务，最后，还需要确保数据安全并对其进行管理。

数据是每个企业的核心资产，构建差异化优势的基础

数据作为企业最为核心的资产之一，是在生成式AI浪潮中构建差异化优势的基础。
为此，亚马逊云科技针对生成式AI的各项需求场景，特别定制了专有的数据库。

场景一：用户个人信息

对于一个生成式AI应用来说，要想让给出的结果更加贴合用户的需求，就需要结合每个用户自身的特点。
在把这些信息结合到Prompt里一起发送给LLM之后，就可以得到更加个性化的输出了。

针对这一需求，亚马逊云科技打造了Amazon RDS和Amazon Aurora这两个关系数据库解决方案。
其中，Amazon RDS是一项托管式关系数据库服务，总共提供了7种热门数据库引擎。
Amazon Aurora则是亚马逊云科技专为云平台打造的关系型数据库，具有着高性能、高可用、可扩展性强等特点，而且成本仅有同级数据库的1/10。
场景二：会话历史信息

除了个人信息外，用户对话的上下文信息，对于生成式AI应用的准确性来说也至关重要。
通过将历史对话记录和用户最新提出的问题相结合，并一起发送给大模型，便可以实现更好的用户体验。

对此，亚马逊云科技打造了Amazon DynamoDB和Amazon DocumentDB。
前者是快速且灵活的NoSQL数据库，对规模没有限制。非常适合无服务器的事件驱动型架构、遍及全球的弹性服务，以及高吞吐量工作负载。
后者是基于云原生架构，全面兼容MongoDB的托管NoSQL数据库。
场景三：私域知识库信息

众所周知，通用大模型存在着幻觉、信息时效性差，以及包括token长度限制等各种问题。
尤其是对于企业内部的信息来说，如果让LLM自由发挥，很容易就给出了错误答案。
但如果能有私有知识的加持，LLM就可以给出更为精准有效的回答。

为了利用这些私域知识，我们可以通过Embedding模型把它们变成向量，并存放在向量数据库里。
当有查询到来时，通过同样的Embedding模型生成新的向量，和向量数据库里的数据做相似度计算，返回最相近的结果。
可以说，如果把LLM比作是容易失忆的大脑，那么向量数据库就是这个大脑的海马体。

对此，亚马逊云科技有AmazonOpenSearch、Amazon PostgreSQL和Amazon RDS for PostgreSQL等方案。
Amazon Aurora/Amazon RDS PostgreSQL，能够兼容开源PostgreSQL，易于学习。
Amanzon OpenSearch具备向量和倒排召回能力，可利用现有集群，同时能提供日志检索能力。
Amazon Kendra是基于机器学习的端到端智能检索服务，能够帮助用户使用自然语言搜索非结构化文本。
场景四：输出结果缓存

缓存，是一种存储数据的组件，作用就在于能够让数据的请求更快地返回。
直白讲，我们每次用网页查询后的信息，都会被缓存，当下次再访问的时候，加载就更快了。

对于生成式AI应用来说，用户发出请求时，需要调用模型，输出结果。
但是，就像ChatGPT这样的爆火应用，每天收到大量请求，就会出现高并发阶段，存储数据量暴增，数据库的磁盘IO就成为了瓶颈。
因为，数据库的速度和吞吐量，是影响生成式AI应用程序整体性能的重要因素。
这时，就需要一种访问更快的组件——缓存，来提升系统的整体性能。
就是将之前调用LLM输入输出结果进行缓存，当后续请求与之前输入「相似」时，直接就返回内存数据库调用结果，完成输出。
这样一来，就做到了就无需调用模型就能得到结果，不仅提高了应用的反应率，还降低了模型的调用成本。

亚马逊云科技对此提供了三种解决方案。
通过针对Redis或Memcached引擎的亚毫秒级的响应时间，Amazon ElastiCache可用作高可用性内存缓存，以减少访问延迟、提高吞吐量并减轻关系数据库或NoSQL数据库的负载。
Amazon ElastiCache for Redis可以提供查询结果缓存、持久会话缓存和整页缓存。

另外，Amazon MemoryDB for Redis专为带有微服务架构的现代化应用程序而构建，与Redis兼容、持久的内存数据库服务，可提供超快的性能。
通过解决这四大场景的需求，亚马逊云科技也就保障了每个企业都可以充分利用核心的数据，来构建自己独有的优势。
数据质量决定了模型质量，是构建应用的关键

数据质量，不仅决定了模型质量，同时也是构建生成式AI应用的关键。
而数据治理，便是这些应用落地的保障。

Gartner数据显示，到2025年，寻求扩大数字业务规模的组织中有80%将因不采用现代的数据和分析治理方法而失败。
只有实施正确的管理策略，团队才能随时访问高质量的数据。

但是在实践中，创建正确的管理控制，往往既复杂又耗时。
ETL是指数据的提取、转换和加载过程。以往，业务数据往往需要通过ETL，才能进行分析从而提供洞察。
然而，这一过程非常耗时且复杂，需要管理复杂的转换代码和数据管道，以及投入一批具备专业ETL技能的工程师，曾被亚马逊云科技CEO Adam描述为「不讨好、不可持续的黑洞」。

数据集成不应是一项人工工作的无底洞，我们需要快速、轻松地连接到所有数据，并加以使用。
而「Zero ETL」，就是亚马逊云科技迈出的关键一步。
Amazon Zero ETL能够大大帮助客户简化数据ETL，减少数据质量问题。
具体来说，它没有ETL流水线，可以实现交易数据的实时分析和机器学习，还能综合来自多个Aurora数据库的数据见解。

此外，亚马逊云科技数据服务可以与外部数据库实现Zero的集成。
让数据实现一体化融合，将其数据库、数据服务底层打通，由此，数据就实现了「无感知」流动。
另外，亚马逊云科技提出了敏感数据保护方案——Amazon DataZone。
它使用内置治理的统一平台，能够跨组织边界解锁数据价值。
它支持整个集团的数据发现、管理跨部门的访问和使用生命周期，对数据的共享方式和授权人进行全面的控制和知晓审计的能力。
在以往，数据协作过程中，往往存在着重重困难。
比如指标定义不一致、可用数据难发现、数据权限难管理等。

通过Amazon DataZone，开发者和业务人员可以通过清晰指标的定义进行数据分析，开发者可以放心使用目录管理中的数据，还能在同一个平台上对数据进行可视化的订阅和授权。
这样，以上困难就都一一解决了。
而赋予Amazon DataZone关键能力的，就是可信赖数据集，和简化数据访问。
有了可信赖数据集，就可以对数据进行目录化，找到和发现数据。

而有了简化数据访问，终端用户就可以导航到Amazon DataZone的数据门户，并选择一个项目，来浏览他们的数据资产。

拉美最大的私营金融机构伊塔乌联合银行，就在使用Amazon DataZone进行简化数据治理。
数据安全与合规是重中之重

数据安全与合规，贯穿了从模型训练、到微调，再到部署的整个过程，是重中之重。
LLM的火爆，虽然促进了众多生成式AI的繁荣，却也同时带来许多新的安全挑战。
提示注入、数据泄漏、过度依赖LLM生成的内容、训练数据污染等问题，林林总总防不胜防。

尤其是，通用模型使用少量的私有数据集自定义，就可以执行面向特定领域的任务。这个过程中，私有数据集的安全性和保密性，显然极为重要。
那么，我们该如何保护数据隐私，让数据更安全呢？
首先，Amazon Bedrock服务，就提供了数据隐私保护，严格做到了「您的数据由您自己控制」。

Amazon Bedrock服务后端实现的架构
它保证了客户的数据不会被用于训练Amazon Titan模型，也不会被共享给其他基础模型提供商。
客户的数据（提示词、响应、微调模型）是按用户隔离的，会被保留在相应的地理区域。
而且，客户在Amazon Bedrock中的数据是被加密传输和存储的，可以使用自带的密钥。
其次，Amazon DataZone可以保护数据在不同账号之间安全共享。
它可以保证跨组织的数据治理，确保授权的用户以授权的目的，访问被授权的数据。
在工作流的发布与订阅模式、数据的授权、通过数据项目和域来访问数据、基于实际使用量的计费、组织结构的复制、与API的集成商，它都保证了数据的安全。
全新生成式BI诞生

对于许多企业来说，都希望通过数据驱动业务，形成数据飞轮。
只有数据被充分利用和挖掘，才能发挥出巨大的商业价值。
举个例子，如果销售团队能更好地了解从免费账户到付费账户的转化率，他们就能优化营销和销售计划，从而增加收入。
但是，理解数据需要花费大量的时间、精力和知识。如何在海量数据中完成分析，并实现可视化，对于一个企业来说至关重要。

尤其是，对于那些不懂底层数据逻辑，以及没有任何代码基础的企业用户。
当前，业界常见解决方案是——BI工具，解决了大数据「最后一公里」的问题。
但是，在生成式AI爆发的当下，如何利用最新技术帮助企业释放数据价值，做出商业决策？
亚马逊云科技在自家的BI工具——Amazon QuickSight，推出了生成式BI功能。
通过将Amazon Quicksight的功能与Amazon Bedrock提供的大语言模型功能相结合，将其称之为生成式BI。

现在，企业用户中任何一个人都可以通过自然语言的提问，了解数据。
甚至，业务分析师还可以使用自然语言在几秒钟内快速编写和微调视觉效果，并将其添加到仪表板中。
无需学习语法，便可直接使用自然语言创建新的计算。
现在，创建一个新的仪表板或计算只需问几个问题即可，非常简单。

另外，业务用户还可以使用自然语言提示来生成分析报告，或在Amazon Quicksight中对其数据进行可视化演示。
只需用文字键入故事描述，就可以使用相关仪表板中的数据，创建你想要的效果。
比如可以让其生成对亚马逊云科技免费试用账号最感兴趣的客户分类报告，在报告生成后，他们可以根据需要对其进行修改，并与业务团队共享。

加速生成式AI技术革命
构建生成式AI应用，充满了挑战性。
这个过程中，涉及到接入和管理多家基础模型，还要连接不同的数据源，数据隐私和安全性需要保证。
金山办公的WPS AI，成功将大语言模型的能力全面引入了产品。

而背后的功臣之一，就是亚马逊云科技。
客户的数据隐私和安全，一直是WPS的第一优先级。
构建各种AI的过程中，亚马逊云科技不会使用客户数据来改进模型，也不会将客户数据与他人共享。客户数据均保留在该客户所在的区域中。
因此，Amazon Bedrock成功地助力WPS，加速了各种生成式AI的构建。它支持的领先大语言模型，在多个文字处理场景都符合金山办公的需求。

通过亚马逊云科技的技术，西门子也解决了诸多业务难题。
此前，西门子中国IT面对的难题有，企业内部信息分散、数据资料增长迅速、数据信息你传递能力不足等等。

对此，亚马逊云科技基于西门子数据（如西门子的产品和解决方案），开发了一款智能回答助手——小禹。
它是西门子中国业务知识一体化的解决方案，部署在西门子安全环境中。
除了GPT本身拥有的庞大知识库外，小禹还集成了西门子独特的知识系统，如西门子的各种产品和服务、平台和工具、内部流程等。

它能够及时响应，自动提取知识，快速定位内容（比如产品描述、用户手册、技术规格、营销材料、常见问题解答、法规等）。
它既省时，又减少了人工维护成本，还增加了信息透明度和知识共享。
从2023年初项目立项，到9月手机版发布，小禹持续在各个领域运用生成式AI能力，加速了西门子中国业务的发展。
在亚马逊云科技的助力之下，各大企业的生成式AI技术一定会继续蓬勃发展，发生更多革命性变化。

生成式AI带来的生产力提高和新用例，会给全球经济带来巨大影响。
肉眼可见的是，这个时间点正在加速到来。
参考资料：
https://news.crunchbase.com/ven

月爷 · 发表于 2023-10-29 10:24:21|来自：北京朝阳

这个问题可以在10月24日的亚马逊云科技生成式 AI 构建者大会中找到答案。
一句话来说就是：作为云计算领域的领导者和创新者，亚马逊云科技可以提供完整的生成式AI堆栈，从最底层的硬件到最上层的工具和服务，都可以用云服务的形式让广大开发者轻松使用。
在本次大会中，众行业大咖和技术专家们深度聚焦生成式 AI 前沿技术，就生成式 AI 的热点技术话题和热门应用场景展开了深入分享与交流，为开发者们解读了当下应如何应对生成式 AI 带来的机遇，在 AI 时代保持强有力的竞争力。
加速大数据与 AI 普惠，亚马逊云科技助力企业构建者释放生成式 AI 潜力

大会开场，亚马逊云科技大中华区产品部总经理陈晓建在以“赋能生成式 AI 新时代，助力数据与 AI 普惠化”为题的主题演讲中指出，生成式 AI 现已成为各行业各组织商业领导者的首要关注点。整个生成式 AI 的应用就像是浮在海面上的冰山，人们常提到的基础模型只是我们能看到的冰山一角，而在冰川底部，同样需要大量的基础模型以外的服务来支撑，如加速芯片、数据库、数据治理、应用集成等。

亚马逊云科技为用户提供完整的端到端的生成式 AI 技术堆栈。从底层的加速层如加速芯片、存储优化，到中间层模型构建工具和服务，再到最上层的生成式 AI 相关应用，每一层都在针对客户的不同需求持续创新。
作为云计算领域的领导者和创新者，生成式 AI 一直是亚马逊云科技关注和投入的主要方向。推动生成式 AI 普惠化，助力更多企业和个人开发者加速创新是亚马逊云科技的使命之一。
在实践中，亚马逊云科技注意到，生成式 AI 的典型应用场景给企业带来的业务价值主要体现在三个方面：增强客户体验，提升员工生产力与创造力，优化业务流程。基于此，亚马逊云科技助力企业和开发者从典型场景入手创新业务模式，快速构建高性价比的生成式 AI 应用，以打造差异化竞争优势，加速业务敏捷创新。
为让客户能够轻松、安全地按需选择基础模型，亚马逊云科技此前还推出了 Amazon Bedrock 和 Amazon SageMaker JumpStart 两款服务。Amazon Bedrock 是企业使用基础模型构建和扩展生成式 AI 应用程序的最简单方法，它提供广泛的模型选择、数据隐私，并且能够自定义模型，无需管理任何基础设施。通过 Amazon Bedrock，用户可轻松地将组织数据用作战略资产，使用自定义基础模型并打造更加差异化的优势。此外，Amazon Bedrock 还充分考虑到了用户的安全性和隐私保护，帮助客户保护敏感数据。

相较于Amazon Bedrock，Amazon SageMaker Jumpstart 则提供了更灵活、更定制化的模型微调。用户可以从 SageMaker Jumpstart 中选择开源的基础模型，然后根据自身需求选择不同方式，进一步确定微调框架，利用分布式训练实现微调，从而更好地评估微调效果。
金山办公：Amazon Bedrock 助力 WPS，加速生成式 AI 应用的构建

在主题分享中，来自金山办公软件股份有限公司的 AI 研发总监刘强向大家分享了金山办公如何利用生成式 AI 和 Amazon Bedrock 帮助企业简化从统一数据到个性化客户体验的过程。

刘强提到，今年起，WPS 开始将大语言模型的能力全面引入产品，致力于开发新一代办公软件。而在构建生成式 AI 应用的过程中，基础模型性能有限，数据隐私与安全难以保障，高额管理成本等现实情况成为了摆在金山办公面前的重重障碍。作为 Amazon Bedrock 的第一批试用用户，金山办公第一时间与 Amazon Bedrock 展开了对接与测试。
Amazon Bedrock 中支持的领先大语言模型在多个文字处理场景中符合金山办公的需求。除多种模型选择外，Amazon Bedrock 还在数据安全层面给金山办公提供了充分的支持，极大地提高了金山办公的内部开发效率，助力金山办公进一步革新办公体验。
高性价比的基础设施是生成式 AI 应用构建的关键。在接下来的分享中，陈晓建提到，十多年来，亚马逊云科技一直与合作伙伴致力于投资自研芯片，以便为用户提供广泛的高性能、低成本的机器学习基础设施选项，助力客户加速实现生成式 AI 落地。
此外，亚马逊云科技近日还宣布了 Amazon EC2 Inf2 实例的正式上市。该实例由最新的亚马逊云科技设计的机器学习芯片 Inferentia2 提供支持。与其他类似的 EC2 实例相比，Inf2 实例在推理性价比上要高出40%，Trn1 实例在训练成本上的节省更是高达50%。基于此，亚马逊云科技为深度学习训练和推理提供了高性能且具有显著成本节省的实例。

在数据战略层面，从存储、查询和分析数据，到通过商业智能、机器学习和生成式 AI 使数据发挥作用，亚马逊云科技提供广泛的工具组支持整个端到端的数据流程。多年来，亚马逊云科技通过深化服务之间的集成，已经在 Zero ETL 中取得了一定成果，这些亚马逊云科技各项服务之间的深度的数据集成正在帮助企业执行分析和机器学习，且无需移动数据。

在数据爆炸的现状下，数据治理对于企业来说至关重要。Amazon DataZone 全新的数据治理服务可支持整个企业集团组织的数据发现、管理跨部门的访问和使用生命周期。通过统一的数据目录和明确的数据主权分工，企业内数据使用者能轻松地发现有效数据，同时数据的提供者可以严格的管理数据的可见和访问授权，做到仅允许正确的人访问到正确的数据。这一能力对于今天的企业需要负责任的构建生成式 AI，严苛的保护企业数据并正确的发挥企业私有数据的价值尤其重要。
西门子：以生成式 AI 之力重塑数据价值，推进业务创新

来自西门子集团 IT 数据分析与人工智能负责人李朝明在主题分享中向大家分享了西门子如何携手亚马逊云科技发挥企业数据价值，通过 AI 与数据能力的全面能力提升来构建基于生成式 AI 的企业知识聊天机器人。

他提出，当前生成式 AI 的发展给各行各业带来了革命性的变化。在西门子推动生成式 AI 落地的过程中，西门子 IT DA 团队与亚马逊云科技有着长期而深入的合作。面对西门子中国 IT 面对的企业内部信息分散、数据信息传递能力不足、知识运营能力缺乏等业务难题，亚马逊云科技携手打造了西门子中国业务知识一体化解决方案“小禹”，大大提高了西门子内部团队的生产力和创新效率。
生成式 AI 的出现，给传统云原生应用开发架构提出了新的机遇与挑战，借助云原生的服务，聚焦以微服务化，事件驱动架构为核心的设计框架 Serverless 优先，以数据洞察为核心，安全与数据的合规与保护、借助 DevOps 等现代应用治理理念构建高效敏捷的构建者文化等，加速由云原生到 AI 原生应用的构建与创新。
亚马逊云科技预见到，编程将是生成式 AI 技术得到快速应用的领域之一。亚马逊云科技提供的 Amazon CodeWhisperer 是一款人工智能编码伙伴，可在基础模型高级选项中使用，实时生成代码建议，从根本上提高开发人员的生产力。《2023 AI 开发者生态报告》还指出，当前，Amazon CodeWhisperer 在国内 AI 编程工具领域处于领先地位，且是国内用户增速最快的 AI 编程工具。
科思创中国：借助 Amazon CodeWhisperer 实现开发效率显著提升

来自科思创中国云开发运维团队负责人俞宙在主题分享中向大家分享了他们如何基于 Amazon CodeWhisperer 提升代码开发效率，加速生成式 AI 应用程序构建。

科思创中国在日常开发中有两个核心任务：项目框架搭建和存量代码优化。而在实践中过程中，重复性、机械化的范式生成、惯用算法引用和企业级 API 接口定制是科思创中国面临的主要挑战。在 Amazon CodeWhisperer 的加持下，科思创中国的日常代码开发效率和开源代码应用追踪器的准确性显著提高，在构建云原生产品应用的过程中起到了重要作用。
在接下来的分享中，陈晓建还特别提到，一直以来，亚马逊云科技在不断帮助中国开发者群体快速创新。今年以来，亚马逊云科技为初创公司推出了亚马逊云科技创业加速器。今年9月，亚马逊云科技联合了北京市教育委员会指导，北京科学教育发展基金会、清华大学人工智能研究院基础模型研究中心，以及面壁智能、智谱 AI、百川智能等客户及合作伙伴，共同发布了“首届中国生成式 AI 创新应用挑战赛”。如今，开发者的努力和激情正在改变这个世界，不断地拓展着技术的边界，亚马逊云科技将持续为构建者赋能，继续携手合作伙伴与初创圈，扩大生成式 AI 的“朋友圈”，进一步助力生成式 AI 的广泛落地。
高峰论坛共话实战经验，行业大咖共看生成式 AI 当下与未来

在以“共话生成式 AI 的现在和未来”为题的圆桌讨论环节，Lepton AI CEO 贾扬清、百川智能联合创始人 COO 茹立云、爱诗科技 CEO 王长虎、亚马逊云科技大中华区产品部总经理陈晓建、亚马逊云科技大中华区初创生态及投资业务发展总监胡瑛围绕开发者在生成式 AI 应用落地新阶段所面临的机遇和挑战展开了深度讨论。
在交流与分享中，行业大咖们就怎样选择基础模型，如何构建生成式 AI 时代的数据策略，如何借助云原生加速构建 AI Native 应用和加速生成式 AI 应用构建与落地有哪些开发工具，给广大开发者们提出了宝贵建议。

分论坛解读生成式 AI 应用秘籍，亚马逊云科技助力打造生成式 AI 应用最佳实践

开发生成式 AI 应用是一个充满挑战的系统工程，并不是单纯的产品和服务拼接，因此，如何加速客户最终应用的商业化落地，除了本身的资源以外，亚马逊云科技同样需要构建强大的合作伙伴“朋友圈”，携手助力解决生成式 AI 应用构建中的各种技术问题，加速应用落地。
针对构建生成式 AI 应用端到端的关键路径，为了更加详细的阐述亚马逊云科技如何助力构建者释放生成式 AI 潜力的方法论，分论坛分别围绕 “基础模型优先”-重构生成式 AI 时代的应用基座”，打造生成式 AI 时代的数据战略，基于云原生服务快速 AI 原生的应用等热点话题，邀请来自亚马逊云科技的技术专家，携手客户和合作伙伴代表，做了丰富而全面的分享，从理论到实践给构建者快速，安全，高效的开发生成式 AI 应以启迪。
在“开发者论坛”中，亚马逊云科技邀请到了知名的业界专家为大家讲解和分享。一起看看他们有哪些经验和心得！
开发者论坛-助力开发者在生成式 AI 时代创新构建

在1024这个开发者专属的节日，大会还设置了开发者论坛，邀请业内开发者大咖及专家分享生成式AI最新的开发技术，工具及落地实践。开源 AI 算法工程师、bilibili 知名科技 UP 主张子豪（@同济子豪兄）为大家分享了《个人开发者玩转生成式 AI 的 N 种方法》。亚马逊云科技资深开发者布道师郑宇彬分享了生成式 AI 面向开发者的关键技术Amazon CodeWhisperer，亚马逊云科技资深开发者布道师黄浩文分享了高效开发基于大模型的生成式 AI 应用实践，Zilliz 合伙人和技术总监，LF AI &Data 基金会技术咨询委员栾小凡介绍了 AIGC 时代的新基建——向量数据库及其应用场景，ApeCloud 联合创始人 & CTO蔡松露分享了如何在 K8S 上玩转⽣成式 AI。NebulaGraph 首席开发者布道师古思为向大家详细地介绍了基于图的知识结构在 RAG 领域突破更多挑战。
动手训练营—生成式AI时代开发的速度与激情

我们同步为开发者准备了动手实验的环节，包括Amazon DeepRacer强化学习及自动驾驶模型实战，实时AI编程助手Amazon CodeWhisperper实战，Amazon Bedrock初体验，基于大预言模型构建智能对话机器人。
作为云计算领域的领导者和创新者，亚马逊云科技可以提供完整的生成式AI堆栈，从最底层的硬件到最上层的工具和服务，都可以用云服务的形式让广大开发者轻松使用，这必将会推动生成式AI的普惠化，真正释放生成式AI的潜力！

buxizhizhou · 发表于 2023-10-29 10:24:37|来自：北京朝阳

从初创企业到大型企业，各种规模的组织都纷纷开始接触生成式 AI 技术。这些企业希望充分利用生成式 AI，将自身在测试版、原型设计以及演示版中的畅想带到现实场景中，实现生产力的大幅提升并大力进行创新。但是，组织要怎样才能在企业中引入生成式 AI 这项技术并真正落实起来呢？在与客户的交谈中我们得知，想要获得出色的安全性和隐私性、优异的扩展能力及性价比，最重要的是要获得与其业务契合的技术。
亚马逊云科技宣布在10月初推出五项生成式 AI 创新，使各种规模的企业都可以构建新的生成式 AI 应用程序，提高员工生产力并完成业务转型。这五项创新包括：亚马逊云科技全面托管服务 Amazon Bedrock 正式可用，通过统一的应用程序编程接口（API）提供来自领先 AI 公司的基础模型（FM）；亚马逊云科技宣布 Amazon Titan Embeddings 模型正式可用，为客户提供更多基础模型选择；Amazon Bedrock 最新引入了 Meta Llama 2 模型，这是第一个通过 API 提供完全托管 Meta Llama 2 模型的服务；AI 编程助手 Amazon CodeWhisperer 的新功能即将提供预览，可以根据企业的内部代码库安全地定制 CodeWhisperer 的代码建议，助力开发人员从生成式 AI 中获得更大价值；Amazon QuickSight 的生成式 BI 创作功能现已推出预览版，可以提高业务分析师的工作效率。这一功能是云原生构建的统一 BI 服务，使客户能够通过自然语言简单地描述他们想要的内容，从而创建可视化内容、格式化图表、执行计算等。从 Amazon Bedrock、Amazon Titan Embeddings，再到 Amazon CodeWhisperer 和 Amazon QuickSight，这些创新增强了亚马逊云科技在生成式 AI 堆栈各个层面的能力，无论任何规模的企业都可在获得企业级安全和隐私保护的同时，选择模型并进行模型定制。
· 亚马逊云科技全托管生成式 AI 服务 Amazon Bedrock 现已正式可用。客户可以使用来自众多领先 AI 公司的高性能基础模型，以及构建生成式 AI 应用程序所需的一系列功能，在简化开发过程的同时确保隐私和安全；
· Amazon Bedrock 新增 Amazon Titan Embeddings 和 Meta Llama 2 模型，为客户寻找适合其应用场景的模型提供更多灵活选择；
· 全新 Amazon CodeWhisperer 功能将提供定制的、基于生成式 AI 的代码建议，充分利用企业内部代码库，提升开发者生产效率；
· Amazon QuickSight 提供生成式 BI 仪表盘创作功能，使业务分析师能够更加方便快捷的探索数据，并使用自然语言描述便可创建可视化报告；
亚马逊云科技推出了新的功能和服务，助力各种规模的组织以极具创造性的方式来使用生成式 AI，从而构建新的应用程序，同时转变自己的工作方式。

Amazon Bedrock 正式可用，帮助更多客户构建和扩展生成式 AI 应用程序

Amazon Bedrock 是一项完全托管的服务，提供了来自众多领先 AI 公司（包括 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和亚马逊）面向海外业务的的高性能基础模型，以及企业构建生成式 AI 应用程序所需的一系列功能，能够在实现简化开发的同时确保隐私性和安全性。基础模型具有良好的适用性，可为信息搜索、内容创建及药物发现等诸多领域提供支持。但是对于许多希望利用生成式 AI 的企业来说，尚有一些问题需要解决。首先，它们需要简单直观的选取和访问高性能基础模型，满足其场景需求且表现优异；其次，客户希望应用程序实现无缝集成，无需管理庞大的基础设施集群或花费大量成本；最后，客户希望借助基础模型并结合自身数据来轻松构建差异化的应用程序，而这些客户用于定制的数据无疑是非常宝贵的资产，具有知识产权，因此在使用过程中必须做到全面保护，在确保安全和隐私的同时，保证客户对数据共享和使用方式拥有控制权。
借助 Amazon Bedrock 的完善功能，企业能够更方便、轻松地尝试多种领先的基础模型，使用自己的专有数据定制模型。此外，Amazon Bedrock 还提供差异化能力，例如无需再编写任何代码便可创建的托管代理（AI agent），它可以执行复杂任务，如旅行预订、处理保险索赔、策划广告活动和管理库存等。由于 Amazon Bedrock 采用无服务器（serverless）技术，客户不必管理任何基础设施，就可以使用已经熟悉的亚马逊云科技服务将生成式 AI 能力安全地集成和部署到应用程序中。
Amazon Bedrock 在开发之初就考虑到安全性和隐私保护，帮助客户保护敏感数据。客户可以使用 Amazon PrivateLink，在Amazon Bedrock与虚拟私有网络（VPC）之间建立专门的安全连接，确保任何数据传输都不会暴露在公共网络。对于存在高度监管需求的客户，Amazon Bedrock 符合 HIPAA（《健康保险流通与责任法案》）要求，并且可以在 GDPR（欧盟《通用数据保护条例》）合规标准下使用，让更多的客户从生成式 AI 中获益。
Amazon Bedrock通过 Amazon Titan Embeddings 和 Llama 2 进一步扩大可选模型范围，帮助每个客户找到适合应用场景的模型

事实上，没有任何一个单一模型可以适用于所有的应用场景。因此，为了挖掘生成式 AI 的价值，企业往往需要访问多个模型，根据自己的要求寻找最适合的那一个。为此，Amazon Bedrock 让出海客户只需通过单一 API 就能找到和测试 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和亚马逊提供的领先的基础模型。此外，亚马逊云科技近日还宣布了 Anthropic 未来的所有基础模型都将在 Amazon Bedrock 上可用，并为亚马逊云科技出海客户提供模型定制和微调等特殊功能的优先访问。而现在起，Amazon Bedrock 再次引入新的基础模型带来更多选择：
·Amazon Titan Embeddings 现正式可用：Amazon Titan 基础模型是由亚马逊云科技在大型数据集上创建和预训练的一系列模型，可以支持各种应用场景。作为这些模型中第一个正式可用的模型，Amazon Titan Embeddings 是一种大语言模型（LLM），它将文本转换成被称为嵌入向量（embeddings）的数值表示，以支持检索增强生成（RAG）的应用场景。基础模型虽然适用于多种任务，但却只能根据从训练数据和提示词上下文中学到的信息来回答问题。一旦这些回答需要利用高时效性的知识或专有数据时，其有效性就会受限。为了能通过扩展数据来改进基础模型的回答，许多企业将目光转向 RAG ——这一流行的模型定制技术能将基础模型连接到可被引用的知识库，从而改进响应效果。要开始使用 RAG，客户必须先访问一个嵌入模型，将数据转换成嵌入向量，使基础模型更容易理解数据之间的语义和关系。然而，构建嵌入模型需要大量的数据和资源，以及深厚的机器学习专业知识，因此很多客户很难完成自行构建，也就无法实现 RAG。Amazon Titan Embeddings 使客户能够更简单地启用 RAG，以便利用专有数据扩展各种基础模型的能力。Amazon Titan Embeddings 支持超过25种语言和多达8192个 token 的上下文长度，非常适合基于企业的应用场景处理单个单词、短语或整个文档。该模型可返回1536个维度的输出向量，确保高度准确性的同时还专为实现更低延迟和更优性价比进行了优化。
·Llama 2 即将在未来几周推出：Amazon Bedrock 是业界首个通过托管 API 提供 Meta 下一代大语言模型 Llama 2 的完全托管的生成式 AI 服务。Llama 2 模型比之前的 Llama 模型有了显著改进，包括使用了比原始训练多40%的训练数据，并具有更长的上下文长度（4000个 token），以处理更大的文档。Amazon Bedrock 提供的 Llama 2 模型已经过优化，可以在亚马逊云科技基础设施上提供快速响应，非常适合对话式应用场景。客户可以构建由130亿和700亿个参数的 Llama 2 模型驱动的生成式 AI 应用程序，且无需设置和管理任何基础设施。
Amazon CodeWhisperer 新功能将允许客户使用私有代码库安全地定制 CodeWhisperer 代码建议，进一步提升开发人员效率

Amazon CodeWhisperer 是一款基于 AI 的编程助手，它通过对数十亿行来自亚马逊和公开可用的代码进行训练，提高开发人员的生产力。虽然开发人员在日常工作中频繁使用 CodeWhisperer，但有时他们需要将其企业内部私有代码库（例如内部 API、代码库、软件包和类）整合到应用程序中，而这些代码都不属于 CodeWhisperer 的训练数据。内部代码的使用也是一个难题，因为说明文档有限，并且没有开发人员可以求助的公共资源或论坛。
例如，要编写一个用于从购物车中移除商品的函数，开发人员必须首先了解用于与应用程序交互的 API、集合和其他内部代码。以前，开发人员可能需要花费数小时来检查以前编写的内部代码，从而找到所需信息并理解其工作原理。即使找到了正确的资源，他们仍需仔细检查代码，以确保其符合公司编码的最佳实践，并且不会重复引用代码中的任何缺陷或漏洞。
Amazon CodeWhisperer 新定制功能将解锁生成式 AI 编程的全部潜力，通过安全地利用客户的内部代码库和资源提供定制化建议。这使得开发人员在各种任务中能够更准确地获得代码建议，从而节省时间。首先，管理员需要从源（例如 GitLab 或 Amazon S3）连接到他们的私有代码存储库，并调度一个作业来创建自己的定制内容。在创建定制内容时，CodeWhisperer 利用各种模型和上下文定制技术，学习客户的代码库并改进实时代码建议，从而使开发人员花更少的时间去寻找无差别的问题的正确答案，同时将更多时间投入到创建新的差异化体验上。管理员可以在亚马逊云科技控制台（Amazon Console）集中管理所有定制功能、查看评估指标、估算每个定制功能的性能，并有选择地将它们部署给公司内特定的开发人员，以限制对敏感代码的访问。
通过选择高质量的存储库，管理员可以确保 CodeWhisperer 提供的定制建议不包含已弃用的代码，以满足企业质量与安全标准。考虑到企业级安全和隐私，这项功能可以确保定制内容完全私密，而支持 CodeWhisperer 的底层基础模型在训练过程中不使用定制内容，能够保护客户宝贵的知识产权。该自定义功能将很快作为 CodeWhisperer 企业版的一部分在预览中提供给客户使用。此外，CodeWhisperer 的自定义设置默认确保了安全性，无论客户使用 Amazon CodeWhisperer 专业版还是企业版，在处理来自开发人员 IDE 的请求时，亚马逊云科技均不会存储或记录任何客户内容。
Amazon QuickSight 的新生成式 BI 创作功能，可以帮助业务分析师使用自然语言命令轻松创建和定制数据可视化效果

Amazon QuickSight 是一个为云端构建的统一 BI 服务，能够创建交互式仪表盘、分页报告以及嵌入式分析，同时具备使用 QuickSight Q 进行自然语言查询的能力，因此企业的每位用户都能以他们偏好的格式获取所需的洞察。
通常情况下，商业分析师需要花费数小时使用 BI 工具来探索各种不同的数据源，添加计算、创建和完善可视化效果，然后将它们呈现在仪表盘中提供给业务利益相关者。要创建一个简单的图表，分析师首先必须找到正确的数据源、识别数据字段、设置过滤器，同时进行必要的个性化设置以实现良好的可视化效果。
如果进行数据可视化需要进行新的计算（例如年度销售额），分析师还必须确定所需的参考数据，然后创建、验证并将视觉效果添加到报告中。如果可以减少商业分析师手动创建和调整图表和计算所花费的时间，让他们将更多时间投入到高价值的任务中，企业也能从中获益。
新的生成式 BI 创作功能扩展了 QuickSight Q 的自然语言查询功能，使其不仅能够回答清晰表述的问题（例如，“加利福尼亚州销售排名前10的产品是什么？”），还能帮助分析师从问题片段（例如，“销售排名前10的产品”）快速创建可定制的视觉效果，通过提出后续问题来澄清查询意图，优化视觉效果，并完成复杂的计算。业务分析师只需描述想获得的结果，QuickSight 即可生成具有良好观感的视觉对象。分析师仅需简单操作就能将其轻松添加到仪表盘或报告中。
例如，分析师可以要求 QuickSight Q 为“2022年和2023年运动鞋销售额的月度趋势”创建可视化内容，该服务会自动选择合适的数据，并根据请求使用最合理的图表格式（比如线形图或条形图）绘制所需信息。QuickSight Q 还将提供预设的提示问题，帮助分析师澄清在多个数据字段与其匹配查询时可能出现的歧义（比如图表应包括运动鞋销售额的美元总额还是销售的单位个数）。
分析师获得了最初的可视化内容后，还可以使用自然语言添加复杂的计算，改变图表类型，或优化可视化效果。QuickSight Q 中新的生成式 BI 创作功能使业务分析师能够轻松快捷地创建良好的视觉效果，更快速地为大规模数据驱动型决策提供宝贵的信息依据。
千行百业的客户都在利用亚马逊云科技的生成式 AI 服务创建新的应用程序，提高开发人员的效率，以及帮助分析师更快速地获取洞察

阿迪达斯是全球最大的运动品牌之一。“我们很高兴能参与 Amazon Bedrock 预览版的试用，亲身体验这项服务。Amazon Bedrock 对我们的生成式 AI 工具构建大有裨益，Amazon Bedrock 承担了构建生成式 AI 应用的繁重基础设施管理工作，使我们能够专注于大语言模型项目的核心方面。”阿迪达斯企业架构副总裁 Daniel Eichten 表示，“我们已经使用 Amazon Bedrock 开发了一款生成式 AI 解决方案，使阿迪达斯的广大工程师只需通过单个对话界面，就能从知识库中找到所需的各种信息和答案，回答从入门到复杂的多种技术问题。”
默克是一家研发密集型生物制药公司，130多年来一直致力于发现和研发创新药物和疫苗，以拯救生命和改善健康。“完整的制药价值链上存在很多手动且耗时的流程，这些流程阻碍了更有价值的工作的开展，同时还不能有效利用数据改善员工、客户和患者体验。”默克数据科学执行董事 Suman Giri 表示，“借助 Amazon Bedrock，我们迅速建立了生成式 AI 功能，使知识挖掘和市场研究等工作更高效。在我们的美国患者分析工作流程中，我们可以利用这些功能提供对患者治疗的见解，提高生活质量，扩大商业影响力，同时填补数据共享方面的空白，为负责任的生成式 AI 打造数据治理生态系统。”
宝马集团是全球顶级的汽车和摩托车制造商之一。“宝马的区域专家致力于优化整条供应链的库存。他们经常收到董事会成员或供应链专家等利益相关者的请求，要求创建新的仪表盘视图，以便他们分析最新趋势。”宝马集团数据工程和分析专家 Christoph Albrecht 表示，“QuickSight Q 创作体验能够显著节省时间，可以在无需参考的情况下创建计算、快速构建视觉效果，然后通过自然语言对可视化呈现进行精确调整。区域专家的快速反馈给我们的业务用户留下了深刻印象，从而让他们可以更快地做出重要决策。”

warkinger · 发表于 2023-10-29 10:25:35|来自：北京朝阳

Anthropic的技术天下第二。
目前Dario Amodei还没透露未来Claude的走向。Anthropic的强调的技术是，安全+伦理+可解释性+长记忆。
他们对企业和研究型用户比较关注。
我好像从来没听说过，Anthropic要研发多模态LLM。
现在吃到了Amazon的投资，估计也要向多模态转型。长记忆的红利，目前已经到头了。
要达到Midjourney的水平，对于Anthropic来说并不是不可能的。 Dalle3对Midjourney的突破，说明MJ并非牢不可破。
OpenAI还有一个语音怪物，非常自然的TTS语音，非常好。这是Anthropic短时间无法追上的，我现在还搞不懂，它的TTS是怎么实现的。
我觉得加大研发力度，Anthropic可以在1到2年，达到现在ChatGPT Plus的水平。
他们有一群高智商的研发人员，非常稳定的人才储备。

[网购] 亚马逊云科技推动AI/ML创新三大驱动力有何意义？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家