Workflow
Multimodal Reasoning
icon
搜索文档
Amazon (NasdaqGS:AMZN) 2025 Conference Transcript
2025-12-03 01:02
公司概况与业务规模 * 亚马逊云科技(AWS)已成长为年收入1320亿美元的业务,年增长率达20%,绝对增长额约为220亿美元[1] * 过去12个月的绝对增长额超过一半以上的财富500强公司的年收入[2] * 亚马逊云科技拥有全球最大的人工智能云基础设施,数据中心网络覆盖38个区域、120个可用区,并已宣布计划新增3个区域[3] * 过去一年新增了3.8吉瓦的数据中心容量,超过全球任何其他提供商[3] * 拥有全球最大的私有网络,过去12个月增长50%,现拥有超过900万公里的陆地和海底光缆[4] 核心产品与技术基础设施 * Amazon S3存储了超过500万亿个对象,每天平均处理超过2亿次请求/秒[2] * 连续第三年,超过一半添加到亚马逊云科技云的CPU容量来自Graviton处理器[2] * 数百万客户使用其数据库服务,Amazon Bedrock为全球超过10万家公司提供AI推理能力[2] * 推出了量子计算芯片原型Ocelot,使量子纠错实施成本降低超过90%[3] * 亚马逊云科技是运行英伟达GPU的最佳平台,与英伟达合作超过15年,在运行大规模GPU集群方面最为稳定[15] * 推出了采用英伟达Blackwell处理器的P6代EC2实例,计算能力相比前代P5en提升超过20倍[16] * 推出了由英伟达最新GB300 NVL72系统驱动的新P6e GB300实例[16] AI芯片与计算平台 * AWS Trainium是专为AI工作负载提供最佳性价比的自研AI芯片[20] * Trainium 2实际上是目前全球最佳的推理系统,Amazon Bedrock上运行的多数推理已由Trainium驱动[20] * 已部署超过100万颗Trainium芯片,Trainium 2在数据中心的部署速度比之前最快的芯片快4倍[20] * Trainium已成为价值数十亿美元的业务,并持续快速增长[21] * 宣布Trainium 3 Ultra服务器全面可用,这是亚马逊云科技云中首款3纳米AI芯片[22] * Trainium 3 Ultra服务器提供4.4倍计算性能、3.9倍内存带宽,以及每兆瓦功率5倍以上的AI token处理能力[23] * 最大的TRN3 Ultra服务器结合144颗Trainium 3芯片,提供362 FP8 petaflops计算能力和超过700TB/秒的聚合带宽[23] * 已开始研发Trainium 4,预计将提供6倍FP4计算性能、4倍内存带宽和2倍高内存带宽容量[25] AI平台与模型服务 * Amazon Bedrock是全面的生成式AI应用平台,帮助客户从原型快速进入生产[29] * Bedrock客户数量比去年同期增加了一倍以上,已有超过50家客户通过Bedrock处理了超过1万亿个token[30] * 过去一年中,Bedrock提供的模型数量几乎翻倍,包括开源模型和专有模型[31] * 宣布推出多款新的开源模型,包括Google的Gemma、Minimax M2和英伟达的Nemotron[32] * 推出Mistral AI的两个新开源模型系列:Mistral Large(上下文窗口大小翻倍,模型参数增加5倍以上)和Ministral 3[32] * Amazon Nova是亚马逊的基础模型家族,为许多工作负载提供行业最佳性价比[33] * 宣布推出新一代Nova 2,包括Nova 2 Lite(快速且经济高效的推理模型)和Nova 2 Pro(最智能的复杂工作负载推理模型)[34] * Nova 2 Lite在行业基准测试中表现优异,在指令遵循、工具调用、代码生成和文档信息提取方面经常匹配或超越可比模型[35] * Nova 2 Pro在指令遵循和代理工具使用等关键技能方面表现突出,在Artificial Analysis基准测试中提供比GPT-5.1、Gemini 3 Pro和Claude 4.5 Sonic更好的绝对结果[36] * 推出Nova 2 Sonic(下一代语音到语音模型)和Nova 2 Omni(行业首个支持文本、图像、视频和音频输入,以及文本和图像生成输出的统一多模态推理模型)[37] 数据集成与模型定制 * 宣布推出Amazon Nova Forge,引入开放训练模型概念,允许客户在模型训练的每个阶段将自己的专有数据与亚马逊策划的训练数据集混合[47] * 产生的模型称为Novellas,可以轻松上传并在Bedrock中运行[47] * Reddit使用Forge将其专有领域数据集成到预训练中,首次实现了满足其准确性和成本效益目标的模型[50] 代理平台与能力 * 推出Amazon Bedrock AgentCore,提供最先进的代理平台,用于安全地大规模构建、部署和操作代理[60] * AgentCore具有安全的无服务器运行时、内存管理、网关、身份验证和可观察性等功能[61] * 设计为开放和模块化,可与各种框架(如CrewAI、LlamaIndex、LangChain)和模型(包括Bedrock中的模型或OpenAI的GPT、Gemini模型)一起使用[62] * 宣布AgentCore Policy,提供实时确定性控制,定义代理如何与企业工具和数据交互[68] * 宣布AgentCore evaluations,帮助开发人员基于真实行为持续检查代理质量,提供13个预构建评估器[76] * 纳斯达克使用AgentCore免除了构建代理基础架构的重负,百时美施贵宝构建的新代理能够在不到一小时内评估超过1万种化合物,而过去研究人员需要4-6周[64] * Workday使用AgentCore的代码解释器,将常规规划分析时间减少30%,每月节省近100小时工作[65] 行业应用与客户案例 * 索尼集团使用亚马逊云科技服务,为高达1.29亿游戏玩家提供安全、高质量的游戏体验[54] * 索尼数据海洋(Sony Data Ocean)使用亚马逊云科技服务处理来自索尼集团500多种数据集的高达760TB数据[55] * 索尼使用Amazon Bedrock构建的自研企业LLM已有超过5.7万用户,每天处理15万次推理请求[56] * 索尼采用Nova Forge,微调Nova 2.0 Lite模型,目标是将合规审查和评估流程效率提高100倍[57] * Adobe使用亚马逊云科技服务训练和部署模型,其Adobe Firefly模型已生成超过290亿个资产[80] * Adobe Acrobat每年有超过180亿个PDF文件被创建和编辑,Adobe Experience Platform每天处理超过35万亿次细分评估和700亿次配置文件激活[82][83] * 亚马逊内部使用的Amazon Quick已有数十万用户,团队表示完成任务的时间缩短至原来的十分之一[90] * Amazon Connect业务已突破10亿美元年化运行率,为成千上万家客户服务[93] * Writer平台使用亚马逊云科技基础设施,训练运行时间从6周减少到2周,训练管道可靠性提高90%[98] 开发工具与效率提升 * AWS Transform帮助客户现代化遗留平台,汤森路透每月现代化超过150万行代码[105] * 推出AWS Transform Custom,允许创建自定义代码转换代理,现代化任何代码、API、框架或运行时[106] * QAD使用AWS Transform将现代化参与时间从最少两周缩短到不到三天[107] * 推出Kiro代理开发环境,已有数十万开发者使用[109] * 亚马逊内部标准化使用Kiro作为官方AI开发环境,一个项目从原本需要30名开发者18个月完成,变为仅需6人在76天内完成[113] * 宣布推出Frontier Agents,包括Kiro Autonomous Agent、AWS Security Agent和AWS DevOps Agent[119][127][130] * Kiro Autonomous Agent可以自主处理复杂任务,如升级跨15个不同微服务的关键库[122] * AWS Security Agent帮助构建从一开始就安全的应用程序,集成到GitHub拉取请求中,提供渗透测试功能[127] * AWS DevOps Agent解决并主动预防事件,持续提高可靠性和性能[130] 核心服务更新与新产品 * 计算:推出新一代X系列大内存实例(基于定制英特尔至强6处理器,内存增加50%)、基于最新AMD EPYC处理器的C8a实例(性能提高30%)、C8ine实例(基于定制英特尔至强6处理器,每VCPU数据包性能提高2.5倍)、M8azn实例(具有绝对最快CPU时钟频率)、EC2 M3 Ultra Mac和EC2 M4 Max Mac实例[137][138][139][140] * 存储:将S3最大对象大小增加10倍至50TB,大型批处理作业性能提高10倍,为S3 Tables推出智能分层(可节省高达80%存储成本),S3 Tables支持跨区域和账户自动复制,将S3访问点扩展至支持NetApp ONTAP,S3 Vectors全面可用(可在一个S3桶中存储数万亿向量,存储和查询成本降低90%),为Amazon OpenSearch中的向量索引推出GPU加速(索引速度提高10倍,成本降低四分之三)[141][142][143][144][145] * 数据分析:为EMR Serverless消除配置和管理本地存储的需求[145] * 安全:将GuardDuty的扩展威胁检测功能添加至ECS,Security Hub全面可用(包括近实时风险分析、趋势仪表板和新简化定价模型),在CloudWatch中为所有运营安全与合规数据推出新的统一数据存储[146][147] * 数据库:将RDS for SQL Server和Oracle的存储容量从64TB增加至256TB(同时提供4倍的IOPS和I/O带宽改进),允许指定SQL Server数据库实例启用的VCPU数量以降低许可成本,增加对SQL Server Developer Edition的支持[148][149] * 成本优化:推出Database Savings Plans,可为数据库服务使用量节省高达35%的费用[150] 合作伙伴与生态系统 * 拥有庞大的合作伙伴网络,包括SaaS提供商、系统集成商和解决方案提供商[5] * 与沙特阿拉伯新成立的公司Humein合作,在沙特王国建立开创性的AI区[18] * 宣布推出AWS AI Factories,允许客户在自己的数据中心中部署专用的亚马逊云科技AI基础设施,像私有亚马逊云科技区域一样运行[18] * Writer平台宣布与Amazon Bedrock Guardrails直接集成,并将Amazon Bedrock中的模型直接纳入Writer平台[101][102]
阿里多模态推理模型开源!精准捕捉视频隐藏信息,三大杀手锏让AI更懂“人情世故”
搜狐财经· 2025-07-09 08:28
阿里通义实验室开源多模态推理模型HumanOmniV2 - 阿里通义实验室开源多模态推理模型HumanOmniV2,通过强制上下文总结机制、大模型驱动的多维度奖励体系和GRPO优化训练方法,实现对多模态信息的全面理解 [1] - HumanOmniV2在生成最终答案前会输出上下文概括,系统性分析视觉、听觉、语音信号,例如正确解读视频中女性翻白眼的真实意图 [1] - 模型在IntentBench评测基准(633个视频和2689个问题)上准确率达到69.33% [4] 模型技术突破 - 引入强制上下文总结机制,避免忽略多模态输入中的隐藏信息,解决现有多模态模型全局上下文理解不足和推理路径简单的问题 [18] - 采用GRPO优化算法改进:词元级损失解决长序列训练不平衡、移除问题级归一化项避免权重偏差、动态KL散度机制提升训练稳定性 [23] - 大模型驱动的多维度奖励机制包括上下文奖励(一致性评估)、格式奖励(结构化输出)、准确性奖励(正确率)、逻辑奖励(多模态整合) [20] 性能表现与基准测试 - HumanOmniV2在开源全模态模型中性能最佳:Daily-Omni测试集58.47%、WorldSense测试集47.1%、IntentBench测试集69.33% [24] - 对比测试中,HumanOmniV2(7B参数)在情感识别任务上优于GPT-4o(59.98%)和Gemini 1.5 Pro(67.15%),达到69.33%准确率 [25] - 在细分领域测试中,模型在"Social"(84%)、"Emotion"(82.41%)、"Deception"(64%)等场景表现突出 [25] 数据集与行业影响 - 开发全模态推理训练数据集,融合图像、视频、音频任务的上下文信息,解决人工标注数据不足问题 [23] - 推出IntentBench评测基准,包含633个视频和2689个复杂意图理解问题,要求模型具备深度社会关系分析能力 [23] - 基于Qwen2.5-Omni-Thinker架构改进,为AI理解人类复杂意图提供技术参考,但7B参数规模可能限制更大模型的适用性 [26][27]