Workflow
LLMs
icon
搜索文档
BERNSTEIN:科技的未来 - 具身智能与大语言模型会议要点总结
2025-05-16 13:29
纪要涉及的行业和公司 - **行业**:印度科技、媒体和互联网行业,重点涉及IT服务和SaaS行业 [1][4][8] - **公司**:AI Rudder、Straive、TCS.IN(Tata Consultancy Services Ltd)、INFO.IN(Infosys Ltd)、COFORGE.IN(Coforge Limited)、PSYS.IN(Persistent Systems Limited)、Salesforce、Microsoft、Amazon、OpenAI、Google等 [1][7][42] 纪要提到的核心观点和论据 Agentic AI和LLMs的发展趋势 - **Agentic AI将变革科技栈**:Agentic AI预计利用LLMs快速提升的能力改变科技栈,推动从“AI驱动的企业工作流”转变,重新定义生产力,将范式从静态API和僵化的UX/UI转向动态、目标驱动的系统 [2] - **LLMs采用率增加**:LLMs和AI的采用路径与云计算类似,最初的怀疑逐渐被更好的接受度取代,已证实的ROI、灵活的部署方式(云、本地、边缘)和成熟的LLM生态系统增强了信心,语音AI代理将推动多模态交互,增强呼叫中心代理的能力 [2][16] - **AI采用将遵循云的轨迹**:AI采用将像云一样,起初缓慢,随着工具、信任和人才的契合而加速,文化转变和监管清晰度的提高正在加速信任和企业准备度 [16] 不同类型LLMs的比较 - **开源与专有LLMs各有优劣**:开源LLMs提供更大的控制、定制和成本效率,但需要大量内部专业知识,且存在安全和支持风险;专有LLMs如GPT - 4或Claude提供最先进的性能、可扩展性和托管安全功能,但成本较高,定制有限,可能存在供应商锁定 [32] - **多模型多供应商的未来**:未来可能是多模型、多供应商的,由社区驱动的创新和特定领域的需求塑造,开源LLMs正在推动一个开放、模块化、竞争的空间 [35] - **顶级LLMs的评估**:GPT - 4o和Claude 3 Opus在企业级性能方面领先,具有强大的代理和多模态能力,但成本较高;Gemini 1.5适合生产力用例;开源模型如Mistral和LLaMA 3提供经济高效、可定制的选项,但需要更多努力来实现代理工作流;Cohere在RAG相关企业任务中表现出色,但缺乏完整的多模态或自主代理能力 [39][40] 对IT服务和SaaS模型的影响 - **IT服务劳动密集型模型面临风险**:IT行业的软件开发方式将改变,大量基本编码将转向AI,AI不仅能编写代码,还能为功能开发提供精确估计,设定新的生产力和质量基准,劳动密集型行业如BPM和传统IT服务在技术栈中风险最大 [4][41] - **SaaS用户增长可能停滞或下降**:随着AI代理接管人类任务,用户数量可能下降,但使用和自动化程度将增加,这将打破按席位定价的模式,推动SaaS提供商转向基于价值、使用或结果的计费 [4][30][31] LLMs的演变方向 - **从成本削减到创收**:早期企业采用LLMs主要集中在成本削减用例,随着发展,LLMs将从成本削减工具演变为增长引擎,通过超个性化、对话式商务和AI原生产品体验实现创收,自主代理正在重塑商业模式 [5][43][44] 投资建议 - **印度IT服务行业中期受益**:印度IT服务行业中期将受益于Agentic AI,但短期内会受到效率驱动的增长影响,IT服务公司可以结合AI知识和客户行业经验,帮助企业决定如何采用AI,填补客户在构建有吸引力的AI应用程序时面临的技能、数据和基础设施差距 [8] - **具体公司评级**:对大型印度IT服务公司Infosys和TCS给予“Outperform”评级,对中型IT服务公司Coforge和Persistent给予“Outperform”评级 [8] 其他重要但可能被忽略的内容 - **工作任务自动化比例变化**:目前47%的工作任务主要由人类单独完成,22%主要由技术完成,30%由两者结合完成;到2030年,雇主预计这三个类别/方法的比例将接近平均分配 [9] - **AI代理集成方式**:添加AI代理通常是叠加而非重建,如果应用程序有稳定的API和清晰的用户流程,可以在几周内部署一个有效的AI代理层;对于较旧或更封闭的系统,可能需要一些工程努力来创建桥梁 [24] - **AI平台支持多渠道客户交互**:AI平台展示了语音机器人和聊天机器人等AI代理如何通过统一的AI交互式机器人层部署在多个渠道(电话、短信、电子邮件、WhatsApp、Facebook等),这些代理通过预先存在的通信和后端API与现有系统交互 [29] - **新应用构建**:包括垂直代理、代理托管与服务、可观测性、代理框架、内存、工具库、沙箱、模型服务和存储等多个类别,涉及Sierra、Replit、Dosu等众多公司和平台 [45] - **公司估值和风险**:对TCS、Infosys、Coforge和Persistent Systems进行了估值,并指出了各公司的下行风险,如TCS可能面临大订单势头放缓、数字业务增长放缓等风险 [49][50][51][52][53] - **评级定义和分布**:介绍了Bernstein和Autonomous品牌的评级定义、基准和评级分布情况 [55][56][57][59][60][61] - **利益冲突和合规信息**:报告中提及了分析师的利益冲突、公司的合规政策、不同地区的分发规定以及报告的法律声明等内容 [71][72][76][80][84][85][86][88][89][90][94][97][99][100][101][102][103][104][105][106][107][108][109][110][111]
Shopify(SHOP.US)FY25Q1电话会:支付业务在营收中的占比逐渐扩大或影响毛利率
智通财经网· 2025-05-09 16:14
智通财经APP获悉,近日,Shopify(SHOP.US)召开FY25Q1的财报电话会。公司提到,目前GMV没有受 到有意义的影响,4 月和 5 月初业务表现强劲,延续了第一季度的良好态势。但目前环境动态变化,关 税的影响程度和时间还难以确定。 一季度Shopify实现收入同比增长 27%。其中商家解决方案收入增长 29%,主要受益于GMV增长及 Shopify Payments 渗透率(达 64%);订阅解决方案收入增长 21%,由商家入驻数量增加及 Plus 定价调整 推动。 Shopify指,在订阅收入方面,毛利率一直比较稳定,维持在 80% 左右,上下浮动几个基点,且预计不 会改变。在商户解决方案方面,PayPal 是其中一部分,但未对其影响进行量化。支付业务在营收中的 占比越来越大,这对毛利率有一定逆风影响,尤其是大型商户 GMV 增加时。 在市场拓展与商家合作方面,Shopify新增欧洲多国支付覆盖,欧洲GMV增速超本土市场 3 倍。VF集团 (Dickies、Kipling等8个品牌)、Follett 教育集团(北美 1,000+ 高校书店)等头部商家入驻加入平台。 Q&A 问答 Q:商家的 G ...
Uber(UBER) - 2025 Q1 - Earnings Call Transcript
2025-05-07 21:00
财务数据和关键指标变化 - 月度活跃消费者增长14%,达到1.7亿 [5] - 出行次数增长18%,留存率创全球历史新高 [5] - 总预订量与出行次数同步增长,受移动出行业务和配送业务的推动 [6] - 第一季度调整后息税折旧摊销前利润(EBITDA)达到19亿美元,同比增长35%,自由现金流达到23亿美元 [6] - 配送业务利润率达到总预订量的3.7%,较去年同期提升70个基点 [42] - 第一季度配送业务的增量利润率为9% [44] 各条业务线数据和关键指标变化 移动出行业务 - 过去三个季度出行次数同比增长约19%,预计第二季度情况类似 [33][103] - 稀疏市场出行量占移动出行业务总量的20%,且增长速度快于核心市场 [35] 配送业务 - 杂货和零售业务在去年第四季度实现可变贡献收支平衡,第一季度开始在可变贡献层面实现增长 [43] - 会员计划拥有3000万会员,配送业务的会员渗透率超过60%,部分市场达到70%以上 [82] 各个市场数据和关键指标变化 - 美国市场竞争激烈,公司在多数运营市场中处于领先地位,配送业务的杂货和零售业务本季度加速增长,食品配送行业出现整合 [22] - 在欧洲市场,公司认为在英国通过有机增长成为外卖业务的第一名,法国是重要市场,德国市场有很大潜力 [85][86] 公司战略和发展方向和行业竞争 公司战略和发展方向 - 与Waymo在奥斯汀合作推出约100辆自动驾驶汽车,宣布五项自动驾驶合作计划,将在美国、欧洲和中东部署 [6][7] - 与OpenTable合作,整合餐饮、配送和交通服务;与达美航空的SkyMiles计划合作上线 [7] - 收购Trendy Algo,以推动在土耳其的未来增长 [7] - 利用大型语言模型改善餐厅和杂货搜索体验,与领先的大语言模型公司合作,打造无缝愉悦的用户体验 [94] 行业竞争 - 移动出行市场,美国国内有强劲竞争对手Lyft,国际上在欧洲和拉丁美洲也面临竞争;配送业务在美国市场竞争激烈 [20][21][22] - 欧洲市场有竞争对手进行无机扩张,公司更倾向于有机扩张 [86] 管理层对经营环境和未来前景的评论 - 公司在今年开局强劲,各业务板块表现良好,预计第二季度将延续强劲的营收增长和更高的盈利能力,为下半年的旺季做好准备 [5][7] - 宏观层面未观察到明显的负面信号,公司所处的餐饮、交通、杂货等行业在宏观不确定时期相对稳定 [61][63] - 自动驾驶技术发展迅速,创新令人鼓舞,预计未来十年新车将配备四级或五级自动驾驶功能 [72] 其他重要信息 - 保险成本方面,美国移动出行保险成本在今年剩余时间将是个较小的不利因素,公司通过安全技术创新、政策推动等方式降低成本 [52][53][54] - 公司在定价方面,看到与过去类似的弹性,随着保险成本压力缓解,希望继续为消费者提供合理价格 [14] 总结问答环节所有的提问和回答 问题1:移动出行业务在保持低价时的价格弹性以及奥斯汀自动驾驶汽车的利用率情况 - 价格弹性与过去类似,有短期和长期弹性,随着保险成本压力缓解,公司对定价结果满意;奥斯汀的自动驾驶汽车利用率很高,平均每辆车每天的出行次数比99%的奥斯汀司机都多,公司将继续增加车辆数量并计划在亚特兰大等地区扩展 [14][15][16] 问题2:移动出行和配送业务的竞争格局以及特定地区的竞争强度 - 全球市场竞争激烈,移动出行在美国有Lyft等竞争对手,国际上也面临竞争;配送业务在美国市场竞争激烈且行业有整合趋势;公司在多数市场处于领先地位,凭借全球布局和独特平台有竞争力 [20][21][22] 问题3:奥斯汀自动驾驶汽车与人类司机如何匹配供需以增加Uber整体业务量,以及美国移动出行业务的增长情况和郊区与城市的趋势 - 奥斯汀目前专注于确保每日服务体验,会增加车队规模,长期目标是提供可靠服务以吸引更多消费者;美国移动出行业务过去三个季度出行次数同比增长约19%,预计第二季度类似,稀疏市场增长快于核心市场 [29][30][33][35] 问题4:配送业务利润率情况,以及杂货和零售业务的利润率扩张节奏和餐厅利润率高的原因 - 配送业务利润率达到总预订量的3.7%,较去年同期提升70个基点,主要由广告和规模效应推动;杂货和零售业务有很大增长潜力,第一季度增量利润率为9%;公司会平衡盈利能力和营收增长 [42][43][44] 问题5:保险成本压力是否已过去,以及自动驾驶领域除Waymo外接近其规模的公司 - 美国移动出行保险成本在今年剩余时间将是较小的不利因素,公司通过安全技术创新、政策推动等方式降低成本;自动驾驶领域有很多有潜力的公司,如中国的WeRide、Pony、百度等,还有与公司合作的Main Mobility、VW、Momenta等 [52][53][50] 问题6:宏观因素对移动出行和配送业务的影响,以及旧金山和洛杉矶的竞争情况 - 宏观层面未观察到明显负面信号,受众增长和频率稳定,公司会调节价格上涨;旧金山和洛杉矶的竞争环境稳定,公司支持旧金山市长的发展计划 [61][62][64] 问题7: affordability举措和保险成本对移动出行利润率的影响,以及自动驾驶技术何时能实现规模化商业应用 - 公司致力于实现利润率的逐年稳步提升,但难以对下半年进行具体指引;自动驾驶技术发展迅速,创新令人鼓舞,预计未来十年新车将配备四级或五级自动驾驶功能 [69][70][72] 问题8:配送业务的affordability努力,以及欧洲市场的增长速度、竞争格局和整合情况 - 配送业务的affordability努力包括会员计划和商家资助优惠;会员计划有3000万会员,渗透率不断提高;商家资助优惠增加了商家的可见性和销售额;欧洲市场公司取得了良好成绩,在英国成为外卖业务第一名,法国和德国市场有潜力,公司更倾向于有机扩张 [81][82][85][86] 问题9:配送业务与大语言模型合作的可能性,以及稀疏市场移动出行的机会持续时间、对城市市场减速的抵消能力和利润率情况 - 公司在大语言模型应用方面处于早期实验阶段,主要关注改善用户体验,如餐厅和杂货搜索;稀疏市场移动出行有很大增长机会,目前20%的出行量来自稀疏市场且增长更快,投资成熟后利润率与其他市场相当 [93][94][97] 问题10:移动出行总预订量未来一年的减速情况,以及稀疏市场的出行频率机会与核心城市的比较 - 移动出行总预订量预计不会大幅减速,出行增长主要由受众增长驱动,后续需关注保险带来的定价机会;稀疏市场移动出行频率可能较低,但价格和利润率可能较高,配送业务在稀疏市场的频率持续增长 [103][104][108][109]
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
虎嗅· 2025-05-06 08:48
从上海到纽约,世界各地的餐厅里都能看到机器人在烹饪食物。它们会制作汉堡、印度薄饼、披萨和炒菜。它们的原理与过去50年机器人制造其他产品的 方式如出一辙:精准执行指令,一遍又一遍地重复相同的操作步骤。 但Ishika Singh想要的不是这种"流水线"式的机器人,而是真正能"做晚饭"的机器人。它应该能走进厨房,翻找冰箱和橱柜,拿出各种食材搭配组合,烹调 出美味的菜肴,然后摆好餐具。对孩子而言,这也许很简单,但没有任何机器人能做到这一点。这需要太多关于厨房的知识,更需要常识、灵活性和应变 能力,但这些能力都超出了传统机器人编程的范畴。 南加州大学计算机科学博士生Singh指出,问题的症结在于机器人学家使用的经典规划流程。"他们需要把每一个动作,以及它的前提条件和预期效果都定 义清楚,"她解释道,"这要求事先设定环境中所有可能发生的情况。"可即使经过无数次试错,编写数千行代码,这样的机器人仍无法应对程序之外的突 发状况。 一个晚餐服务机器人在制定"策略"(执行指令的行动计划)时,不仅要知道当地的饮食文化(当地所谓的"辛辣"究竟指什么),还要熟悉具体厨房环境 (电饭煲是否放在高层的架子上)、服务对象的特殊情况(Hec ...
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 11:40
核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式:贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程,实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理,使模型倾向于选择高奖励动作,显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**:LLM过早锁定局部最优动作,在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**:2B模型机械复制高频动作(熵值降低50%),27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**:87%推理正确但58%情况仍选择贪婪动作,与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重,重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略,在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调,数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%,优于随机基线 [22] - 微调后模型探索率提升,10步后动作覆盖率突破60% [17][22] - 知-行差距缩小,正确推理对应最优动作执行率从21%提升至40% [20][22]
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
机器之心· 2025-04-28 12:32
机器之心报道 编辑:陈萍、+0 大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了卓越的能力。然而,它们迅速增长的规模给高效部署和推理带来了巨大障碍,特别是在计 算或内存资源有限的环境中。 例如,Llama-3.1-405B 在 BFloat16(16-bit Brain Float)格式下拥有 4050 亿个参数,需要大约 810GB 的内存进行完整推理,超过了典型高端 GPU 服务器(例如, DGX A100/H100,配备 8 个 80GB GPU)的能力。因此,部署该模型需要多个节点,这使得它昂贵且难以获取。 本文,来自莱斯大学等机构的研究者提出了一种解决方案, 可以 将任何 BFloat16 模型压缩到原始大小的 70%,同时还能在任务上保持 100% 的准 确性。 论文标题: 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float 为了应对 LLM 不断增长的模型尺寸,通常会采用量化技术,将高精度权重转换为低位表示。这显著减少了内存 ...
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
机器之心· 2025-04-27 18:40
研究背景 - 增加推理时间被认为是提升大语言模型推理能力的重要途径,包括引入强化学习与奖励模型优化单一模型的推理路径,以及构建多智能体系统协同解决复杂任务 [5] - 多智能体方法理论上更具灵活性与可扩展性,但面临自动扩展能力不足、智能体能力评估困难、奖励信号设计粗糙、缺乏动态演化机制等挑战 [7][8] ReSo框架核心创新 - 提出奖励驱动的自组织多智能体系统ReSo,能够自主适应复杂任务和灵活数量的智能体候选,无需手动设计合作解决方案 [12] - 引入协作奖励模型(CRM),提供细粒度奖励信号实现数据驱动的多智能体系统性能优化 [12] - 采用任务图生成与智能体图构建的两阶段方法,将复杂问题分解为有向无环任务图(DAG),再为每个子任务匹配最佳agent [11][15] 技术实现细节 - 任务图生成:使用大语言模型将复杂问题转化为分步骤的有向无环任务图,测试了闭源模型(gpt4o)和开源LLM(Qwen-7b) [16] - 两阶段智能体选择:粗粒度搜索采用UCB算法筛选候选智能体,细粒度筛选通过CRM评估候选智能体实际表现 [20][23] - 动态智能体数据库(DADB)存储智能体基本信息、历史性能及计算成本,用于生成初步质量评分 [19] 实验结果 - ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%,显著优于其他方法 [36] - 在复杂推理任务中表现全面优于现有MAS方法,如MetaGPT、DyLAN、GPTSwarm等 [37] - 与单模型相比,ReSo在保持较高准确率的同时,展现出更强的适应性和可扩展性 [37] 数据集贡献 - 提出自动化方法生成多智能体任务数据,包括随机生成任务图、填充子任务及构建自然语言依赖关系 [32] - 开源MATH-MAS和Scibench-MAS数据集,单个样本包含多学科任务,复杂度分为3、5、7三个级别 [32]
中科院领衔万字长文,全面系统梳理多模态LLM对齐算法
量子位· 2025-03-23 19:12
CASIA等 投稿 量子位 | 公众号 QbitAI 万字长文,对多模态LLM中对齐算法进行全面系统性回顾! 从现有 对齐算法涵盖的应用场景 ,到 构建对齐数据集的核心因素 ,再到 用于评估对齐算法的 基准 ,还有 对齐算法未来潜在发展方向 , 全都梳理了一遍。 大语言模型 (LLMs) 能够通过简单的提示完成多种任务,且无需进行任务特定的训练。然而,这些模型主要处理文本数据,对于多模态数 据的处理存在局限。 由于世界本质上是多模态的,包括视觉、听觉和文本等数据,研究者开始在LLM的基础上开发多模态大语言模型 (MLLMs) ,以处理更复 杂的数据形式。 然而,现有的MLLMs仍面临一系列挑战,尤其是在真实性、安全性、推理能力和与人类偏好对齐方面,这些问题尚未得到充分解决。 因此,针对这些问题的对齐算法应运而生,成为解决这些挑战的有效途径。 本文这项研究的主要贡献是对多模态大型语言模型 (MLLMs) 中的对齐算法进行全面的系统性回顾。 具体而言,探讨了以下四个关键问题: 现有对齐算法的应用 场景: 文章通过分类当前的对齐算法,清晰地展示了它们在不同应用领域的适用性,并为研究者提供了一个统一的 符号系统,帮助 ...
速递|AvatarOS获种子轮700万美元,打造AI驱动的3D高端虚拟形象
Z Potentials· 2025-03-11 11:27
图片来源: AvatarOS 几年前,由于元宇宙的热潮,几家专注于数字虚拟人的初创公司应运而生。虽然这股热潮已经消退, 但生成式人工智能为虚拟人注入了新的活力,因为创 建不同的虚拟身份变得更加容易。 各公司正在尝试虚拟人的不同应用场景,包括企业领域的 D-ID 和 Synthesia ,会议领域的 Zoom ,时尚领域的 Glance ,学习领域的 Praktika ,以及创作者 领域的 TikTok 和 Captions 。 然而,创造了诸如 Lil Miquela 和 Amelia 2.0 等知名虚拟影响者的 Isaac Bratzel 认为, 市场上缺乏外观出众且具备个性化特征的高质量虚拟形象。这一思 考促使他开发了 AvatarOS 。 Bratzel 曾在 IPsoft (创建了 Amelia 2.0 )、虚拟影响者公司 Brud (创建了 Lil Miquela )以及 Dapper Labs (该公司收购了 Brud )担任设计职位。 该公司表示,已完成由 M13 的 Latif Peracha 领投的 700 万美元种子轮融资, Andreessen Horowitz Games Fund 、 ...
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
量子位· 2025-03-08 11:35
会议概况 - IEEE/CVF国际计算机视觉与模式识别会议(CVPR 2025)将于2025年6月11日至6月15日在美国田纳西州举行 [1] - 第五届对抗机器学习Workshop由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办 [1] - Workshop主题为"基础模型+X",聚焦基础模型(FM)及其在特定领域应用(XFM)中的鲁棒性挑战 [1][2] 主题聚焦 - 基础模型(FM)凭借强大生成能力彻底改变计算机视觉等多个领域 [2] - 领域特定基础模型(XFM)如自动驾驶FM、医疗FM通过精选数据集训练和任务架构修改提升专业任务性能 [2] - XFM在安全关键型应用中暴露对抗性攻击脆弱性,可能导致错误分类或生成恶意输出 [2] 论文征稿 - 征稿主题包括:XFM鲁棒性、计算机视觉对抗攻击、深度学习系统鲁棒性改进、FM鲁棒性解释、对抗攻击社会应用、FM鲁棒性评估数据集 [4] - 重要时间节点:摘要提交截止2025年3月15日 论文提交截止2025年3月20日 录用通知2025年3月31日 [3] 竞赛活动 - 竞赛主题为针对多模态大语言模型(MLLMs)的对抗攻击 [7] - 初赛要求设计对抗图文对触发MLLM产生有害输出 复赛挑战更高难度风险类别 [7] - 竞赛官网将后续公布详情 由Challenge Chair负责 [7][8] 组织信息 - 论文提交入口为OpenReview平台特定链接 [9] - 研讨会官网提供完整信息 https://cvpr25-advml.github.io/ [9]