Workflow
通用人工智能(AGI)
icon
搜索文档
李飞飞的答案:大模型之后,Agent 向何处去?
创业邦· 2025-09-05 19:12
论文核心观点 - 李飞飞领衔的80页综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》为AI智能体领域建立统一框架 提出从感知到行动的认知闭环架构 并前瞻性预测行业技术演进路径 [5][6][9] - 论文定义Agent AI五大核心模块(环境感知、认知、行动、学习、记忆) 构成动态迭代的智能体体系 被视为实现AGI的系统性蓝图 [12][18] - 大模型(LLM/VLM)是驱动Agent的核心引擎 但需通过环境交互解决幻觉与偏见问题 需建立伦理安全机制 [5][20][21] - 应用潜力覆盖游戏、机器人和医疗三大领域 包括游戏NPC动态交互、机器人自主物理操作、医疗智能问诊与健康管理 [5][24][30] 技术架构 - 环境与感知模块:智能体主动从物理/虚拟世界获取多模态信息(视觉、听觉、文本) 并具备任务规划与技能观察能力 [13] - 认知模块:由LLM/VLM驱动 负责复杂推理、策略制定及上下文理解 是智能体的核心处理中枢 [14] - 行动模块:将决策转化为具体操作指令 包括机器人控制命令或API调用 通过控制器改变环境状态 [15] - 学习模块:支持预训练、零样本/少样本学习、强化学习及模仿学习 通过环境反馈实现持续优化 [16] - 记忆模块:存储知识、逻辑与推理结果 形成长期记忆体系 支持经验复用与举一反三 [17][18] 大模型驱动机制 - LLM/VLM提供零样本规划能力 例如将"热午餐"指令分解为具体子任务序列 显著降低规则编写成本 [20] - 环境交互是关键锚点:通过真实/模拟环境反馈校准模型输出 减少幻觉(如机器人操作错误)并对齐现实世界 [21] - 需解决数据偏见问题:通过多元化训练数据、偏见检测机制及道德指导方针确保包容性 [21] - 隐私与安全挑战:需建立数据使用监管框架 通过提示工程或人类监督层确保敏感领域(如医疗)安全可控 [22] 行业应用场景 - 游戏领域:变革传统NPC脚本模式 实现动态对话、行为调整及社会关系构建 支持自然语言交互与AI辅助内容生成 [25][26] - 机器人领域:实现自然语言指令解析(如"收拾桌子") 结合GPT-4V理解人类演示视频 并通过模拟训练与多模态融合提升物理操作鲁棒性 [28] - 医疗领域:智能问诊机器人提升初级诊疗效率 连接实时医学数据库进行事实核查 支持慢性病监控与个性化健康管理 [30][32] 行业发展与挑战 - 2025年被普遍视为Agent元年 谷歌、OpenAI和微软等巨头技术布局均遵循论文能力栈框架 [5][9] - 当前需突破多模态深度融合、跨领域通用化及标准化评测(如CuisineWorld、VideoAnalytica基准)等核心挑战 [33]
马斯克的官司还没打完,OpenAI 已经开始“动刀”了
36氪· 2025-09-05 16:30
马斯克起诉 OpenAI 已一年多,这场关于AI未来归属权的世纪争端还在法庭上打得难解难分。 但在台下,OpenAI 已经提前出手,悄悄开始对"反对阵营"动刀。 他们发出一连串律师函,传唤那些在公共场合支持马斯克立场的非营利组织,翻查邮件、通话记录、社交网络,甚至 质疑他们的资金来源。 只因为他们曾经质疑 OpenAI 从非营利转型为商业公司。 像极了一场猎巫行动。 01 故事从一个奇怪的电话开始 这事的起点,要从几张看似不起眼的传票说起。 就在上月的一天晚上,Nathan Calvin正在他妈妈家做晚饭。 这位年纪轻轻就成了AI伦理组织Encode总顾问的律师,还没来得及做完饭,就接到了一个陌生人的电话。对方说,自 己要给他送法律文件,站在他公寓门口。 但问题是,他根本不在公寓。他在城的另一头。 那一刻他懵了。一个非营利组织的律师,怎么会突然被找上门要送传票? 结果这个神秘人并没有出现。直到两天后,一个真正的警长带着厚厚一沓文件上门,才揭开了谜底——是OpenAI。 不为别的,只因为他所在的组织Encode,曾经在马斯克状告OpenAI的案子中,提交过一份"法庭之友"意见书,站在了 马斯克一边。 这些组织的 ...
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅· 2025-09-05 08:34
论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述 提出统一的多模态智能体认知框架 为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构 形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入 包含视觉听觉文本传感器数据 并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动 负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令 通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制 通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储 保留知识逻辑推理路径 支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力 显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈 倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见 需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架 通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整 显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景 大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析 自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务 简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力 提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互 如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集 提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用 抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据 实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术 而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体 而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]
生成式AITop100展现全球竞争新格局,中国公司在移动应用领域更具优势
环球时报· 2025-09-05 06:45
全球AI应用竞争格局 - 中美主导全球AI应用市场 美国在网页端领先 中国在移动端更具优势[1] - 全球Top100消费级生成式AI应用榜单以流量为标准 反映过去两年半竞争格局[1] - 市场向分散格局转变 无单一公司能在所有平台占据主导地位[1] 中国企业表现 - 5家中国公司跻身网页端全球前20:DeepSeek第三 夸克第九 豆包第十二 月之暗面Kimi第十七 阿里巴巴通义千问第二十[2] - 移动端Top50榜单中中国应用占据22席 豆包全球第四 百度AI搜索第七 DeepSeek第八 美图第九 夸克第四十七[3] - 中国团队开发多款出口全球产品 如DeepSeek、MinMax的Hailuo和快手的Kling[2] 细分领域优势 - 中国在图像视频类AI应用完成突围 美图公司有5款产品上榜照片与视频类应用[2] - 中国视频模型比国外产品更具优势 因拥有更庞大AI人才库和研究样本池[2] - 中国市场呈现多元化发展 从图像编辑到生产力工具等细分领域[2] 技术发展趋势 - 移动平台成为AI用户主要使用方式 影响技术力量平衡 Gemini在安卓设备大幅缩小与ChatGPT差距[3] - 生成式AI应用生态系统趋于稳定 新进入者减少 网页端仅11个新入围者 移动端14个[3] - 全球AI生态逐步稳定 从通用工具到专业场景各领域均出现有竞争力产品[5] 国家战略差异 - 美国投入数十亿美元追求通用人工智能(AGI) 中国专注"AI+"应用建立低成本高效率工具[5] - 中国企业产品化和市场化能力日趋成熟 被海内外消费者广泛接受[4] - 韩国企业在资金实力及基础设施方面明显落后 Top100榜单无本土产品入围[5] 未来竞争展望 - 2025年可能成为转折点 单一AI霸权时代让位于群雄逐鹿新格局[6] - 未来将出现多个势均力敌竞争者 各自凭借独特生态系统整合和应用领域聚焦[6] - 谷歌、X、阿里巴巴为首的大厂竞争加速 中国展示消费级AI领域巨大影响力[5]
2025年具身智能行业研究:跨领域融合引领的新一轮智能革命
头豹研究院· 2025-09-04 20:52
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 报告的核心观点 - 具身智能正从实验室转向商业化探索 在各行业场景开启试点应用 [2] - 2025年全球具身智能已逐步从实验室走向场景落地 但商用化进展低于预期 [4] - 未来五年具身智能在各场景落地将遵循"从简单到复杂"、"先专后通"原则 2030年前核心在工业专用场景 [4] - 技术挑战包括缺乏自主意图生成能力 难以完成环境理解到任务执行的闭环 真实数据量不足 合成数据质量低 软件生态割裂 [8][34] - 应用挑战包括市场需求模糊 用户接受度低 产品形态合理性限制场景适配性 产业链条不完善 [8][39] 具身智能行业综述 基本定义与关键特征 - 具身智能是人工智能与机器人学交叉的前沿领域 核心在于通过物理实体与环境的动态交互实现智能行为 [13][17] - "本体+环境+智能"是具身智能的核心三要素 本体是物理载体 智能是算法模型和决策能力 环境是交互的物理世界 [13][17] - 形成"感知-决策-行动-反馈"循环系统 [17] 具身智能 vs 离身智能 - 核心差异在于是否依赖物理载体与环境交互 具身智能通过身体与物理世界实时交互 离身智能依赖虚拟环境数据和算法 [19] - 具身智能优势:动态环境适应性强 高泛化能力 精准物理交互 [19] - 具身智能劣势:硬件成本高 开发复杂度高 能耗大 [19] - 离身智能优势:高效计算 低成本部署 跨领域通用性 [19] - 离身智能劣势:缺乏物理反馈 场景局限性 动态环境适应差 [19] 发展历程 - 1945年梅洛-庞蒂提出"身体是认知的主体"为具身认知理论奠定基础 [20] - 1950年图灵首次提出具身智能概念 [20] - 1977年吉布森提出"可供性"理论 [20] - 1986年罗德尼・布鲁克斯提出"包容架构" [20] - 1980年代末日本早稻田大学研发首个人形机器人WABOT-1 [20] - 1994年MIT启动Cog项目模拟人类婴儿认知发展 [20] - 2013年波士顿动力Atlas展示复杂物理环境适应性 [20] - 2016年谷歌DeepMind AlphaGo展示强化学习框架 [20] - 2018年OpenAI Dactyl项目展示具身学习潜力 [20] - 2022年ChatGPT推动具身智能向"认知-行动"一体化演进 [20] - 2023年中国工信部发布《人形机器人创新发展指导意见》 [20] - 2024年OpenAI与Figure合作推出Figure 01 [20] - 2025年中关村论坛发布"具身智能十五大重点方向" [20] 技术体系 - 演进趋势由分模块化AI算法整合向基于大模型的统一技术框架转型 [21][23] - 技术体系以"感知-决策-行动-反馈"四大核心模块构建闭环系统架构 [21][23] - 感知模块是多模态传感器实时采集环境数据 [23] - 决策模块基于感知信息进行任务规划和动态决策 [23] - 行动模块将决策结果转化为物理动作 [23] - 反馈模块构建闭环学习机制持续优化性能 [23] 核心技术层面 - 商业化落地本质是将认知智能与物理执行系统深度融合 [24] - 涉及算法演化 数据来源和硬件演进三大层面 [24] - 算法层面:上层控制负责任务定义与行为决策 下层控制负责操作执行与运动控制 [25][26][28] - 数据层面:真实数据依赖动作捕捉 合成数据通过域随机化模拟 网络视频数据补充长尾行为 [29] - 硬件层面:以SoC芯片为基础 形成AI决策与实时控制的双层控制器架构 [25][26][28] 应用现状 - 工业制造案例:优必选Walker尝试物流分拣 特斯拉Optimus尝试汽车总装线搬运 [32] - 工业制造挑战:效率低下(Walker搬运箱子需2-4分钟 工人仅需1分钟) 成本极高(单机价格40-60万元 回收周期3-4年) [32] - 服务与零售案例:软银Pepper在商场引导 松下"松松"在家电零售导购 [32] - 服务与零售挑战:交互生硬难以应对复杂需求 短期内难以提升销售额 [32] - 医疗与养老案例:日本Robear协助老人移动 傅利叶康复机器人帮助患者下肢康复 [32] - 医疗与养老挑战:高准入门槛需药监局审批 成本高昂医保未纳入报销 [32] - 特种与高危案例:NASA Valkyrie用于太空任务 波士顿动力Spot在核电站巡检 [32] - 特种与高危挑战:成本高应用限于高预算场景 特种场景下故障难以现场维修 [32] 面临的挑战 - 算法层面:缺乏自主意图生成能力 仍需人类智能介入 [35] - 算法层面:感知与行动存在"认知断层" 难以完成感知到任务执行的闭环 [35] - 数据层面:真实数据稀缺 合成数据质量低 数据标准化缺失 [36] - 软件层面:软件生态割裂 开发工具链不完善 [37] - 硬件层面:硬件成本高 能源效率低 核心部件自主化不足 [39] - 商业层面:市场需求模糊 用户接受度滞后 [40] - 产品层面:产品形态合理性影响性能和场景适配性 [41] - 产业链层面:产业链条不完善 协同效率低下 [42] 国家层面相关政策 - 2025年政府工作报告首次将"具身智能"纳入未来产业培育体系 [44] - 2023年工信部《人形机器人创新发展指导意见》提出到2025年初步建立创新体系 [44] - 2023年工信部等十七部门《"机器人+"应用行动实施方案》推动机器人规模化应用 [44] - 2021年工信部等十五部门《"十四五"机器人产业发展规划》提出机器人产业营业收入年均增速超过20% [44] - 2021年工信部等八部门《"十四五"智能制造发展规划》提出到2025年70%规模以上制造业企业基本实现数字化网络化 [44] 地方层面相关政策 - 2025年上海浦东新区《具身智能产业支持16条政策》对关键技术攻关给予最高2000万元资金支持 [45] - 2025年浙江《关于支持人工智能创新发展的若干措施》建设具身智能产业基地 [45] - 2025年天津《天津市促进人工智能创新发展行动方案》推动人形机器人关键领域研究 [45] - 2025年重庆产业攻关项目需求征集包括具身智能领域 [45] - 2025年四川推动具身智能等技术交叉融合创新 [45] - 2025年江苏推动具身智能等新一代人工智能技术创新 [45] - 2025年河南建立未来产业投入增长机制聚焦具身智能 [45] - 2025年山东对年销售额突破5000万元的人形机器人企业给予最高800万元奖励 [45] - 2025年深圳计划新增培育估值过百亿企业10家以上 营收超十亿企业20家以上 [45]
薛澜:AI治理并非创新对立面,需要回归全球合作
第一财经· 2025-09-04 11:40
人工智能治理的必要性与紧迫性 - 人工智能具有跨境传播特性和系统性风险 治理不能局限于国家层面[1][6] - 当前存在认知误区 认为治理会束缚技术创新 这种观点低估了技术风险并忽视治理对技术发展的关键引导作用[1] - 人工智能在认知领域进展迅速 部分模型在数学奥林匹克竞赛解题准确率已超越人类平均水平 增强了AGI可行性预期和治理紧迫感[1] 人工智能治理的多维框架 - 治理是多维度、多工具、多主体参与的系统性过程 旨在协调技术进步与社会价值[2] - 伦理与价值维度关注安全可控性、透明可解释性、公平非歧视性和责任可追溯性 中国2019年提出"负责任人工智能"八项准则 欧盟和OECD发布多套伦理框架[3] - 政策支持维度通过财政投入、研发资助和基础设施建设提供制度土壤 中国2017年《新一代人工智能发展规划》采用"三步走"战略推动产业发展[3] - 规制与标准维度包括法律法规、技术标准和分级管理 欧盟《人工智能法案》将AI系统分为四类实施差异化监管[4] 全球人工智能治理核心挑战 - 技术路径差异导致治理分化 各国对风险认知存在本质分歧 例如国产大模型DeepSeek在中文语义建构方面突破显著 引发是否需与国外模型采用同等评估标准的争议[7] - 治理节奏与技术发展错配 AI技术呈指数级演进而治理体系滞后 GPT-4发布半年内多款对标模型上线 但多数国家监管机制仍未落地[8] - 全球治理机制复合体缺乏协调 联合国教科文组织、OECD、欧盟和世界经济论坛等机制存在目标重叠和规则冲突 导致治理效能低下和合规困境[9] - 地缘政治因素形成合作壁垒 AGI研发演变为少数国家主导的竞赛型项目 全球协同开发与风险共担路径难以实现[10] 人工智能治理的未来方向 - 治理需具备合作性、包容性和合法性 否则将加剧跨境风险、智能鸿沟和信任危机[11] - 治理是与技术共同进化的制度生态工程 需同步协调安全风险管控、社会结构塑形和市场机制构造三大任务[11]
早鸟优惠即将截止!3个月搞透具身大脑+小脑算法
具身智能之心· 2025-09-04 09:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑负责思考感知 主导语义理解和任务规划 小脑负责执行高精度的运动执行 [1] 国内外产业布局 - 近2年具身明星团队陆续创业 成立星海图 银河通用 逐际动力等公司 推动具身本体和大小脑技术进步 [3] - 华为2024年底启动全球具身智能产业创新中心 与乐聚机器人 大族机器人等企业合作建设具身智能大脑 小脑等关键技术 [5] - 京东自2025年5月以来连续投资智元机器人 千寻智能 逐际动力等多家公司 强化物流科技与家庭服务场景效率与服务能力 [5] - 腾讯 蚂蚁集团 小米等科技巨头积极通过战略投资与合作布局 加快构建具身智能产业生态 [5] - 国外Tesla/Figure AI在工业与物流机器人应用上持续推进 美国投资机构积极支持Wayve Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型 模拟环境与类人机器人原型研发 [5] 技术演进阶段 - 第一阶段技术研究聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 实现静态物体抓取 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 机器人借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力 [6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知 语言理解与动作生成模块 支持零样本或小样本快速泛化 [7] - 第四阶段2025年探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补当前VLA模型局限 [9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力 [11] - VLA+世界模型引入环境动态预测 使机器人具备想象未来的能力 [11] - VLA+触觉信息拓展从看到看+触多模态融合的具身感知边界 [12] - 技术演进从低层感知到中层策略再到高层理解 逐步迈向通用任务和开放环境的智能体时代 [14] 应用与产品落地 - 技术发展造就人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域 [14] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 [14] 工程与系统能力需求 - 具身智能从论文走向部署 对工程能力提出更高要求 [17] - 需在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试 [17] - 需训练并部署Diffusion Policy VLA 力触融合的VLA模型 [17] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调 [17] - 需实现从世界建模预测到策略学习到物理执行的一体化具身智能架构 [17]
字节Seed部门豪掷百万期权,力挽大模型人才“留守”潮
搜狐财经· 2025-09-04 05:06
公司期权激励计划 - 字节跳动对Seed部门实施期权增发计划 主要覆盖大模型技术研发的核心技术人员[1] - 根据员工绩效和职级不同 每月发放9万至13万字节期权 计划持续18个月[1] - 期权计算价格定为每股189.9美元 低于最新期权回购价格200美元[3] 部门战略定位 - Seed部门成立于2023年 是公司通用人工智能(AGI)战略的关键组成部分[3] - 部门主导研发豆包大模型 内部设立代号"Seed Edge"的AGI研究团队[3] - 部门已启动独立期权激励机制 以远低于市场预期的估值向核心员工发放期权[3] 行业影响与内部反应 - 高强度内部激励措施旨在稳固核心人才 加强大模型技术领域竞争壁垒[3] - 内部员工在平台上表示羡慕 称Seed部门已成为公司内部"明星部门"[3] - 业内人士认为期权发放使同行公司在挖角时面临更大难度[3]
通往AGI的快车道?大模型驱动的具身智能革命 | Jinqiu Select
锦秋集· 2025-09-01 23:29
具身智能与大模型融合综述 文章核心观点 - 具身智能被视为实现通用人工智能(AGI)的关键路径,通过"感知-决策-行动"闭环在真实世界中学习并执行复杂任务 [1] - 大模型(如LLM、LVM、LVLM、MLM、VLA)在多模态推理与生成能力上的突破,显著推动了具身智能的演进 [1][7][25] - 世界模型为智能体提供内部环境模拟能力,支持在虚拟空间中演练与优化策略 [1][2][116] - 分层决策与端到端决策成为自主决策的两大核心范式,分别适用于结构化环境与开放动态环境 [6][55][74] Embodied AI系统构成与运行流程 - 系统由物理实体(如人形机器人、智能车辆)和智能体(认知核心)构成,物理实体负责执行动作并接收反馈 [4] - 运行流程包括:从语言指令解读人类意图→主动探索环境→感知多模态元素→执行动作,模仿人类学习范式 [4] - 智能体通过模仿学习从人类演示或视频数据获取技能,通过强化学习整合外部反馈优化策略 [4] 具身智能核心:决策与学习 - 自主决策通过分层范式(分离感知、规划、执行模块)或端到端范式(统一框架集成功能)实现 [6] - 具身学习通过模仿学习(从演示获取技能)和强化学习(迭代优化提升技能)实现持续改进 [6] - 世界模型通过模拟真实世界推理空间,为智能体提供试验和经验积累机会 [6][116] 主流大型模型概览 - Large Language Model (LLM):包括BERT(2018年)、GPT系列(GPT-3参数量达1750亿)、PaLM等,突破zero-shot/few-shot学习能力 [9][10] - Large Vision Model (LVM):ViT将Transformer应用于计算机视觉,DINOv2通过自监督学习提升图像表示质量,SAM支持1100万图像预训练的分割任务 [11] - Large Vision Language Model (LVLM):CLIP通过图文对比学习对齐特征,BLIP-2引入QFormer实现跨模态融合,GPT-4V具备强大多模态推理能力 [12][13] - Multimodal Large Model (MLM):Gemini高效处理文本/图像/音频,DALL·E3通过增强文本编码器改善图像-提示对齐,Sora可生成60秒高质量视频 [14][15] - Vision-Language-Action Model (VLA):RT-2将动作空间离散化为256区间,开源模型(如Octo、TinyVLA)提升计算效率与泛化能力 [16][71] 大型模型通用能力增强技术 - In-Context Learning (ICL):通过精心设计提示实现zero-shot泛化,无需额外训练 [19] - X of Thoughts (XoT):CoT融入中间推理步骤,ToT探索多推理路径,GoT采用图结构实现非线性推理 [20] - Retrieval Augmented Generation (RAG):从外部知识库检索信息,确保响应准确性 [21] - Reinforcement Learning from Human Feedback (RLHF):整合人类偏好优化模型输出 [23] - Model Context Protocol (MCP):提供标准化接口增强模型与外部系统互操作性 [24] 分层自主决策 - 高层规划分为三类:基于结构化语言(LLM生成PDDL或直接作为规划器)、基于自然语言(LLM分解计划)、基于编程语言(指令转可执行代码) [31][33][38] - 底层执行通过传统控制算法(PID、MPC)、LLM驱动学习控制(模仿学习+强化学习)、模块化控制(调用预训练模型如CLIP/SAM)实现 [42][43][45] - 反馈机制包括:大模型自我反思(Re-Prompting重新生成计划)、人类反馈(交互式纠正)、环境反馈(多模态输入转化为语言调整计划) [49][52][54] 端到端自主决策 - VLA模型集成感知、语言理解、规划、动作执行与反馈优化,包含token化与表示、多模态信息融合、动作去token化三个组件 [58][60][62] - RT-2利用ViT进行视觉处理,PaLM集成多模态信息,动作空间离散化为8维度(含256区间) [63] - VLA增强方向:感知能力增强(BYO-VLA滤除视觉噪声)、轨迹动作优化(Octo结合扩散模型)、训练成本降低(π0利用流匹配提升实时性能) [65][70][71] 分层与端到端决策对比 - 分层架构优势:高可解释性、易集成领域知识、模块化设计;劣势:模块协调可能导致次优解、适应性受限 [74] - 端到端架构优势:最小化误差累积、强泛化能力、高效复杂任务处理;劣势:黑箱性质、高计算成本、依赖训练数据 [75] Embodied Learning方法 - 模仿学习:通过最小化专家动作负对数似然学习策略,依赖高质量演示数据 [83][84] - 强化学习:最大化长期累积奖励,PPO/SAC等算法提升稳定性,但需海量探索 [87][89] - 迁移学习:通过KL散度约束迁移源任务策略至目标任务,加速学习但需避免负迁移 [90][91] - 元学习:MAML框架通过少量样本快速适应新任务,但需多样任务预训练数据 [93][94] 大模型赋能的模仿学习 - Diffusion models增强策略:Diffusion Policy通过U-Net生成动作序列,3D-Diffusion利用3D输入提升空间感知 [100][101] - Transformer架构策略:RT-1结合大规模数据集提升泛化,ALOHA实现低成本硬件精确操作,RoboCat实现跨任务快速泛化 [102][103] 大模型赋能的强化学习 - 奖励函数设计:Text2Reward生成可解释Python代码,Eureka利用GPT-4实现全自动优化 [109] - 策略网络构建:Diffusion-QL增强多模态动作分布,Decision Transformer将问题重构为序列建模,LLM(如GLAM)直接生成动作序列 [113][114][115] 世界模型设计与应用 - 设计类型:隐空间世界模型(RSSM)、基于Transformer(IRIS/Genie)、基于扩散(Sora/UniPi)、联合嵌入预测架构(JEPA) [119][122][125][128] - 决策应用:模拟验证(NeBula构建概率信念空间)、知识增强(WKM提供全局先验知识) [133][134] - 具身学习应用:基于模型的强化学习通过模拟状态转换和生成数据提升学习效率 [135]
23岁天才被OpenAI解雇后,又凭AI狂揽15亿美元
36氪· 2025-09-01 17:09
公司概况 - 23岁创始人利奥波德·阿申布雷纳从OpenAI研究员转型为AI对冲基金创始人 其基金管理资产规模突破15亿美元[1][3] - 基金采用多空策略 做多受益AI发展的半导体 基础设施和电力公司 同时做空可能被技术淘汰的传统行业[1][5] - 基金2025年上半年扣除管理费后收益率达47% 远超同期标普500指数6%涨幅和科技对冲基金指数7%的平均回报[5] 投资策略 - 投资组合覆盖全球AI相关股票及Anthropic等明星初创企业 持仓集中度较高[5][9] - 电力供应商Vistra因向AI数据中心供电 同时成为该基金和VAR Advisors的前三大重仓股[9] - 多数投资者同意将资金锁定数年 这在对冲基金行业相当罕见[7] 行业动态 - AI对冲基金成为资本新焦点 VAR Advisors基金3月推出后快速积累约10亿美元资产[8] - 老牌对冲基金Point72抽调基金经理成立Turion基金 规模突破20亿美元 截至7月底年内回报率达11%[8] - 投资向一级市场延伸 Atreides与Valor Equity Partners合作推出创投基金 已从阿曼主权财富基金等机构募集数亿美元[10] 技术观点 - 创始人165页论文《Situational Awareness》预言2027年将实现通用人工智能[3][12] - 论证基于GPT模型有效计算量增长曲线 算力年增长约0.5个数量级 算法效率年提升近0.5个数量级[12][14] - 预测AI模型到2027年将能胜任AI研究员或工程师工作 具备参与自身演进的能力[19]