Workflow
PaLM
icon
搜索文档
承认自己开源不行?转型“美国DeepSeek”后,两个谷歌研究员的AI初创公司融到20亿美元,估值暴涨15倍
36氪· 2025-10-10 18:29
公司概况与融资 - AI创业公司Reflection AI由两位前Google DeepMind研究员于2024年3月创立,一年内完成最新一轮融资,筹集20亿美元,公司估值达到80亿美元,较7个月前的5.45亿美元估值暴涨15倍 [1] - 投资方阵容豪华,包括Nvidia、红杉资本、DST、B Capital、Lightspeed、GIC、花旗以及Zoom创始人Eric Yuan、谷歌前CEO Eric Schmidt等 [1] 创始团队与技术背景 - 联合创始人Misha Laskin曾主导DeepMind Gemini项目的奖励建模,另一位联合创始人Ioannis Antonoglou是AlphaGo系统的联合创作者,两人同在Gemini项目团队,分别负责RLHF和奖励模型训练 [2] - 公司已从DeepMind和OpenAI挖来一支顶级团队,成员曾主导或参与PaLM、Gemini、AlphaGo、AlphaCode、AlphaProof、ChatGPT等项目的研发 [4] - 团队核心成员共约60人,主要为AI研究员和工程师,涉及基础设施、数据训练和算法开发等领域 [5] 产品战略与发展路径 - 公司最初专注于自主编程智能体,推出了面向工程团队的代码理解智能体Asimov,在盲测中其答案比Cursor Ask和Claude Code更受欢迎 [3] - 选择从编程领域起步是因为训练模型通过代码与软件交互相当于给AI装上“手脚”,编码是语言模型的“天然优势领域”,掌握此能力后可轻松扩展到其他领域 [3] - Asimov是第一步,后续计划将“企业级超级智能”扩展到产品、营销、HR等领域的“团队记忆”和知识管理 [4] - 公司已获得算力集群,计划在明年推出一个使用“数十万亿tokens”训练的前沿语言模型,该模型将以文本为主,未来具备多模态能力 [5][8] 商业模式与市场定位 - 公司将自身重新定义为OpenAI、Anthropic等“封闭前沿实验室”的开源替代公司,目标是成为“美国版DeepSeek”,将开放模型的前沿技术带回美国 [1][5] - 商业模式主要收入来自大型企业在其模型上构建产品,以及各国政府建设主权AI系统的项目,研究者可免费使用模型 [7] - 公司声称已“找到了与开放智能战略相契合的可规模化商业模式”,并承诺将对外开放其先进的AI训练系统 [4][7] - 公司对“开放”的定义更接近开放访问而非完全开源,会开放模型权重供公众使用,但训练数据和完整训练流程不会公开 [7] 行业竞争与愿景 - DeepSeek等模型的崛起对公司是一次警醒,担心全球智能标准将由别人制定而非美国,旨在确保智能底座保持开放、可访问 [6] - 公司认为最前沿技术集中在封闭实验室会导致“滚雪球式”的垄断,需要打造强大的开放模型成为全球用户与开发者的首选 [6] - 公司融资规模与进入下一阶段扩张的节奏匹配,强调比大实验室更高效,大型实验室需要100单位资金的情况下,公司聚焦核心方向只需10单位就够了 [8]
听说,大家都在梭后训练?最佳指南来了
机器之心· 2025-10-09 10:24
文章核心观点 - 大模型扩展至百亿、千亿级后,Scaling Law的边际效益开始递减,行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果,成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练,目标为预测下一个token,但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据,核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型,将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本,对缺陷极为敏感,少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类,需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然,通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一,通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型,帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展,RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO,其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法,以覆盖模型质量各个方面[57][58] - 自动评估快速廉价,人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置,适用于不同场景[60]
人工智能产业“十四五”复盘与“十五五”展望:“两个变局”下的AI要素化跃
搜狐财经· 2025-09-27 01:47
文章核心观点 - 人工智能产业在“十四五”期间完成了从“技术”向“要素”的五大质变跃迁,为“十五五”期间AI要素的“量价齐升”奠定了坚实基础 [8] - “十五五”期间,AI Agent将成为核心载体,驱动AI要素通过价格发现、规模交易和跨境输出实现全面跃迁,并与实体经济深度融合 [8] - AI产业投资可遵循算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳四大主线 [8] 技术演进 - Transformer架构统一了AIGC赛道,成为通用引擎,其自注意力机制提供了无与伦比的灵活性和可扩展性 [12][14][18] - 大模型参数量实现跨越式增长,从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数,参数规模突破临界触发“涌现能力”,奠定通用智能雏形 [2][12][21] - 技术发展呈现“高参数量+轻量化”并行分化态势,超大参数模型处理复杂任务,轻量级模型适用于移动端和实时性要求高的场景 [21] - 视觉技术红利在“十四五”初期终结,ImageNet-1K精度逼近理论天花板,模型参数与算力投入的边际收益急剧递减 [11][13][45] 算力硬件 - GPU在算力硬件中占据主导地位,英伟达市场份额约为70%,同时ASIC、FPGA等异构芯片加速发展 [2] - 国产AI芯片奋起直追,华为昇腾910b、寒武纪思元370等产品单卡算力不断提升,能效比与海外差距逐级收敛 [8][26][32] - 数据中心形态由IDC向AIDC演进,功率密度和散热要求大幅提升,液冷等高效散热方案加速普及 [2][25][27] - 国家通过“东数西算”和“算力券”等机制介入算力定价,使算力具备公共事业属性 [25][28][29] 产业生态与数据要素 - AI要素化进程加快,数据经历资源化、资产化、资本化阶段,数据确权、定价、交易体系逐步完善 [2] - 公共数据完成“政务共享→授权运营→资产入表→财政分成”的跃迁,成为可交易、可分成的财政要素 [8][33][35] - 2024年《企业数据资源相关会计处理暂行规定》正式施行,截至2025年中报,110家A股上市公司数据资源入表总金额达26.52亿元 [33][42][44] - 智能体生态崛起,文心智能体平台、腾讯元器KUNLUN等开发平台涌现,通过调用制、订阅制、结果分成制实现价值捕获 [2][8] 应用场景与市场表现 - 企业服务因ROI明确、数据基础好成为AI优先落地领域,金融风控、制造供应链等场景逐步渗透,医疗、教育等领域探索深化 [2] - “十四五”期间视觉安防市场陷入红海,以海康威视、大华股份为代表的企业传统业务增速放缓,行业面临转型 [45][47][50] - 国内SaaS企业估值经历压缩,云计算SaaS的PS从高双位数回落,行业等待生成式AI原生等下一代平台技术带来反弹 [56][57] - “十四五”期间AI产业营收稳步增长,2025年上半年部分企业营收超900亿元,毛利率维持在42%-45%区间 [2] 政策支持 - 中央顶层设计完成“攻关-筑基-应用-变革”四段跳,AI首次写入社会治理层面,定位由“产业工具”升级为“转型引擎” [8][58][63] - 2024年《政府工作报告》首次在“社会治理”段落提及人工智能,2025年《关于深入实施“人工智能+”行动的意见》设定了2027/2030/2035三阶段量化目标 [63] - 政策体系强调场景落地、产业规模、安全治理三位一体,通过专项基金、税收优惠、政府采购等多措并举支持产业发展 [63][64] 未来展望与投资主线 - “十五五”期间AI Agent将驱动交互范式移至CUI,收费基准从Token计价转向“增量收益分成”,使AI部门由成本中心转为利润中心 [8] - 国产全栈闭环有望实现,通过Agent专用芯片、框架层标准定义和数据层资产化,取得要素定价权并实现规模化交易 [8] - 全球南方市场为AI出海提供广阔空间,其总人口超45亿,占世界总人口近60%,数字经济增长率远超传统经济 [8] - 投资建议聚焦四大主线:算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳 [8]
从辛顿上海“惊世四论”看AI技术范式的三重跃迁
36氪· 2025-07-31 17:13
文章核心观点 - AI技术范式即将发生三重跃迁 包括从预测下一个token到拥有主观体验 双轨优化拆分聪明与善良目标 以及知识表征从人-人蒸馏到机-机蒸馏的变革 [1][3][6][8] 技术范式跃迁 - 旧范式语言模型基于高阶自回归框架 通过预测下一个token实现高阶统计压缩 但忽视概念在不同维度的概率密度差异 [3] - 新范式世界模型采用可更新先验加主观采样 多模态大模型在隐空间对概念分布进行在线修正 实现动态调整的主观采样过程 [4] - 技术落地需在Transformer外增加元预测头 用于预测当前预测不确定性并反馈调节采样温度 DeepMind实验显示长程规划能力提升37% [5] 模型优化框架 - 旧框架RLHF采用单一奖励机制 将有用无害诚实压缩为标量奖励 存在被钻漏洞的风险 [6] - 新框架双轨优化拆分聪明轨道与善良轨道 聪明轨道通过自监督和强化学习扩展能力 善良轨道将价值观对齐拆分为公平性透明性可撤销性等可验证子目标 [6] - 技术实现通过宪法蒸馏分三层处理 包括宪法文本转向量宪法 逐级蒸馏优化KL散度 以及链式验证检查推理步骤 Constitutional-GPT使7B模型伦理准确率从61%提升至82% [7] 知识表征变革 - 旧瓶颈在于人类知识传递效率低 语言带宽仅约100 bit/s 知识复制效率极低 [8] - 新解法采用权重-符号混合蒸馏 将大模型权重按功能切片保存为LoRA低秩矩阵 通过点对点网络实现知识分发 Hugging Face框架支持10GB/s权重切片广播 128张A100集群完成技能热插拔仅需47秒 [8] - 终极图景实现模型间权重切片自由交换 使AI系统具备水平基因转移能力 实现分钟级算法全网扩散 [9] 行业影响与展望 - 三重跃迁代表AI技术发展的必经之路 包括主观体验双轨优化和机-机蒸馏的核心突破 [9] - 技术从业者需质疑现有范式 在行业普遍接受预测下一个token和RLHF时 敢于推动系统性变革 [9]
突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了
机器之心· 2025-07-16 10:22
核心观点 - Meta持续从OpenAI挖走顶尖AI人才,最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著,Jason Wei是思维链(CoT)技术的主要作者,论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者,参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用,离职消息获多方证实 [2] - 两人均毕业于MIT,曾任职谷歌,2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻,但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次,总论文引用量达77k,位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型,强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略,OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径,可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
虎嗅· 2025-05-06 08:48
机器人技术现状与挑战 - 当前餐饮机器人主要执行重复性任务如制作汉堡、薄饼等 但缺乏应对复杂厨房环境和突发状况的能力[1] - 传统机器人依赖预设编程 无法处理程序外情况 需要定义所有可能动作及效果[1][4] - 工业机器人如Levatas机器狗在限定场景表现良好 但无法适应开放环境任务[7][9] 大语言模型(LLM)与机器人结合 - ChatGPT等LLM为机器人提供海量知识库 弥补常识缺失 实现自然语言交互[5][12] - Google的PaLM-SayCan系统通过LLM理解高阶需求 如根据"健身完"自动选择健康饮品[21][22] - 南加州大学ProgPrompt方法将LLM生成代码与机器人执行结合 任务成功率显著提升[18][19] 技术突破与创新应用 - LLM参数规模爆发式增长 GPT-4达万亿级 北京智源"悟道2.0"达1.75万亿参数[12] - 普林斯顿团队利用GPT-3描述工具特性 使机器人掌握未见过工具的使用方法[23] - 多模态模型成为新方向 可同步生成语言、图像及行动指令[31] 行业应用前景 - 老年护理、家庭服务等领域潜力巨大 但当前技术尚不成熟[26] - 工业检测领域已实现自然语言控制 降低操作门槛[6] - 餐饮自动化可能被彻底改写 需突破物理执行瓶颈[4][14] 技术局限性 - 机器人传感器与执行器有限 难以匹配LLM的广泛语义理解[9][10] - LLM存在"幻觉"问题 可能生成不合理指令 需传统AI程序校验[27] - 物理世界随机性(如光线变化、物体形状差异)仍制约机器人表现[14] 伦理与社会影响 - 训练数据偏见可能导致机器人行为歧视 如面部识别中的种族差异[28][29] - LLM可能放大社会刻板印象 需建立防护机制[29] - 非洲等地区语言覆盖不足 LLM在非英语环境表现较差[28]
7B参数规模能力超越OpenAI !小米推出首个推理开源大模型Mimo【附大模型行业发展趋势分析】
前瞻网· 2025-05-05 16:50
(图片来源:摄图网) 其中,中国科技公司在大模型领域掀起的开源浪潮,正以技术破局之势重塑全球人工智能创新版图。 据"小米大模型"公众号消息,小米开源首个为推理(Reasoning)而生的大模型「XiaomiMiMo」,联动预训 练到后训练,全面提升推理能力,目前MiMo-7B的全系列模型均已实现开源。 在数学推理(AIME24-25)和代码竞赛(LiveCodeBenchv5)公开测评集上,MiMo仅用7B的参数规模,超 越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。 小米技术团队表示,MiMo的核心突破在于预训练与后训练阶段的协同优化。在预训练阶段,模型通过挖掘 高质量推理语料并合成约2000亿tokens专项数据,采用三阶段渐进训练策略,累计训练量达25万亿tokens。 后训练阶段则引入创新强化学习技术,包括自研的"Test Difficulty Driven Reward"算法和"Easy Data Re- Sampling"策略,有效提升模型在复杂任务中的稳定性。技术团队还开发了"Seamless Rollout"系统,使训练 效率提 ...