机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

「2025 AI 实战手册」，年收入破亿的 AI 公司都在干什么？

机器之心· 2025-07-04 23:41

01 相隔9个月，硅谷的AI公司已经进入下个阶段了 - ICONIQ Capital发布2025年度「The State of AI」报告，主题为「The Builder's Playbook」，聚焦AI产品落地战术路线图，涵盖产品路线图、市场策略、人才建设等维度[3] - 2024年报告侧重生成式AI的预算决策、采购偏好和ROI预期，2025年转向AI产品构建与落地实操[3] - 调研对象从2024年的219位「AI采用方」CXO（89%企业视GenAI为重要事项，88%批准AI预算）转变为2025年300家AI公司高管（CEO、工程/AI/产品负责人）[5] - 报告将AI公司分为「AI原生」和「AI赋能」两类，定义「高增长企业」标准：产品进入规模化阶段、年收入≥1000万美元，收入增长率按规模分三档（100%/50%/30%）[5][6] 02 AI不再是附属品，AI原生产品更容易推向市场 - AI原生公司的初代产品生命周期推进更快：47%已完成规模化扩张并通过市场验证，AI赋能公司仅13%达到该阶段[7] - 报告从模型演进阶段、实验性与投放速度平衡等角度，分析AI产品路线图与架构的最新最佳实践[7] 报告方法论与框架 - 采用问卷调研形式，受访者主要来自ICONIQ Venture and Growth投资组合的AI公司高管[4] - 报告设置五大章节：开发、市场定价、组织架构、预算、内部生产力，覆盖AI产品全流程[6]

Artificial Intelligence

AI-Native

AI-Enabled

Artificial Intelligence

AI products

Artificial Intelligence

AI-Native

AI-Enabled

Artificial Intelligence

AI products

告别盲选LLM！ICML 2025新研究解释大模型选择的「玄学」

机器之心· 2025-07-04 16:59

大语言模型选型挑战 - 开源LLM数量激增（如LLaMA、Falcon、Mistral、DeepSeek），导致特定下游任务选型困难[4] - 传统选型方法计算资源消耗大且泛化能力不足，存在高度不确定性[4] LensLLM理论框架 - 基于PAC-贝叶斯泛化界限，首次揭示LLM微调中测试损失随训练数据量的"相变"动力学[6][11] - 提出双相演进理论：预幂律相（Hessian值高、参数敏感）和幂律相（Hessian值低、稳定性强）[16] - 数学公式量化性能与数据量关系：$L(f_{\hat{w}})\leq(1+\epsilon)\hat{L}(f_{\hat{w}})+C_{3}n^{-\beta_{3}}+O(n^{-\frac{3}{4}})$[10] LensLLM技术优势 - 引入NTK（神经正切核）增强型修正缩放模型，精准捕捉Transformer微调动态[15] - 在三大数据集（FLAN/Wikitext/Gigaword）上RMSE显著低于基准模型： - Wikitext上OPT-6.7B误差0.026 vs 基准0.132（5倍差距）[18] - FLAN数据集误差0.022-0.035 vs 基准0.087-0.15[18] - 计算成本降低88.5%，仅需0.48-0.97×10^21 FLOPs[23] 性能验证 - Gigaword数据集选型准确率91.1%，Pearson相关系数85.8%[21] - Pareto最优曲线显示LensLLM在低FLOPs下保持高相关性[25] - 覆盖14种架构（如OPT/T5/mT5/GPT-2等），误差带更窄[19][20] 应用前景 - 边缘设备部署：快速筛选资源受限场景最优模型[31] - 加速A/B测试周期，降低模型迭代成本[31] - 扩展至多任务场景及MoE架构研究[27]

大语言模型（LLMs）

PAC - 贝叶斯泛化界限

Artificial Intelligence

Artificial Intelligence

LensLLM

LLaMA

Falcon

以玩促学？游戏代码驱动数据合成，提升多模态大模型通用推理

机器之心· 2025-07-04 16:59

核心观点 - 游戏代码可自动合成视觉推理数据，提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势：规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对，覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建：LLM自动生成完整游戏逻辑（如推箱子） [13] - QA模板设计：从代码提取推理模式并设计任务模板 [14] - 数据引擎构建：自动化生成问答实例且保证正确性 [15] - 数据集特点：细粒度难度控制（Easy/Medium/Hard三级） [20] - 对比实验：5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%，Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%，仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%，超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板，易混淆物体高度关系 [42] - 非网格化场景（如祖玛）中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足，缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%，文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]

野生DeepSeek火了，速度碾压官方版，权重开源

机器之心· 2025-07-04 16:59

模型性能与优势 - DeepSeek R1T2模型速度比R1-0528快200%，比R1快20%，在GPQA Diamond和AIME 24基准测试中表现优于R1但略逊于R1-0528 [1] - 模型采用专家组合（AoE）技术开发，融合了DeepSeek官方V3、R1和R1-0528三大模型，参数规模达671B [2][12][13] - 相较于初代R1T Chimera，R1T2智力水平显著提升，实现突破性think-token一致性，且对话交互体验更稳定自然 [6][7] 技术架构与迭代 - R1T2基于DeepSeek-MoE Transformer架构，采用三心智（Tri-Mind）融合架构，新增基模型R1-0528 [12][14] - 通过高精度直接脑区编辑技术解决初代R1T的token一致性缺陷，实现全方位性能提升 [15] - 模型开源并遵循MIT协议，权重已在Hugging Face平台开放 [3] 竞品对比与适用场景 - 与DeepSeek R1对比：R1T2性能更优且可直接替换 [18] - 与R1-0528对比：R1T2经济性更高，适合非最高智能需求场景 [18] - 与DeepSeek V3对比：V3速度更快，但R1T2在推理能力上占优 [18] - 局限性包括：不支持函数调用、应答克制度低于R1-0528 [20] 开发背景与行业动态 - 模型由德国AI咨询公司TNG推出，全称为DeepSeek-TNG R1T2 Chimera [5] - 行业误认为模型出自DeepSeek官方，引发对版本命名策略的讨论 [9] - 基准测试体系变更为AIME24/25+GPQA-Diamond，新体系下R1与R1T分差扩大 [20]

Assembly of Experts (AoE)技术

Artificial Intelligence

Assembly of Experts (AoE)技术

Artificial Intelligence

10分钟搞定Excel世锦赛难题！首个超越人类Excel Agent，网友：想给它磕一个

机器之心· 2025-07-04 10:36

AI工具Shortcut的核心功能 - 号称「第一个超越人类的Excel Agent」，能一次性完成大多数Excel知识工作任务，在10分钟内解决Excel世界锦标赛复杂案例，准确率超80%，效率比人类快10倍[3] - 具有与Excel近乎完美的功能兼容性，可直接编辑、导入和导出文件，能处理复杂金融建模任务如构建多标签预估上限表、分析5000行CSV数据生成图表等[4][6] - 具备创造性功能如生成像素艺术，演示案例显示可按照提示词创建50x50像素的尤达大师图像，通过设置像素网格和色彩阴影处理实现[5] 产品实测表现 - 界面分为Excel表格区和聊天区，支持上传原始文件或新建文档，通过自然语言指令操作如计算总分、分析题型得分分布等[11][12][13] - 在高考语文成绩分析测试中，准确计算出5款大模型总分及相对于满分的百分比（如Doubao模型现代文阅读得分率73.68%），但遗漏了生成条形图等可视化要求[15][16][17][18] - 处理复杂任务时出现系统过载情况，早期访问阶段因高需求导致服务中断，多次尝试仍无法响应[22][23] 市场定位与发展前景 - 瞄准Excel复杂性和易出错痛点，解决传统表格处理中耗时耗力的金融建模、数据分析等专业需求[27] - 目前处于早期预览阶段，用户可通过X平台获取邀请码或使用谷歌邮箱登录获得3次免费体验[7][8] - 虽然展示出处理基础表格任务的可靠性，但在复杂场景响应和可视化功能完整性上仍需优化，距离成熟产品尚有差距[26][27]

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

机器之心· 2025-07-04 10:36

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

机器之心· 2025-07-04 10:36

大语言模型奖励模型技术进展 - 奖励模型在RLHF中扮演关键裁判角色，通过打分机制确保大模型输出符合人类价值观[2] - 理想奖励模型需具备准确评判、多领域覆盖、灵活处理多种输入及高度可扩展性[3] - 昆仑万维发布新一代Skywork-Reward-V2系列，包含8个不同参数规模模型（6亿至80亿参数）[4][5] - 该系列在七大主流评测榜单均获第一，展现对人类偏好对齐、安全性、抗风格偏差等维度的优异表现[5][7] 技术突破与创新 - 构建4000万对偏好样本数据集Skywork-SynPref-40M，采用人机协同两阶段迭代流水线[17][19] - 第一阶段通过"金标准锚定+银标准扩展"双轨机制突破初始数据瓶颈[20] - 第二阶段通过奖励模型一致性过滤实现自动化大规模数据扩展[22][23] - 最终精选2600万条数据，实现规模与质量的平衡，人工标注负担显著降低[25] - 数据质量提升使小参数模型（如0.6B）性能接近上一代27B模型，参数差距达45倍仍保持竞争力[31] 性能表现与行业影响 - 在RewardBench等七大基准测试中全面超越现有模型，最高平均得分达88.6分[29][30] - 8B参数模型Skywork-Reward-V2-Llama-3.1-8B-40M在JudgeBench知识密集型任务超越Claude-3.7-Sonnet等闭源模型[32][36] - PPE Correctness基准上全系模型在有用性和无害性指标最高领先GPT-4o达20分[37][38] - 仅使用1.8%高质量数据（约29万条）训练的8B模型性能即超越当前70B级SOTA模型[42] 行业技术发展趋势 - 数据工程策略作用凸显，高质量训练数据可支撑"小模型超越大模型"的效果[34] - 奖励模型从弱监督评分器向强泛化价值建模器演进，在多维偏好理解中承担核心角色[35][44] - 人机协同数据构建范式将加速RLHF技术迭代，推动"数据驱动对齐"技术发展[45][47] - 开源策略有望促进行业整体进步，昆仑万维同期还开源了代码智能体、空间智能等多领域模型[48]

Skywork-Reward-V2 系列奖励模型

Skywork-SynPref-40M 偏好混合数据集

Skywork-Reward-V2 系列奖励模型

Skywork-SynPref-40M 偏好混合数据集

刚刚，Ilya Sutskever宣布自任CEO：联创被Meta挖走了

机器之心· 2025-07-04 08:10

公司动态 - Ilya Sutskever正式担任SSI首席执行官 Daniel Levy担任总裁技术团队继续向Ilya汇报 [4] - 联合创始人Daniel Gross于6月29日正式退出SSI 公司对其早期贡献表示感谢 [3][6] - SSI成立于2023年6月三位联合创始人为Ilya Sutskever Daniel Gross和Daniel Levy [7] 融资与估值 - SSI在2024年4月新一轮融资中获10亿美元估值达320亿美元 [8] - 公司明确表示采取"平稳扩展"策略避免短期商业压力干扰长期目标 [9] 技术发展 - SSI专注于构建安全的超级智能尚未推出任何技术或产品 [8][9] - 公司保持极简风格网站仅显示三位创始人信息 [10] - Ilya Sutskever坚持"只做一个产品"的理念 [12] 行业动向 - Meta曾试图全资收购SSI 但被拒绝 [6] - Daniel Gross离职后预计将加入Meta 负责人工智能产品与扎克伯格等合作 [14][15] - 2024年6月传出Meta洽谈收购NFDG部分股权的消息 NFDG持有顶级AI初创公司股份 [14] 人物动态 - Ilya Sutskever作为OpenAI联合创始人在生成式AI领域有突破性贡献被视为传奇人物 [8] - Daniel Gross曾领导苹果AI团队在SSI期间协助公司起步 [14][15]

登上热搜！Prompt不再是AI重点，新热点是Context Engineering

机器之心· 2025-07-03 16:01

上下文工程的核心概念 - 将LLM视为通用的、不确定的文本生成函数而非拟人化实体强调其无状态特性需通过输入文本来控制输出[4][5][8] - 上下文工程的核心在于构建有效输入文本系统而非依赖单句"魔法咒语"式的提示词工程[9][11] - LLM被类比为新型操作系统需要为其准备完整运行环境而非零散指令[13] 上下文工程的技术要素 - 采用自动化系统构建"信息流水线" 从多源自动抓取整合数据形成完整上下文[15][17] - 工具箱包含四大核心工具：指令下达、知识记忆管理、检索增强生成(RAG)、智能体自主查资料[19][21] - RAG技术通过知识库检索防止模型幻觉确保回答基于事实[19] - 智能体技术实现动态信息获取自主判断需求并整合多源数据[21] 工程实践方法论 - 采用科学实验式流程分"从后往前规划"和"从前往后构建"两阶段实施[23][24][25] - 实施路径：明确输出目标→倒推所需输入→设计自动化生产系统[26] - 模块化开发流程：依次测试数据接口、搜索功能、打包程序最终进行端到端系统测试[30] - LangChain生态提供实践支持包括LangGraph和LangSmith等工具[29][31]

首次！世界模型、动作模型融合，全自回归模型WorldVLA来了

机器之心· 2025-07-03 16:01

核心观点 - 阿里巴巴达摩院提出WorldVLA模型，首次将世界模型和动作模型融合到一个全自回归模型中，实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制，既提升动作生成的准确性，也增强图像预测的质量 [7] - 在LIBERO基准测试中，WorldVLA抓取成功率提升4%，视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据，不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示，学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解，提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略，解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下，WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中，256*256版本平均成功率79.1%，512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后，动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]