机器之心

搜索文档
「2025 AI 实战手册」,年收入破亿的 AI 公司都在干什么?
机器之心· 2025-07-04 23:41
01 相隔9个月,硅谷的AI公司已经进入下个阶段了 - ICONIQ Capital发布2025年度「The State of AI」报告,主题为「The Builder's Playbook」,聚焦AI产品落地战术路线图,涵盖产品路线图、市场策略、人才建设等维度[3] - 2024年报告侧重生成式AI的预算决策、采购偏好和ROI预期,2025年转向AI产品构建与落地实操[3] - 调研对象从2024年的219位「AI采用方」CXO(89%企业视GenAI为重要事项,88%批准AI预算)转变为2025年300家AI公司高管(CEO、工程/AI/产品负责人)[5] - 报告将AI公司分为「AI原生」和「AI赋能」两类,定义「高增长企业」标准:产品进入规模化阶段、年收入≥1000万美元,收入增长率按规模分三档(100%/50%/30%)[5][6] 02 AI不再是附属品,AI原生产品更容易推向市场 - AI原生公司的初代产品生命周期推进更快:47%已完成规模化扩张并通过市场验证,AI赋能公司仅13%达到该阶段[7] - 报告从模型演进阶段、实验性与投放速度平衡等角度,分析AI产品路线图与架构的最新最佳实践[7] 报告方法论与框架 - 采用问卷调研形式,受访者主要来自ICONIQ Venture and Growth投资组合的AI公司高管[4] - 报告设置五大章节:开发、市场定价、组织架构、预算、内部生产力,覆盖AI产品全流程[6]
告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」
机器之心· 2025-07-04 16:59
大语言模型选型挑战 - 开源LLM数量激增(如LLaMA、Falcon、Mistral、DeepSeek),导致特定下游任务选型困难[4] - 传统选型方法计算资源消耗大且泛化能力不足,存在高度不确定性[4] LensLLM理论框架 - 基于PAC-贝叶斯泛化界限,首次揭示LLM微调中测试损失随训练数据量的"相变"动力学[6][11] - 提出双相演进理论:预幂律相(Hessian值高、参数敏感)和幂律相(Hessian值低、稳定性强)[16] - 数学公式量化性能与数据量关系:$L(f_{\hat{w}})\leq(1+\epsilon)\hat{L}(f_{\hat{w}})+C_{3}n^{-\beta_{3}}+O(n^{-\frac{3}{4}})$[10] LensLLM技术优势 - 引入NTK(神经正切核)增强型修正缩放模型,精准捕捉Transformer微调动态[15] - 在三大数据集(FLAN/Wikitext/Gigaword)上RMSE显著低于基准模型: - Wikitext上OPT-6.7B误差0.026 vs 基准0.132(5倍差距)[18] - FLAN数据集误差0.022-0.035 vs 基准0.087-0.15[18] - 计算成本降低88.5%,仅需0.48-0.97×10^21 FLOPs[23] 性能验证 - Gigaword数据集选型准确率91.1%,Pearson相关系数85.8%[21] - Pareto最优曲线显示LensLLM在低FLOPs下保持高相关性[25] - 覆盖14种架构(如OPT/T5/mT5/GPT-2等),误差带更窄[19][20] 应用前景 - 边缘设备部署:快速筛选资源受限场景最优模型[31] - 加速A/B测试周期,降低模型迭代成本[31] - 扩展至多任务场景及MoE架构研究[27]
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]
野生DeepSeek火了,速度碾压官方版,权重开源
机器之心· 2025-07-04 16:59
模型性能与优势 - DeepSeek R1T2模型速度比R1-0528快200%,比R1快20%,在GPQA Diamond和AIME 24基准测试中表现优于R1但略逊于R1-0528 [1] - 模型采用专家组合(AoE)技术开发,融合了DeepSeek官方V3、R1和R1-0528三大模型,参数规模达671B [2][12][13] - 相较于初代R1T Chimera,R1T2智力水平显著提升,实现突破性think-token一致性,且对话交互体验更稳定自然 [6][7] 技术架构与迭代 - R1T2基于DeepSeek-MoE Transformer架构,采用三心智(Tri-Mind)融合架构,新增基模型R1-0528 [12][14] - 通过高精度直接脑区编辑技术解决初代R1T的token一致性缺陷,实现全方位性能提升 [15] - 模型开源并遵循MIT协议,权重已在Hugging Face平台开放 [3] 竞品对比与适用场景 - 与DeepSeek R1对比:R1T2性能更优且可直接替换 [18] - 与R1-0528对比:R1T2经济性更高,适合非最高智能需求场景 [18] - 与DeepSeek V3对比:V3速度更快,但R1T2在推理能力上占优 [18] - 局限性包括:不支持函数调用、应答克制度低于R1-0528 [20] 开发背景与行业动态 - 模型由德国AI咨询公司TNG推出,全称为DeepSeek-TNG R1T2 Chimera [5] - 行业误认为模型出自DeepSeek官方,引发对版本命名策略的讨论 [9] - 基准测试体系变更为AIME24/25+GPQA-Diamond,新体系下R1与R1T分差扩大 [20]
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个
机器之心· 2025-07-04 10:36
AI工具Shortcut的核心功能 - 号称「第一个超越人类的Excel Agent」,能一次性完成大多数Excel知识工作任务,在10分钟内解决Excel世界锦标赛复杂案例,准确率超80%,效率比人类快10倍[3] - 具有与Excel近乎完美的功能兼容性,可直接编辑、导入和导出文件,能处理复杂金融建模任务如构建多标签预估上限表、分析5000行CSV数据生成图表等[4][6] - 具备创造性功能如生成像素艺术,演示案例显示可按照提示词创建50x50像素的尤达大师图像,通过设置像素网格和色彩阴影处理实现[5] 产品实测表现 - 界面分为Excel表格区和聊天区,支持上传原始文件或新建文档,通过自然语言指令操作如计算总分、分析题型得分分布等[11][12][13] - 在高考语文成绩分析测试中,准确计算出5款大模型总分及相对于满分的百分比(如Doubao模型现代文阅读得分率73.68%),但遗漏了生成条形图等可视化要求[15][16][17][18] - 处理复杂任务时出现系统过载情况,早期访问阶段因高需求导致服务中断,多次尝试仍无法响应[22][23] 市场定位与发展前景 - 瞄准Excel复杂性和易出错痛点,解决传统表格处理中耗时耗力的金融建模、数据分析等专业需求[27] - 目前处于早期预览阶段,用户可通过X平台获取邀请码或使用谷歌邮箱登录获得3次免费体验[7][8] - 虽然展示出处理基础表格任务的可靠性,但在复杂场景响应和可视化功能完整性上仍需优化,距离成熟产品尚有差距[26][27]
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 10:36
大语言模型奖励模型技术进展 - 奖励模型在RLHF中扮演关键裁判角色,通过打分机制确保大模型输出符合人类价值观[2] - 理想奖励模型需具备准确评判、多领域覆盖、灵活处理多种输入及高度可扩展性[3] - 昆仑万维发布新一代Skywork-Reward-V2系列,包含8个不同参数规模模型(6亿至80亿参数)[4][5] - 该系列在七大主流评测榜单均获第一,展现对人类偏好对齐、安全性、抗风格偏差等维度的优异表现[5][7] 技术突破与创新 - 构建4000万对偏好样本数据集Skywork-SynPref-40M,采用人机协同两阶段迭代流水线[17][19] - 第一阶段通过"金标准锚定+银标准扩展"双轨机制突破初始数据瓶颈[20] - 第二阶段通过奖励模型一致性过滤实现自动化大规模数据扩展[22][23] - 最终精选2600万条数据,实现规模与质量的平衡,人工标注负担显著降低[25] - 数据质量提升使小参数模型(如0.6B)性能接近上一代27B模型,参数差距达45倍仍保持竞争力[31] 性能表现与行业影响 - 在RewardBench等七大基准测试中全面超越现有模型,最高平均得分达88.6分[29][30] - 8B参数模型Skywork-Reward-V2-Llama-3.1-8B-40M在JudgeBench知识密集型任务超越Claude-3.7-Sonnet等闭源模型[32][36] - PPE Correctness基准上全系模型在有用性和无害性指标最高领先GPT-4o达20分[37][38] - 仅使用1.8%高质量数据(约29万条)训练的8B模型性能即超越当前70B级SOTA模型[42] 行业技术发展趋势 - 数据工程策略作用凸显,高质量训练数据可支撑"小模型超越大模型"的效果[34] - 奖励模型从弱监督评分器向强泛化价值建模器演进,在多维偏好理解中承担核心角色[35][44] - 人机协同数据构建范式将加速RLHF技术迭代,推动"数据驱动对齐"技术发展[45][47] - 开源策略有望促进行业整体进步,昆仑万维同期还开源了代码智能体、空间智能等多领域模型[48]
刚刚,Ilya Sutskever宣布自任CEO:联创被Meta挖走了
机器之心· 2025-07-04 08:10
公司动态 - Ilya Sutskever正式担任SSI首席执行官 Daniel Levy担任总裁 技术团队继续向Ilya汇报 [4] - 联合创始人Daniel Gross于6月29日正式退出SSI 公司对其早期贡献表示感谢 [3][6] - SSI成立于2023年6月 三位联合创始人为Ilya Sutskever Daniel Gross和Daniel Levy [7] 融资与估值 - SSI在2024年4月新一轮融资中获10亿美元 估值达320亿美元 [8] - 公司明确表示采取"平稳扩展"策略 避免短期商业压力干扰长期目标 [9] 技术发展 - SSI专注于构建安全的超级智能 尚未推出任何技术或产品 [8][9] - 公司保持极简风格 网站仅显示三位创始人信息 [10] - Ilya Sutskever坚持"只做一个产品"的理念 [12] 行业动向 - Meta曾试图全资收购SSI 但被拒绝 [6] - Daniel Gross离职后预计将加入Meta 负责人工智能产品 与扎克伯格等合作 [14][15] - 2024年6月传出Meta洽谈收购NFDG部分股权的消息 NFDG持有顶级AI初创公司股份 [14] 人物动态 - Ilya Sutskever作为OpenAI联合创始人 在生成式AI领域有突破性贡献 被视为传奇人物 [8] - Daniel Gross曾领导苹果AI团队 在SSI期间协助公司起步 [14][15]
登上热搜!Prompt不再是AI重点,新热点是Context Engineering
机器之心· 2025-07-03 16:01
上下文工程的核心概念 - 将LLM视为通用的、不确定的文本生成函数而非拟人化实体 强调其无状态特性 需通过输入文本来控制输出[4][5][8] - 上下文工程的核心在于构建有效输入文本系统 而非依赖单句"魔法咒语"式的提示词工程[9][11] - LLM被类比为新型操作系统 需要为其准备完整运行环境而非零散指令[13] 上下文工程的技术要素 - 采用自动化系统构建"信息流水线" 从多源自动抓取整合数据形成完整上下文[15][17] - 工具箱包含四大核心工具:指令下达、知识记忆管理、检索增强生成(RAG)、智能体自主查资料[19][21] - RAG技术通过知识库检索防止模型幻觉 确保回答基于事实[19] - 智能体技术实现动态信息获取 自主判断需求并整合多源数据[21] 工程实践方法论 - 采用科学实验式流程 分"从后往前规划"和"从前往后构建"两阶段实施[23][24][25] - 实施路径:明确输出目标→倒推所需输入→设计自动化生产系统[26] - 模块化开发流程:依次测试数据接口、搜索功能、打包程序 最终进行端到端系统测试[30] - LangChain生态提供实践支持 包括LangGraph和LangSmith等工具[29][31]
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 16:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]