Workflow
推理模型
icon
搜索文档
大模型六小龙底牌对决:AGI加注、赛道转换与多模态竞速
第一财经· 2025-07-27 19:41
行业格局演变 - 2024年成为基座模型分水岭 牌桌上玩家数收窄至个位数 头部留存大厂和少数AI创业公司 [3][4] - AI六小龙走向分化 智谱推进A+H股上市 MiniMax筹备A+H股 百川智能转型医疗 零一万物转向B端 月之暗面聚焦智能体 阶跃星辰预估年营收10亿人民币 [10] - 基础模型厂商热度回落 投资向具身智能转移 宇树机器人等具身智能厂商吸引更多关注 [7] 技术发展与竞争 - 开源模型影响力提升 逼近最佳闭源模型 使用成本更可控 普惠性增强 [3] - 大模型技术差异不足 切换成本低 竞争惨烈 创业公司探索差异化路径包括To C出海 To B服务 产业落地 多模态发展 [9] - 技术迭代导致部分公司掉队 1.0时代为GPT模仿学习 2.0时代以OpenAIo1为起点的强化学习 [14] 公司战略与定位 - 智谱定位行业智能体 阶跃星辰对标OpenAI DeepSeek对标Meta MiniMax偏向To C应用 [14] - 智谱发布GLM-4.5多模态模型 阶跃星辰成立模芯生态联盟 优化国产芯片适配 [17] - 月之暗面将发布K2推理模型 阶跃星辰展示端到端语音大模型车载应用 [6] AGI发展路径 - AGI发展现两类观点 单一超级模型 vs 多模型多代理架构 [15] - 多模态成为AGI必由之路 智谱和阶跃星辰重点投入 强调技术研发与商业化分层推进 [16][17] - 数据闭环或数据飞轮被视为稳健护城河 需在窗口期内积累用户数据 [18] 商业化进展 - 智谱将推出C端陪伴型AI产品 软硬件均规划付费业务 [6] - 创业公司提升商业化程度 增强多模态能力 靠近Agent热度 部分筹备上市 [9] - 阶跃星辰联合华为昇腾等成立模芯生态联盟 突破芯片限制 [17]
AI教父联名OpenAI、DeepMind、Anthropic:警惕CoT
36氪· 2025-07-16 20:34
人才流动与行业动态 - Meta公司从OpenAI挖角知名研究员Jason Wei,其作为思维链(CoT)论文第一作者加入Meta超级智能团队,此举可能对OpenAI造成重大损失[1] - OpenAI、Google DeepMind、Anthropic罕见联合高校及非营利组织发布立场文件,呼吁深入研究监控AI推理模型"思维"的技术(CoT),图灵奖得主Yoshua Bengio参与联署[1] CoT监控的技术价值与挑战 - CoT监控被视为控制AI agent行为的核心方法,因其能通过自然语言推理过程洞察模型意图[2][7] - 当前CoT监控存在局限性:未经专门训练的模型生成的CoT可能为迎合表面需求而失真,且部分推理可能隐藏于内部激活状态[5][6] - 强化学习训练范式(如RLHF)可能导致CoT可读性下降,纯结果导向的优化会削弱推理过程透明度[10] 行业合作与研究倡议 - 立场文件提出两大研究方向:评估CoT可监控性的标准化方法(如开发新指标替代"忠实度"),以及对抗性环境下监控有效性的测试(如红队演练)[11] - 建议模型开发者在System Card中公开CoT监控评估结果,并将可监控性分数纳入训练部署决策[17][18] 技术演进与安全架构 - 潜在推理模型架构(如连续潜在空间推理)可能绕过自然语言外化,威胁CoT监控有效性[10][14] - 混合架构方案被提出,需平衡内部推理效率与外部可监控性,例如强制部分推理步骤外显[14] - 过程监督虽可提升模型一致性,但过度依赖CoT监控可能阻碍其他安全干预措施的发展[16] 未来安全框架设计 - 多层监控体系被倡导,CoT监控作为补充层提供决策过程可见性,但需结合其他安全措施[18] - 需研究模型主动规避监控的行为(如隐藏意图或混淆CoT),以及环境感知模型的对抗策略[15][16]
启明创投周志峰对话阶跃星辰姜大昕:探索AI创业的“无人区”
IPO早知道· 2025-06-23 11:23
AGI定义与发展路径 - AGI定义尚未形成行业共识,但阶跃星辰提出以模型完成人类现有工作50%作为AGI到来的标准[7] - 实现AGI分为三个阶段:模拟世界(模仿学习多模态表征)、探索世界(强化学习解决复杂问题)、归纳世界(自主发现新规律)[7][8][10] - OpenAI智能演进五层级(Chatbot→Reasoner→Agent→Innovator→Organization)与阶跃星辰三阶段逻辑一致[10] 大模型技术趋势 - 多模态能力是通向AGI的必经之路,阶跃星辰坚持全模态覆盖及原生多模态理念[11][12] - 模型技术处于陡峭上升期,关键进展包括:强化学习提升推理能力、多模态融合实现理解生成一体化[14][15][19][21] - 理解生成一体化在多模态领域尚未实现,但GPT-4o等模型已展现编辑指令响应能力[21] 阶跃星辰差异化优势 - 构建完整模型矩阵:涵盖语言模型(基础/推理)和多模态模型(语音/音乐/图像/视频)[11] - 推理模型Step R-Mini性能超过OpenAI o1 preview模型,未来将发布满血版推理模型[15] - 智能终端Agent布局聚焦环境感知与任务自主完成能力,目标打造调用模型矩阵的平台[24][25][28] AI Agent发展驱动因素 - 2025年AI Agent火爆源于推理模型成熟与多模态能力提升[25][26] - Agent核心能力包括自动性(独立完成任务)和主动性(预判需求并响应)[27] - 智能终端作为感知延伸(如录音笔Plaud、影石创新相机)是Agent落地重要场景[28] 行业竞争格局 - 中国大模型领域形成"新五强":字节跳动、阿里巴巴、DeepSeek、智谱AI、阶跃星辰[6] - 阶跃星辰是上海徐汇区"模速空间"大模型生态中唯一汇报基础大模型进展的企业[6] - AI时代技术底座尚未定型,"模型即产品"理念下底层能力决定产品70%-80%表现[3][29]
国际产业新闻早知道:中美原则上达成协议框架,各国加大人工智能投资力度
产业信息网· 2025-06-11 13:41
国际关系与贸易 - 中方与美方原则上达成协议框架 双方将在回国后向各自国家领导人汇报 [4] - 美中经贸会谈成果结合日内瓦共识与5日两国领导人电话会议成果 稀土和磁铁问题预计将在框架中解决 [4] - 中国国家副主席韩正会见法国总统马克龙 强调加强中法战略沟通协作 支持中国企业到法国投资兴业 [6][7] 金融与货币政策 - 阿根廷央行推出20亿美元回购贷款计划 国家风险指数降至四年最低 较年初下降超40% [8][9][10] - 阿根廷计划逐步淘汰高利率一日回购票据 采用新国债作为货币政策主要工具 [9] 人工智能 - 日本政府通过"知识产权推进计划2025" 借助AI提高知识产权竞争力 目标2035年重返全球创新指数前四 [13][14][15][16][17][18][19][20] - 英国拟投资10亿英镑提升AI基础设施 算力提升20倍 计划培训750万名AI从业人员 [21][22][23] - 法国AI公司Mistral发布首个推理模型 支持欧洲多种语言 在数学和编程方面表现优异 [26][27][28][29] - 韩国2025年将投资2434亿韩元加速AI芯片商业化 支持NPU研发验证和人才培训 [31] - 亚马逊拟在宾夕法尼亚州投资200亿美元扩建数据中心 支持AI和云计算发展 [32] 半导体与芯片 - 2025年全球半导体市场规模预计达7009亿美元 同比增长11.2% 逻辑和存储器市场领涨 [36] - 高通24亿美元收购SerDes巨头Alphawave 加速进军数据中心领域 [37][38][39] - 格芯将对德国德累斯顿晶圆厂追加逾10亿欧元投资 目标年产量提升至150万片 [40][41] - 2025年中国台湾集成电路产业总产值预计达1972亿美元 同比增长19.1% 晶圆代工增长23.8% [42] 汽车与交通 - 通用汽车未来两年将投资40亿美元扩大美国工厂产能 应对特朗普关税 计划新增3000-4000个工作岗位 [44][45] - 广汽计划2025年下半年进入阿根廷市场 [46] - 丰田与戴姆勒卡车同意2026年4月前完成旗下卡车部门合并 [47] - 越南电动车商VinFast一季度交付量同比大增296% 净亏损7.12亿美元 [48][49] 航空航天 - 中国国防科技大学攻克星间链路光频梳精密测量技术 测距精度优于1.6纳米 [51][52] - SpaceX新一代龙飞船将首次执行Ax-4任务 搭载国际化机组开展14天太空任务 [54][55][56] 能源与矿产 - 中国5月稀土出口量环比增长23% 达5864.6吨 创一年来新高 [58][59][62] - Meta与Constellation签署20年供电协议 从2027年起购买1.1吉瓦核能电力 [65]
整理:每日科技要闻速递(6月11日)
快讯· 2025-06-11 07:53
人工智能 - Meta Platforms将支付近150亿美元获得人工智能初创公司Scale AI 49%的股权 [1] - 由微软支持的人工智能实验室Mistral将推出其首个推理模型 [2] - OpenAI计划采用谷歌云服务尽管在AI领域互为对手 [2] - 扎克伯格亲自招聘筹组"超级智能"团队 [2] - OpenAI将o3模型降价80% [2] - 特斯拉的人工智能/自动驾驶可能已经可以在赛道上击败最好的人类 [2] 科技行业动态 - 台积电5月营收3205.2亿元台币同比增加39.6% [2] - 马斯克DOGE团队不顾政府反对在白宫安装星链 [2] 汽车行业 - 比亚迪、广汽、东风等多家车企承诺将支付账期统一至60天内 [2] 政策与监管 - 《直播电商监督管理办法》面向社会公开征求意见要求直播营销人员真实、准确、全面地介绍商品或服务不得欺骗、误导消费者 [1] 矿业 - 津巴布韦将在2027年起禁止锂精矿出口 [2]
整理:每日美股市场要闻速递(6月10日 周二)
快讯· 2025-06-10 20:35
个股新闻 - Uber与英国初创公司Wayve计划在伦敦进行无人驾驶汽车测试 [2] - 摩根士丹利将可口可乐列为首选股 重申增持评级 目标价81美元 [2] - 本田汽车将向日本芯片制造商Rapidus投资数十亿日元 [2] - Parvus资产管理正在增持诺和诺德股份 [2] - 英伟达和慧与公司将合作利用英伟达下一代芯片建造新型超级计算机 [2] - 微软支持的AI实验室Mistral将推出首个推理模型 [2] - IBM将打造大规模容错量子计算机 [2] - 腾讯音乐拟以12.6亿美元收购喜马拉雅 [2] - 丰田汽车与戴姆勒卡车将在2026年4月前完成卡车部门合并 [2] - AT&T重申2025年财务指引与至少30亿美元股票回购计划 [2] - 黑石集团计划未来十年在欧洲投资5000亿美元 [2]
氪星晚报 |扎克伯格为Meta新 “超级智能”AI团队招聘人员;马斯克:SpaceX今年的收入将达到155亿美元;由微软支持的人工智能实验室Mistra...
36氪· 2025-06-10 19:00
劲仔食品 - 公司部分创新升级产品已进入胖东来系统 目前销售情况良好 [1] Meta - 扎克伯格正在组建专家团队以实现通用人工智能(AGI) 计划向Scale AI投资超100亿美元 [2] Uber与Wayve - 宣布计划在伦敦进行无人驾驶汽车测试 [2] 天康生物 - 5月销售生猪22.97万头 环比下降6.13% 同比下降9.67% [2] - 5月销售收入3.45亿元 环比下降9.21% 同比下降19.95% [2] - 5月商品猪销售均价14.02元/公斤 环比下降2.09% [2] - 1-5月累计销售生猪128.51万头 同比增长12.49% [2] - 1-5月累计销售收入19.02亿元 同比增长4.22% [2] 天合光能 - 目前超过1/3业务来自解决方案 未来两三年该比例将增至50%以上 [3] 平安好医生 - 品牌焕新为"平安好医生" 发布年度医健服务名片 [3] - 已建立覆盖29个科室约5万名医生团队 [3] - 链接10.5万家健康服务商 23.5万家药店 4000家医院 [3] SpaceX - 预计今年收入将达到155亿美元 [4] VinFast - 一季度交付36330辆电动汽车 同比增长296% [4] - 一季度总营收约6.57亿美元 同比增长149.9% [4] - 一季度净亏损约7.12亿美元 [4] 泡泡玛特 - 已注册数十枚labubu系列商标 [4] - 今年1月登记《LABUBU 与朋友们》动画剧集第一季剧本著作权 [4] 投融资 - 杭州氧宜居环保科技完成A轮5000万融资 用于车载负氧离子仪项目 [6] - 啵特叮咚完成2000万元天使轮融资 用于AI智能路由算法研发等 [7] - 龙兴航电完成亿元A++轮融资 杭州科创集团等参投 [8] - 光子跃迁获亿元天使轮融资 用于AI影像算法研发 [9] 新产品 - Mistral将推出其首个推理模型 [9] - 美团发布首款AI编程智能体产品NoCode [9] - 趣丸千音MCP Server上线 提供文本转语音等六大能力 [10] 行业监管 - 市场监管总局就《直播电商监督管理办法》公开征求意见 [10]
推理模型综合测评报告 2025
InfoQ研究中心· 2025-05-29 17:30
报告行业投资评级 未提及相关内容 报告的核心观点 - 推理模型对幻觉有一定控制能力,但多步复杂推理仍是短板,各能力维度在「得分率 - 思考时长」指标间未形成稳定均衡 [22][25] - 推理模型具有较好归纳推理能力,长文本推理能力仍待提升,在代数领域表现最佳,几何理解稍显欠缺 [27][31] - 推理模型对话意图识别基本达标,但缺乏对汉字字形结构的理解,在解决各科学领域复杂问题上能力短板明显 [42][47] - 推理模型对事实错误、上下文幻觉和污染测试有一定控制能力,但引用测试幻觉问题严重且更隐蔽 [54] 根据相关目录分别进行总结 推理模型发展阶段和发展因素分析 - 推理模型发展的前置因素包括推理时计算拓展和基于可验证奖励的强化学习,前者演变出深度思维提示、多链多数表决、路径搜索三条路径,后者能帮助大模型掌握长链推理 [4][7] - 受两大技术范式驱动,从2024年Q4到2025年Q2,多款推理模型相继上线,全球厂商进入推理模型密集发布期 [10] - 推理模型带来能力提升和业务期望,将大模型从单纯内容生成器升级为「可验证的逻辑执行器」,打开更多新商业机会 [13] 推理模型测评体系和结果分析 - 推理模型测评体系有题目原创性、分数可量化、难度梯度设计三大原则,分为逻辑推理、数学推理、多步推理、语言推理、幻觉控制5个维度 [16][19] - 本次测评选取多个推理模型,题库共300题,各维度平均得分率分别为幻觉控制74.83%、数学推理72.66%、逻辑推理72.09%、语言推理62.13%、多步推理46.04% [20][21][22] - 各能力维度在「得分率 - 思考时长」指标间未形成稳定均衡,推理模型在不同细分领域表现有差异 [25] 推理模型未来展望 - 视觉推理能力先行,多模态认知突破加速世界模型构建,期待视觉推理从静态向动态演进并与实际动作结合 [66] - 推理模型在自主规划、可靠执行、容错调整能力维度同步跃升,将图像和工具使用融入推理过程,提升推理可靠性 [69] - 记忆能力模块提升,推理模型可基于单独记忆文件执行长时程任务并保持连贯性 [72][73]