知微
搜索文档
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
量子位· 2025-11-18 13:02
文章核心观点 - 微博发布的自研开源大模型VibeThinker以15亿参数的小规模,在关键性能测试中击败了参数量大数百倍的巨型模型,实现了技术突破 [1][7] - 该模型的单次后训练成本仅为7800美元,成本效益比达到30到60倍,有望重塑行业成本结构并推动AI技术普惠化 [2][9][13] - 此次突破标志着行业可能从“参数竞赛”转向“效率革命”,为AI产业发展开辟了新路径 [3][7] 技术突破与性能表现 - VibeThinker模型参数量为15亿,通过优化模型结构和训练范式,创新性地采用“频谱到信号原理”(SSP)方法进行训练 [7] - 在AIME24、AIME25、HMMT25等高难度数学测试集上,其表现超越了参数量达6710亿的DeepSeek-R1模型,并与4560亿参数的MiniMax-M1效果接近或相当 [7] - 在LiveCodeBench v6编程算法题测试集中,VibeThinker成功追平参数量超其数十倍的模型,如Minstral.AI的Magistral-Medium-2506版本 [8] - 该模型目前专注于数学和代码等高智能应用场景,其研发重点集中于强化小模型的复杂推理能力,尚未对日常聊天能力进行优化 [8] 成本效益与行业影响 - 行业主流大模型单次后训练成本普遍在数十万美元级别,例如MiniMax M1模型成本约53.5万美元,DeepSeek R1后训练成本为29.4万美元 [10] - VibeThinker整个后训练过程仅消耗3900个GPU小时,总计算成本为7800美元,成本效益比达到惊人的30到60倍 [10][11][13] - 极低的成本门槛使强大的AI推理能力不再是大公司的专利,有望让更多中小型公司、研究机构和大学参与前沿AI创新,促进技术普惠化 [13] 微博AI战略与应用前景 - 微博已构建基于自研“知微”大模型的AI应用生态,并推出了微博智搜(月活跃用户突破5000万)和评论罗伯特(全网粉丝近200万)两大顶流AI产品 [15][16][21] - 公司计划深度融合其在心理等垂直领域积累的独特数据资产,旨在打造更洞悉公众情绪、服务社会化需求的专属模型 [17][18] - VibeThinker的技术突破有望大幅降低微博AI应用成本,优化智能搜索和实时互动场景的算力损耗,进一步释放生态创新能力 [19][20]
对话吴穹:软件开发的终局,是我们将迎来自己的“黑灯工厂”
AI科技大本营· 2025-09-15 08:50
软件工程方法论本土化 - 西方敏捷方法论在中国出现水土不服 因国内企业文化偏管控型 强调令行禁止的确定性 而西方崇尚试错和自组织[6][12] - 需将敏捷核心思想与本土实践结合 基于第一性原理重新设计适合中国土壤的农具 而非照搬最佳实践[7][14][15] - 华为在落地IPD时做了管理变革和创新 体现本土化必要性[13] - 推出Adapt方法论框架和《敏稳兼顾:数字化研发管理实战》著作 总结规模化敏捷本土落地经验[15] AI对软件工程的冲击 - AI工具存在悖论:对员工是摸魚神器 对老板却是提效神器 两者本质矛盾[9][35] - 生产力变革触及生产关系根基 需解决员工为何使用AI为公司创造价值而非提前下班的管理问题[9][35] - 私域知识质量差是AI应用短板 大多数软件开发项目有独特金融软件或电商系统实现方式等私域知识[18] - 上下文缺失是AI发挥作用的重要阻碍 老系统缺乏历史信息或历史上下文[18][20] - AI在代码补全场景高效 因已有明确修改点和意图上下文 但让AI纯粹处理任务则需大量上下文[19][20] - 短期困难包括AI幻觉和上下文不足 导致团队效率提升数据在10%-20%体感误差范围内[20] Agent专业化趋势 - 不会有通用Agent 最终会分化成专用Agent 如金融Agent 测试Agent 重构Agent[24] - 工程生产线需差异化 如特斯拉造车产线不会用于生产飞机 否则不经济[24] - 开发语言进一步专业化 自然语言编程提升抽象层次 但最终会出现领域特定语言(DSL)[25][26] - 描述和Agent都会分化 形成更专业化生产线[27] 组织管理变革 - 未来组织是1+N模式 即1位人类小队长带领N个AI特工协同工作[35][38] - 需把Agent当成员工管理 建立注册 KPI考核 任务冲突调解等管理机制[24][35] - 考核体系变化 人的效能不再是个人产出 而是带领多少Agent产出多少[38][42] - 兵种主建 战区主战 类似国家军事改革 在职能线上叠加交付型组织[30] - 科技团队不能孤立谈管理 需与PMO 财务等职能部门深度卷入 为整个公司治理服务[47] 技术债与质量管控 - AI可能加速技术债累积 如果过分强调效率或代码行数等指标 会导致低质代码更快产出[53] - 使用得当AI反而减少技术债 如AI生成单元测试能力非常强 形成自闭环[54] - 布设单元测试像铃铛 代码被不该改的地方触碰就会报警[54] - 需传统度量体系感知质量 如交付效率 缺陷修复时间 代码重复度等[53] 工具与平台演进 - 知微工具平台将Adapt方法论理念变为数字化工具 如分层需求体系 多维组织架构[49] - 知微是可配置零代码平台 像高级定制西装 根据客户情况量体裁衣 而非定制开发或盒装软件[52] - 知微会逐渐中台化 大模型也是其用户 通过API调用 成为组织流程资产中心[60] - 未来IDE和CLI是主入口 界面越来越少 因AI改善工具使用 根据工作上下文自动操作[60] 程序员能力重塑 - 未来重要能力是对AI的了解和沟通协同能力 需学会与AI有效沟通[66] - 程序员需放下对AI戒备和抵制 进行心理角色转换 从种地变为地主[77] - 与人沟通和团队协作能力变得非常重要 需补强[78] - 对业务理解至关重要 程序员现在创业更容易[78] - 有技术底色的程序员更具优势 因懂技术细节可不关心 但产品经理压根不懂则难做精准判断[74] - 马斯克 扎克伯格 比尔·盖茨等有编程能力者最终成为顶尖产品缔造者[75] 行业长远展望 - 软件工程终极图景是黑灯软件工厂 AI自主编码 人类负责指挥和规划[9][81] - 软件不会用后即弃 因承担产生数据使命 有长生命周期 形成领域知识[80][83] - 软件行业类比制造业 产能飞跃后可能解决更高阶问题 产生新需求 如星际旅行 可控核聚变 智能医药[82][83] - AI颠覆原有冯·诺依曼架构 LLM是全新概率引擎 从确定性输出变为合理可能结果 拓展软件能力边界[61][62] - 软件边界和形态发生变化 从服务顾问变为直接服务用户 从确定性软件变为能给出不确定结果的软件[63] - 测试和质量过程都需改变 因软件给出不确定结果[64]