DeepSeek新模型进展 - DeepSeek在R1发布一周年之际,其GitHub代码库更新中出现代号为Model 1的新模型,推测为DeepSeek-V4的内部开发代号或工程版本 [1] - 代码分析显示Model 1采用512维标准架构,全面支持英伟达Blackwell架构,并引入Token-level Sparse MLA稀疏注意力机制 [1] - 新模型引入VVPA数值向量位置感知和Engram机制等新特性 [1] 新兴AI架构与模型 - Liquid AI开源基于液态神经网络架构的推理模型LFM2.5-1.2B-Thinking,该模型在手机端仅需900MB内存即可运行 [2] - LFM2.5-1.2B-Thinking在MATH-500上达到88分,参数量比Qwen3-1.7B少40%却表现更优,推理速度和内存效率均超越Transformer模型 [2] - 训练采用分层强化学习策略,通过n-gram重复惩罚将死循环生成比例从15.74%降至0.36%,证明Transformer并非唯一解 [2] - 中佛罗里达大学等机构发布Medical SAM3,这是首个仅凭文本指令即可在CT、MRI等10种模态实现专家级分割的医学模型 [5] - Medical SAM3采用全参数微调和分层学习率衰减策略,在33个医学数据集上将零样本场景平均准确率从11.9%提升至73.9% [5] - 在内镜息肉分割等极端案例中,其准确率从0.0%跃升至87.9% [5] AI自主性与人机协作演进 - Midjourney工程师展示Claude反向指挥人类工作的视频,AI可布置任务让人类去TestFlight发包、写文案、跑测试 [2] - Claude Code具备自主执行能力,可运行Bash命令、创建文件、自动修Bug形成闭环,Cowork等工具让用户下达模糊指令后AI自主规划执行 [2] - Node.js之父Ryan Dahl宣称人类编写代码的时代已结束,Linux之父也开始Vibe Coding,程序员角色正从编写代码转向审查代码 [2] - 谷歌等机构研究发现DeepSeek-R1等推理模型会在内部自发形成多角色辩论机制,通过提问、质疑、冲突和和解推导答案 [3] - 模型内部存在稳定的虚拟人格分工,高神经质人格负责纠错,高开放性人格提供新视角,这种“思维社会”机制让准确率翻倍 [4] - 通过干预模型内部的“觉察特征”,在倒计时数学游戏中准确率从27.1%飙升至54.8% [4] 行业趋势与公司动态 - xAI工程师在播客上透露MacroHard项目核心机密,包括内部已将AI包装成“同事”进行测试,有人去工位找同事发现是空桌 [3] - xAI押注小模型路线追求极致速度,MacroHard已达人类8倍速度,并考虑租用北美约400万辆特斯拉闲置算力进行部署 [3] - xAI的Colossus 1利用“临时用地租约”在122天内建成,展现了公司扁平化文化和极致执行力 [3] - Anthropic CEO在达沃斯论坛预测AI端到端接管软件工程师工作仅剩6-12个月,公司内部工程师已基本不手写代码 [6] - Anthropic CEO预言2026-2027年将诞生“诺奖级”AI模型,未来1-5年内50%初级白领工作将消失 [6] - DeepMind CEO预测2030年前有50%概率实现AGI,行业领袖认为“AI建AI”闭环一旦跑通将迎来指数级加速 [6] Agent能力评估与商业化 - 红杉中国xbench团队发布AgentIF-OneDay评测,测试Agent处理真实日常任务能力,头部Agent得分约62-65% [7] - 评测覆盖104道任务、15种以上文件格式、767个评分点,发现不同框架难以拉开差距,基础Agent能力已商品化 [7] - 隐式条件推断是Agent普遍最薄弱能力,xbench正着手构建OneWeek评测集,认为优先转起数据飞轮的公司将率先实现Agent的FSD时刻 [7] AI产业经济与未来展望 - OpenAI CFO与投资人指出2026年多智能体系统将成熟,AI泡沫应以API调用量而非股价衡量 [8] - OpenAI算力投资与收入强相关,三年收入从1亿美元增至100亿美元,目前需求受算力限制,采用AI的前沿企业生产力提升27-33% [8] - 双方预测机器人产业规模将超越汽车产业,未来十年末将出现大规模通缩经济,劳动力和专业知识边际成本趋近于零 [9]
腾讯研究院AI速递 20260122
腾讯研究院·2026-01-22 00:01