生成式AI - MiniMax发布Music 2.5,在段落级强控制与物理级高保真两大技术难题上实现突破,支持14种结构标签精准控制歌曲情绪曲线和乐器配置 [1] - 该模型针对华语流行音乐深度优化,极大减少吞字糊音问题,实现中英文无缝切换,人声具备细腻转音颤音和共鸣切换 [1] - 模型扩充至100+种乐器音色库,可根据摇滚、爵士、Lofi等不同风格自动调整混音策略,保持人声与伴奏清晰分离 [1] - 昆仑万维Skywork AI开源视频生成模型SkyReels-V3,支持参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力 [2] - 其参考图像转视频功能可根据1至4张图像生成高保真视频,在一致性指标上超越Vidu Q2、Kling 1.6等主流商用模型 [2] - 视频延长功能支持单镜头和镜头切换两种模式,虚拟形象模型可从单张肖像生成分钟级音视频同步内容 [2] - 蚂蚁灵波开源世界模型LingBot-World,专为交互式场景设计,可实现近10分钟连续稳定无损生成和约16FPS实时交互 [3] - 模型具备长时序一致性和记忆能力,镜头移开60秒后返回场景中核心物体仍保持结构外观一致 [3] - 模型采用混合数据策略结合网络视频和游戏采集,具备Zero-shot泛化能力,可为具身智能提供低成本高保真的数字演练场 [3] - Kimi K2.5模型Agent办公能力升级,支持Word智能排版修订、PDF视觉设计图文混排、Excel数据分析金融建模和PPT自动生成 [4] - 该Agent可完成大量数据录入、多版合同比对、超长文档翻译、论文速转PPT等任务,将数小时工作缩减至十几分钟 [4] - 其能力实现Office技能“平权”,用户可像指挥金融分析师、版面设计师一样让AI完成DCF估值建模、出版级PDF画册等专业任务 [4] - 谷歌DeepMind发布AlphaGenome登上Nature封面,可一次性处理100万碱基对DNA序列,精准预测数千种基因调控分子信号 [5] - 模型在24项基因组轨迹预测任务中22项达SOTA水平,能在一秒内评估遗传变异对多种生物过程的影响 [5] - 该模型可用于罕见病诊断、癌症致病机制揭示、合成生物学设计等领域,模型代码和权重已向全球科研界开放 [5] 前沿科技 - Figure发布Helix 02模型,实现运动与操控统一,机器人能自主判断用脚踢门、用胯顶抽屉等拟人动作,无需预先训练 [7] - 其核心组件System 0以1000Hz频率运行,通过学习超1000小时人类动作数据实现类脊髓反射的平衡控制,删除了10万行手工C++代码 [7] - Figure估值达390亿美元,计划四年内生产10万台机器人,Helix 02连续执行61个运动操作动作展示了全身自主能力 [7] - 马斯克宣布Model S和Model X将于2026年Q2停产,为弗里蒙特工厂生产Optimus人形机器人腾出空间 [8] - 特斯拉2025年总收入948亿美元同比降3%,净利润同比降46%,销量同比降8.5%,已被比亚迪取代全球最畅销电动车称号 [8] - 马斯克称人形机器人将使特斯拉估值达25万亿美元,FSD付费用户已接近110万 [8] 报告观点 - Andrej Karpathy发文称其工作流在短短几周内从80%手写代码变为80%让AI写代码,预测2026年程序员将分裂为“喜欢写代码”和“喜欢造东西”两类 [9] - 他指出AI犯错本质已从语法错误变为概念性错误,会过度设计用1000行实现100行能搞定的功能,缺乏“奥卡姆剃刀”式审美 [9] - 他认为AI编程带来的不是加速而是能力边界扩张,让人开始做以前“不值得写”的工具,并预测2026年将迎来垃圾信息大爆发 [9] - 月之暗面三位联创在Reddit举行3小时AMA,回应K2.5自称Claude是因预训练数据上采样而非蒸馏,并称K2.5在多项基准已优于Claude [10] - 杨植麟透露K3将在Kimi Linear基础上加入更多架构优化,相信即便没比K2.5强10倍也会强很多 [10] - 周昕宇强调“创新往往诞生于约束之中”,团队有“把事情真正做成并落地”的共同价值观 [10] - PSPDFKit创始人Peter Steinberger退休3年后重返编程,用AI实现一天600个Commit,同时操控5-10个AI Agent [11] - 他提出“Pull Request已死”观点,更想看生成代码的prompt而非代码本身,认为闭环验证是AI编程核心秘诀 [12] - 他的Moltbot(原Clawdbot)一周内GitHub star从100涨到8万+,认为痴迷算法难题的工程师反而难适应AI开发 [12]
腾讯研究院AI速递 20260130