腾讯研究院AI速递 20260430

一、AI模型与多模态技术进展 - 英伟达发布全模态推理模型Nemotron 3 Nano Omni，该模型将文本、视觉、语音融合至单一模型，吞吐量达同类开放模型的9倍，并采用Mamba与Transformer混合MoE架构，使内存和计算效率最高提升4倍 [2] - DeepSeek上线识图模式并开启灰测，标志着其多模态视觉理解能力正式落地，实测显示其具备深度推理能力，会主动追问背景并自我纠正 [4] - 阶跃星辰发布轻量级图像生成编辑模型Step Image Edit 2，参数仅3.5B却超越12B-20B级开源模型，单次生图仅需0.5-2秒，并在KRIS-Bench轻量级榜单排名第一 [5][6] 二、AI在创意与设计领域的应用 - Anthropic与Blender、Adobe、Autodesk等合作推出MCP连接器，使Claude能直接操作专业创意软件，涵盖3D建模、平面设计、音乐制作等领域 [1] - Claude可充当创意辅导工具、编写脚本插件、桥接多软件流水线，并推出Claude Design产品用于探索软件设计方向 [1] - Anthropic加入Blender开发基金支持开源，并与罗德岛设计学院等三所艺术院校合作试点AI创意教育 [1] 三、AI模型轻量化与边缘部署 - 腾讯混元开源手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit，将支持33种语言的翻译大模型压缩至440MB，可在手机本地离线运行，翻译质量超越谷歌翻译 [7] - 该模型采用Sherry稀疏三值量化技术实现1.25-bit极致压缩，完全本地处理无需联网，零隐私泄露风险 [7] - 英伟达的Nemotron 3 Nano Omni模型因其高效架构，适配边缘部署场景 [2] 四、具身智能与机器人模型发展 - 银河通用发布1.6B参数的跨本体世界-动作基础模型LDA-1B，首次实现虚实共融、人机混合、有无标注的全类数据统一高效利用 [10] - 该模型在单一扩散框架内融合策略学习、前向/逆向动力学和视觉预测四大能力，性能超越GR00T-N1.6和π0.5等顶尖模型最高达48%，仅需1小时训练即可适配不同机器人本体 [10] - 生数科技发布通用世界行动模型Motubrain，基于UniDiffuser框架统一建模视频与动作模态，具备多本体适配、多任务泛化与长程任务执行能力，可完成10个原子动作级别的复杂长程任务 [11][12] 五、AI助手与生产力工具升级 - 亚马逊云科技推出桌面端AI助手Amazon Quick，深度联通本地文件、邮箱、日程及Microsoft 365、Slack、Salesforce等主流办公平台 [9] - 该产品支持自然语言生成演示文稿、数据看板，能主动识别待办事项和日程冲突，实测显示文档制作时长缩减80%，研发测试周期缩短67% [9] - ima正式推出知识Agent——copilot，内置记忆系统，可跨场景连续调用，并以浮窗形式伴随用户浏览网页、文件，无需额外上传即可理解当前内容并完成处理 [8] 六、开源生态与行业影响 - HashiCorp联合创始人Mitchell Hashimoto将拥有5.2万星的开源终端项目Ghostty迁离GitHub，核心原因是平台故障频发严重影响开发，其记录显示近一个月几乎每天都遇到平台故障 [3] - 英伟达的Nemotron 3 Nano Omni模型开源开放商用授权，已被富士康、Palantir等早期采用 [2] - 阶跃星辰的Step Image Edit 2模型和腾讯混元的Hy-MT1.5-1.8B-1.25bit翻译模型均已开源 [5][7]