一、AI模型与多模态技术进展 - 英伟达发布全模态推理模型Nemotron 3 Nano Omni,该模型将文本、视觉、语音融合至单一模型,吞吐量达同类开放模型的9倍,并采用Mamba与Transformer混合MoE架构,使内存和计算效率最高提升4倍 [2] - DeepSeek上线识图模式并开启灰测,标志着其多模态视觉理解能力正式落地,实测显示其具备深度推理能力,会主动追问背景并自我纠正 [4] - 阶跃星辰发布轻量级图像生成编辑模型Step Image Edit 2,参数仅3.5B却超越12B-20B级开源模型,单次生图仅需0.5-2秒,并在KRIS-Bench轻量级榜单排名第一 [5][6] 二、AI在创意与设计领域的应用 - Anthropic与Blender、Adobe、Autodesk等合作推出MCP连接器,使Claude能直接操作专业创意软件,涵盖3D建模、平面设计、音乐制作等领域 [1] - Claude可充当创意辅导工具、编写脚本插件、桥接多软件流水线,并推出Claude Design产品用于探索软件设计方向 [1] - Anthropic加入Blender开发基金支持开源,并与罗德岛设计学院等三所艺术院校合作试点AI创意教育 [1] 三、AI模型轻量化与边缘部署 - 腾讯混元开源手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit,将支持33种语言的翻译大模型压缩至440MB,可在手机本地离线运行,翻译质量超越谷歌翻译 [7] - 该模型采用Sherry稀疏三值量化技术实现1.25-bit极致压缩,完全本地处理无需联网,零隐私泄露风险 [7] - 英伟达的Nemotron 3 Nano Omni模型因其高效架构,适配边缘部署场景 [2] 四、具身智能与机器人模型发展 - 银河通用发布1.6B参数的跨本体世界-动作基础模型LDA-1B,首次实现虚实共融、人机混合、有无标注的全类数据统一高效利用 [10] - 该模型在单一扩散框架内融合策略学习、前向/逆向动力学和视觉预测四大能力,性能超越GR00T-N1.6和π0.5等顶尖模型最高达48%,仅需1小时训练即可适配不同机器人本体 [10] - 生数科技发布通用世界行动模型Motubrain,基于UniDiffuser框架统一建模视频与动作模态,具备多本体适配、多任务泛化与长程任务执行能力,可完成10个原子动作级别的复杂长程任务 [11][12] 五、AI助手与生产力工具升级 - 亚马逊云科技推出桌面端AI助手Amazon Quick,深度联通本地文件、邮箱、日程及Microsoft 365、Slack、Salesforce等主流办公平台 [9] - 该产品支持自然语言生成演示文稿、数据看板,能主动识别待办事项和日程冲突,实测显示文档制作时长缩减80%,研发测试周期缩短67% [9] - ima正式推出知识Agent——copilot,内置记忆系统,可跨场景连续调用,并以浮窗形式伴随用户浏览网页、文件,无需额外上传即可理解当前内容并完成处理 [8] 六、开源生态与行业影响 - HashiCorp联合创始人Mitchell Hashimoto将拥有5.2万星的开源终端项目Ghostty迁离GitHub,核心原因是平台故障频发严重影响开发,其记录显示近一个月几乎每天都遇到平台故障 [3] - 英伟达的Nemotron 3 Nano Omni模型开源开放商用授权,已被富士康、Palantir等早期采用 [2] - 阶跃星辰的Step Image Edit 2模型和腾讯混元的Hy-MT1.5-1.8B-1.25bit翻译模型均已开源 [5][7]
腾讯研究院AI速递 20260430
腾讯研究院·2026-04-30 00:03