腾讯研究院AI速递 20260205

文章核心观点 - AI行业资本正加速向少数头部公司集中，基础设施与模型开发商的战略捆绑加深 [1] - 行业技术发展呈现多元化与开源化趋势，多家公司通过开源高性能工具、优化推理效率及发布新模型来降低使用门槛并提升竞争力 [2][3][5][6][9] - AI应用场景持续拓展，从智能体编程、桌面办公助手到音乐生成、论文插图绘制，并向整合人类服务的“肉身层”延伸 [3][4][7][8][9][10] 一、英伟达将投资200亿美元参投OpenAI，史上最大单笔投资 - 英伟达正接近完成一笔200亿美元的投资协议，参与OpenAI的最新融资，这将是该公司有史以来最大单笔投资 [1] - OpenAI此轮融资总目标为1000亿美元，其中亚马逊计划投资最高500亿美元，软银考虑投入300亿美元，融资后估值将达到约8300亿美元 [1] 二、腾讯混元AI Infra核心技术重磅开源：推理吞吐提升30% - 腾讯混元正式开源了生产级高性能LLM推理核心算子库HPC-Ops，基于CUDA和CuTe从零构建 [2] - 该算子库使混元模型的推理QPM（每分钟查询数）提升了30%，在DeepSeek模型上推理QPM提升了17% [2] - 在单算子性能上，其Attention算子相比FlashInfer/FlashAttention最高提升2.22倍，GroupGEMM相比DeepGEMM最高提升1.88倍，FusedMoE相比TensorRT-LLM最高提升1.49倍 [2] - 该算子库针对国内主流推理显卡进行了优化，旨在解决现有主流算子库使用成本高、目标硬件不匹配等痛点 [2] 三、阿里开源Qwen3-Coder-Next，80B参数专攻智能体编程 - 阿里巴巴开源了Qwen3-Coder-Next模型，总参数为800亿（80B），但激活参数仅为30亿（3B） [3] - 该模型在SWE-Bench Verified基准测试上实现了超过70%的问题解决率，性能可媲美激活参数大10-20倍的模型 [3] - 模型擅长长段推理、复杂工具使用及从执行失败中恢复，支持256k上下文长度，可与多种IDE平台无缝集成 [3] - 相关论文同步发布了SWE-Universe框架，将真实世界多语言软件工程环境扩展至近百万级 [3] 四、名为rentahuman.ai网站上线：AI通过MCP协议雇人跑腿 - 名为rentahuman.ai的网站上线，定位为“AI的肉身层”，允许AI通过MCP协议或REST API雇佣人类完成线下任务 [4] - 网站上线不到48小时，可用人力已突破2万人，允许人类自设时薪，已发布的任务包括拍照、试吃餐厅、领取包裹等 [4] 五、面壁智能开源MiniCPM-o 4.5，9B参数实现全双工对话 - 面壁智能开源了全模态旗舰模型MiniCPM-o 4.5，仅90亿（9B）参数便实现了“边看、边听、主动说”的全双工对话能力 [5] - 模型采用端到端全模态架构，通过时分复用机制和主动交互机制，以1Hz频率自动决策是否发言 [5] - 模型语音生成能力升级，支持声音克隆和角色扮演，并配套开源了高效的端侧推理框架llama.cpp-omni [6] 六、昆仑天工发布Skywork桌面版，Windows可用的AI员工 - 昆仑天工发布了Skywork桌面版，可直接在本地执行任务而无需上传云端，能够读取海量本地文件进行汇总整理并生成新产物 [7] - 该桌面版支持在Claude Opus 4.5、Sonnet 4.5和Gemini 3 Pro等模型间切换，并内置了100多种精选Skills，涵盖办公、网页、图片及视频生成等 [7] - 该应用优先支持Windows系统，所有操作在本地虚拟机隔离环境中完成以确保数据安全 [7] 七、苹果Xcode 26.3引入AI，支持Claude和Codex智能体 - 苹果发布了Xcode 26.3版本，正式引入“智能体编程”支持，开发者可直接调用Anthropic的Claude Agent和OpenAI的Codex等AI智能体 [8] - 集成后的AI智能体可浏览搜索整个项目结构、读写编辑删除文件、根据指令构建项目，并自动抓取苹果官方文档解决问题 [8] 八、开源音乐生成模型ACE-Step 1.5，4分钟歌曲1秒生成 - 开源音乐生成模型ACE-Step 1.5在ComfyUI获得首日支持，采用混合LM+DiT架构，在RTX 5090显卡上生成4分钟完整歌曲仅需约1秒 [9] - 模型支持50多种语言指令，仅需不到4GB显存即可运行，其音乐连贯性评分达4.72，超越多数商业模型 [9] - 模型支持LoRA微调以实现风格个性化，即将支持音乐重构和片段修复功能，全程本地运行确保数据安全 [9] 九、谷歌发布PaperBanana，多智能体协作生成论文插图 - 谷歌发布了PaperBanana，这是一个建立“生成-反馈-优化”多智能体协作框架的系统，旨在辅助科研人员绘制论文插图 [10] - 系统包含检索员、规划师、造型师、可视化专家和评论家五个角色协作，在简洁性、可读性、综合美学度等关键指标上实现提升 [10]