腾讯研究院AI速递 20250710

一、AI视频生成技术升级 - 谷歌Veo 3升级支持仅用一张图片生成音频和视频，角色在多镜头下保持高度一致性[1] - 新功能通过Flow平台的"Frames to Video"选项实现，加入丰富运镜功能[1] - 用户实测显示人物表情自然、表演到位，适用于广告、动画等多领域[1] - Vidu Q1多参考生视频功能可上传最多7张参考图像，实现角色一致性强、多元素同框和零分镜视频生成[4] - 清晰度升级至1080P，支持主体库存储角色素材，单条视频成本不到9毛钱[5] 二、开源大模型进展 - Hugging Face开源3B参数模型SmolLM3，性能超越Llama-3.2-3B和Qwen2.5-3B，支持128K上下文窗口及6种语言[2] - 模型采用双模式系统，用户可在深度思考和非思考模式间灵活切换[2] - 昆仑万维开源Skywork-R1V 3.0多模态模型，高考数学得142分，MMMU评测达76分，超越部分闭源模型[3] - 模型通过强化学习策略GRPO和关键熵驱动机制，仅用1.2万条监督样本和1.3万条强化学习样本实现高性能[3] 三、端侧与多模态模型 - vivo发布端侧多模态模型BlueLM-2.5-3B，支持GUI界面理解，在20余项评测中表现优异[6] - 模型支持长短思考模式自由切换，引入思考预算控制机制[6] - 采用精巧结构(ViT+Adapter+LLM)和四阶段预训练策略，缓解多模态模型文本能力遗忘问题[6] 四、AI系统突破 - X-Masters系统在"人类最后的考试"(HLE)上首次突破30分，达到32.1分，超越OpenAI和谷歌[7] - 系统基于DeepSeek-R1模型构建了工具增强推理智能体X-Master，能在内部推理和外部工具使用间流畅切换[7] - 采用分散-堆叠式多智能体工作流，通过求解器、批评者、重写器和选择器多角色协作[7] 五、行业并购与市场格局 - 智元机器人以21亿元收购科创板上市公司上纬新材控制权，预计收购63.62%-66.99%股份[8] - 2025年上半年Gemini系列模型占据大模型API市场近一半份额，谷歌以43.1%位居第一[9] - DeepSeek V3自发布以来用户留存率极高，位列使用量前五[9] - 细分领域呈现差异化竞争格局：Claude-Sonnet-4在编程领域领先(44.5%)，GPT-4o在营销领域领先(32.5%)[9] 六、AI应用趋势 - 全球已有18亿AI用户，但付费率仅3%，学生使用率高达85%，家长群体成为AI重度用户[10] - AI主要应用于邮件撰写(19%)、研究兴趣主题(18%)和管理待办事项(18%)等日常场景[10] - 未来18-24个月AI将迎来六大趋势：垂直领域工具崛起、完整流程自动化、语音AI爆发等[10]