Workflow
腾讯研究院AI速递 20250710
腾讯研究院·2025-07-09 22:49

一、AI视频生成技术升级 - 谷歌Veo 3升级支持仅用一张图片生成音频和视频,角色在多镜头下保持高度一致性[1] - 新功能通过Flow平台的"Frames to Video"选项实现,加入丰富运镜功能[1] - 用户实测显示人物表情自然、表演到位,适用于广告、动画等多领域[1] - Vidu Q1多参考生视频功能可上传最多7张参考图像,实现角色一致性强、多元素同框和零分镜视频生成[4] - 清晰度升级至1080P,支持主体库存储角色素材,单条视频成本不到9毛钱[5] 二、开源大模型进展 - Hugging Face开源3B参数模型SmolLM3,性能超越Llama-3.2-3B和Qwen2.5-3B,支持128K上下文窗口及6种语言[2] - 模型采用双模式系统,用户可在深度思考和非思考模式间灵活切换[2] - 昆仑万维开源Skywork-R1V 3.0多模态模型,高考数学得142分,MMMU评测达76分,超越部分闭源模型[3] - 模型通过强化学习策略GRPO和关键熵驱动机制,仅用1.2万条监督样本和1.3万条强化学习样本实现高性能[3] 三、端侧与多模态模型 - vivo发布端侧多模态模型BlueLM-2.5-3B,支持GUI界面理解,在20余项评测中表现优异[6] - 模型支持长短思考模式自由切换,引入思考预算控制机制[6] - 采用精巧结构(ViT+Adapter+LLM)和四阶段预训练策略,缓解多模态模型文本能力遗忘问题[6] 四、AI系统突破 - X-Masters系统在"人类最后的考试"(HLE)上首次突破30分,达到32.1分,超越OpenAI和谷歌[7] - 系统基于DeepSeek-R1模型构建了工具增强推理智能体X-Master,能在内部推理和外部工具使用间流畅切换[7] - 采用分散-堆叠式多智能体工作流,通过求解器、批评者、重写器和选择器多角色协作[7] 五、行业并购与市场格局 - 智元机器人以21亿元收购科创板上市公司上纬新材控制权,预计收购63.62%-66.99%股份[8] - 2025年上半年Gemini系列模型占据大模型API市场近一半份额,谷歌以43.1%位居第一[9] - DeepSeek V3自发布以来用户留存率极高,位列使用量前五[9] - 细分领域呈现差异化竞争格局:Claude-Sonnet-4在编程领域领先(44.5%),GPT-4o在营销领域领先(32.5%)[9] 六、AI应用趋势 - 全球已有18亿AI用户,但付费率仅3%,学生使用率高达85%,家长群体成为AI重度用户[10] - AI主要应用于邮件撰写(19%)、研究兴趣主题(18%)和管理待办事项(18%)等日常场景[10] - 未来18-24个月AI将迎来六大趋势:垂直领域工具崛起、完整流程自动化、语音AI爆发等[10]