谷歌开源Gemma 3 270M - 谷歌发布轻量级模型Gemma 3 270M,参数规模2.7亿(嵌入参数1.7亿,Transformer模块1亿),下载体积仅241MB [1] - 模型在Pixel 9 Pro手机上25次对话仅耗电0.75%,INT4量化后适配资源受限设备 [1] - IFEval基准测试表现超越Qwen 2.5同级模型,下载量突破两亿次,支持任务微调 [1] Meta开源DINOv3视觉模型 - DINOv3采用自监督学习,在密集预测任务中超越弱监督模型,参数规模达70亿,训练数据17亿张图像 [2] - 创新技术包括Gram Anchoring策略和旋转位置编码(RoPE),提供ViT-B/ViT-L等系列模型 [2] - 商业许可开源,已应用于卫星图像分析和环境监测领域 [2] 腾讯混元3D世界模型Lite版 - 显存需求降至17GB以下,消费级显卡可运行,显存占用减少35% [3] - 动态FP8量化和SageAttention技术使推理速度提升3倍,精度损失小于1% [3] - 支持单文本/图片输入生成可漫游3D世界,可导出Mesh文件接入游戏引擎 [3] 昆仑万维音乐模型Mureka V7.5 - 一周内发布六款模型覆盖视频生成、AI音乐等热点领域 [4] - Mureka V7.5优化ASR技术提升中文歌曲音色与咬字,超越国外顶尖音乐模型 [4] - 同期推出MoE-TTS框架,通过自然语言控制语音特征,开源条件下超越闭源产品 [4] GPT-5编程提示技巧 - 指令需避免冲突与含糊,过分强硬措辞可能适得其反 [5] - 复杂任务用高推理力度,类XML语法可结构化规则 [6] - 零到一任务需先规划评判标准,控制Agent工具预算与查找节奏 [6] 人形机器人运动会 - 首日赛事包括1500米长跑(宇树机器人夺冠)、5V5足球等,蓝队1号球员完成3次进球 [7] - 现场解说聚焦AI技术,出现机器人集体摔倒等"鬼畜"场面 [7] DeepMind Genie 3世界模型 - 结合Veo 2和Genie 2,每秒生成24帧720p画面,支持单文本创建互动世界 [8] - 具备1分钟视觉记忆能力,物理规律表现随数据规模提升 [8] - 被视为AGI重要路径,可解决机器人训练数据瓶颈 [8] OpenAI战略动向 - 计划斥资数万亿建设数据中心,暗示未来AI可能担任CEO [9] - 与Jony Ive合作开发AI硬件,承认人类创作内容价值将上升 [9] - 认为当前AI泡沫类似互联网泡沫,但技术革命影响占比将达10%-20% [9] AGI发展观点 - AGI定义细化多维能力集合,评测基准需转向应用价值评估 [10] - 模型已在IMO/ICPC等竞赛展现推理能力,编程教育需结合AI辅助 [10][11] Agent市场展望 - AI市场将分基础模型、工具链、应用型Agent三赛道,后者机会最大 [12] - Agent将重构生产力曲线,未来按业务成果定价,长尾型公司大量涌现 [12]
腾讯研究院AI速递 20250818
腾讯研究院·2025-08-18 00:01