Imagine v0.9

搜索文档
腾讯研究院AI速递 20251010
腾讯研究院· 2025-10-10 00:01
生成式AI模型发布与进展 - 谷歌DeepMind发布Gemini 2 5 Computer Use模型 使AI能直接控制浏览器执行点击 滚动和输入等操作 在相关基准测试中性能达到SOTA水平 使用效率高于竞品 [1] - 马斯克旗下xAI推出视频生成模型Imagine v0 9并向所有用户免费开放 视频生成时间不到20秒 能生成6秒左右视频 支持语音优先界面 [2] - 蚂蚁集团发布并开源万亿参数通用语言大模型Ling-1T 总参数达1T但推理时仅激活约50B参数 在编程与数学推理基准测试中表现亮眼 LiveCodeBench得分最高 数学相关评测双双突破74分 [3] - 腾讯推出混元图像3 0 具备更丰富的细节和更细腻的画质 支持生成表情包组图 四格漫画 图文设计等多种创作风格 [4] - 以色列AI21 Labs开源30亿参数轻量推理模型Jamba Reasoning 3B 采用混合SSM-Transformer架构 支持256K上下文窗口 效率比竞品提升2-5倍 在M3 MacBook Pro上每秒生成40个token [5][6] 前沿科技与材料科学 - 2025年诺贝尔化学奖授予三位科学家 表彰他们在金属有机框架材料发展方面的贡献 该材料能从水中分离PFAS 捕获二氧化碳 从沙漠空气中采集水分 [7] 行业战略与愿景 - OpenAI的愿景是构建垂直整合AGI帝国 由个人AI订阅服务 超大规模基础设施和前沿研究实验室三大支柱构成 预测未来2年内AI将在科学发现领域扮演关键角色 [7] - 具身智能公司Figure获得10亿美元C轮融资 估值达390亿美元 专家指出部署能力是行业卡脖子环节 预计家庭场景大规模部署至少需7-12年 [8] 开发工具与资源 - 谷歌资深工程主管发布《智能体设计模式》一书 系统总结AI Agent开发领域的21个关键设计模式 全书400多页 提供详实代码示例 [9][11]
硬刚Sora 2,马斯克发视频大模型,免费可玩,前英伟达何宜晖参与
36氪· 2025-10-08 13:52
公司产品发布与定位 - xAI发布最新视频生成模型Imagine v0 9并免费向所有用户开放 [1] - 此次发布被视为对OpenAI一周前发布旗舰视频和音频生成模型Sora 2的直接回应 [1] - Imagine v0 9集成到Grok中 可根据文字生成图片再创建视频或将用户上传图片变成视频 [5] 产品性能与技术特点 - Imagine v0 9的视频生成时间不到20秒 用户可通过语音优先界面创建视频、图像和文本 [1] - 模型在视觉质量、动作、音频生成方面相比初代版本有所升级 [1] - 模型突破原生音频+视频生成界限 支持开箱即用创建类似电影效果的视频 [5] - 主要升级点包括运动控制使动作丝滑、支持添加动态相机效果如智能焦点转移、支持添加自然对话或生成表现力歌声 [5] - Imagine v0 9生成的视频时长在6秒左右 而Sora 2支持15秒视频生成 [3] 市场竞争与产品对比 - Imagine v0 9生成速度在20秒以内 Sora 2生成视频可能需要一两分钟 [3] - Imagine v0 9已免费开放 Sora 2采用邀请制允许部分用户使用 [3] - 对比测试显示Imagine v0 9存在提示词理解错误、视频画面与音频不符、无法说中文等情况 [3][6][7] - 在特定提示词测试中 Imagine v0 9生成的视频音频未包含关键元素如“喊叫” 或出现无视重力的动作 [6] 技术团队与人才动向 - 此次发布是马斯克今年7月挖走英伟达高级算法工程师何宜晖后 其在xAI参与的第一个项目 [3] - 何宜晖曾参与英伟达世界基础模型Cosmos研发 拥有卡内基梅隆大学计算机视觉硕士学位 [3] 产品可用性与潜在风险 - Imagine v0 9的Web端目前无法正常工作 移动端可体验但会出现连接失败情况 [4] - 模型的自定义语音功能允许用户上传公众人物照片及说话内容生成视频 技术成熟后可能带来深度伪造风险 [8] - 在测试中 该功能生成的声音与名人本人略有区别 且未提示深度伪造风险 [7]