谷歌Veo 3

搜索文档
对话快手可灵丨AI 新世界加载中,我们还能做些什么?
雪豹财经社· 2025-07-02 10:22
无情的迭代机器 作者 丨高珮莙 远古猎人王涵因为一次雷电患上了"马丁症",每隔24小时,他的意识就会穿越到不同人的身体里。 为了找回和保护女儿,他在两 千年 的时间里不断穿越,当过将军、富翁、宇航员,却始终无法停 留。 一只被基因改造的流浪狗"李",在霓虹闪烁的都市孤独地生存,始终无法走出过去被背叛的噩梦。 直到遇到一位同样是实验体的小女孩,收获了爱与温情,并为了她勇敢地对抗邪恶组织。 这些充满科幻和奇幻色彩的故事,来自6月25日在北京举行首映礼的AI单元故事集《新世界加载 中》,由7个各自独立的剧集故事组成,时长共180分钟。 雪豹财经社在首映礼当天观看了其中三部剧集。以看惯了大银幕和爆款剧的挑剔眼光来看,它当然 并非无可挑剔:一些非关键人物的动作稍显僵硬,对口型的准确性有待提升,部分情节的逻辑略显 跳跃,以及片长限制导致的背景和情感铺垫不够完整。 但如果考虑到这部短片集的核心"创作者"——可灵AI,是一个正式发布才一年的"孩子",它在某些 方面的表现的确可圈可点,甚至堪称惊艳。 《新世界加载中》的片名,显然就是这样一个有意而为之的巧妙双关。"《新世界加载中》是我们和 可灵发出的第一声信号。"陈翔宇说。 比 ...
腾讯研究院AI速递 20250610
腾讯研究院· 2025-06-09 22:06
生成式AI 一、 ChatGPT 4o低调更新,现在它也会先思考,再去联网搜索 1. ChatGPT 4o现在在回答复杂问题前会先停顿几秒"思考",页面显示"Thought for a few seconds",然后再决定搜索或直接回答; 2. 这种"先理解后搜索"的能力提高了回答准确性,但用户需要等待更长时间,移动端触发率 更高; 3. OpenAI未官宣此功能,但已将这种思考能力扩展到GPT-4.1和GPT-4.5等非推理模型 中。 https://mp.weixin.qq.com/s/ZxkMFmjp6dYRaf6EyVgp4A 二、 谷歌Veo 3 Fast版价格暴降5倍,360°关键词解锁3D效果 1. 谷歌Veo 3模型新增"360°"关键词功能,能生成3D环绕效果视频,但在物理真实性上仍有 缺陷; 2. 推出Veo 3-Fast版本,支持文生视频和自动生成配音,速度更快且价格降低80%; 3. Fast版本生成8秒720P视频仅需20 credits(比标准版便宜5倍),但面部细节和光照效果 略有下降。 https://mp.weixin.qq.com/s/Vw9C6MHOT43yqVl6tsw ...
产业观察:【AI产业跟踪】智源BGE向量模型全面登顶SOTA,谷歌Veo 3首次实现音画同步
国泰海通证券· 2025-05-29 23:12
报告行业投资评级 未提及 报告的核心观点 报告对AI产业最新趋势进行跟踪,涵盖行业动态、应用资讯、大模型资讯、科技前沿等方面,展示AI领域的新进展和突破 根据相关目录分别进行总结 1. AI行业动态 - Lovart创始人认为AI图像产品经历三阶段,其产品设计遵循特定理念,重视设计师而非产品经理 [12] - Gartner发布企业构建智能应用五项基本原则,指出GenAI将推动企业软件转变 [13] - OpenAI以近65亿美元收购前苹果首席设计官团队,io预计2026年发布新AI设备 [14] - 微软Build 2025大会宣告进入AI智能体时代,多个项目升级或开源 [15] - AI笔记产品Granola以2.5亿美元估值完成B轮融资,未来将发展为综合工作平台 [16] 2. AI应用资讯 2.1 国内资讯 - 腾讯混元Image2.0实现毫秒级图像生成,支持多种功能和双画布联动 [17][19] - Manus推出图像生成功能,可提供一站式服务,但复杂任务运行速度较慢 [20] - 腾讯发布新版QQ浏览器,集成OBot功能,提供多种办公功能 [21] - B站开源动画生成模型AniSora,支持多种风格视频生成和高效分布式训练 [22] - GenSpark发布全球首个AI下载代理工具,配套推出智能云盘 [23] - 字节推出语音播客模型,支持多种功能,将在多个产品上线 [24] - 昆仑万维发布天工超级智能体,集成多个智能体,成本较低且已开源 [25] 2.2 海外资讯 - OpenAI推出新版AI编程工具Codex,向付费用户开放 [26][28] - Google推出LightLab项目,可实现单张图像精确光源控制 [29] - Supermemory发布新API,可突破大模型Token限制 [30] - 苹果发布AI生3D模型并推动Siri转型 [31] - 谷歌发布AI编程助手Jules,Gartner预测未来多数新应用开发将用AI辅助编程 [32] - Google NotebookLM推出APP,主打文档转播客功能 [33] - 谷歌Veo 3实现音画同步生成功能,面向美国Ultra订阅用户开放 [34] - 微软推出首个大规模大气基础模型Aurora,表现优异且可扩展应用 [35] - 谷歌发布Flow AI剪辑工具,支持多种视频生成方式 [37] - Google发布首款轻量级智能眼镜产品Project Aura [38] - 英伟达开展新研究项目DreamGen,在多种机器人上验证效果显著 [39] - FaceAge研究登上「柳叶刀」杂志,可评估癌症患者治疗预后 [40] - OpenAI的Responses API新增MCP服务支持,优化多项功能 [41] - 微软开源Web Agent项目,支持自动浏览网页等操作 [42] - xAI推出Live Search API,为Grok AI提供实时数据访问能力 [43] 3. AI大模型资讯 3.1 国内资讯 - 智源研究院发布三款向量模型,全部开源并在多个基准测试中登顶 [45] - 腾讯混元模型矩阵全面升级,多模态领域表现提升并承诺持续开源 [46] 3.2 海外资讯 - Wind - surf发布自研AI软件工程模型系列SWE - 1,转型自研AI模型 [47] - 谷歌推出文本「扩散模型」Gemini Diffusion,速度快且性能好 [48] - Mistral开源语言模型Devstral,在基准测试中表现优秀且可商用 [49] 4. 科技前沿 - 全球机器人视触融合挑战赛中国团队包揽三金,推动算法进步 [50] - 微软企业级AI科研平台200小时发现新型环保冷却剂,降低科研门槛 [52] - UC伯克利5千美元造全开源人形机器人,支持灵活定制 [53] - OpenAI计划在阿布扎比建设大规模AI数据中心 [54] - NVIDIA推出新一代Grace Blackwell GB300系统,发布相关计划和平台 [55] - 华为异腾新推出两个新产品,在模型推理性能上超越英伟达 [56] - Google自研TPU进军AI市场,成本低且可能影响企业选择 [57]
AI视频生成告别默剧时代!谷歌Veo 3一步生成高质量音画大片,rap、电影、动画片都拿捏
量子位· 2025-05-21 14:31
不仅可以拿捏各种影视风格—— 请看VCR (花式演绎"We can talk!") 。 一水 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌最强视频生成模型Veo 3鲨疯了! 这一次,从画面到对白,全都由AI原生直接生成。 还能搞定大段rap—— 视频中的Flow只需简单一句话就能搞定,比如"让老人谈论宇宙"。 从画面到口型再到音频,完全以假乱真了。 还在发布会现场,谷歌DeepMind CEO哈萨比斯就激动宣布: 我们终于走出了无声视频生成的时代。现在用户能用自然语言直接描述角色、场景,还能指定对白和语气。 而通过官方demo,我们也看到了Veo 3电影级的音视频能力: 目前Veo 3已在Gemini应用程序中面向Google AI Ultra订阅用户开放,企业用户可以在Vertex AI平台调用。 虽然距离发布会结束才几小时,但一大波网友试玩已新鲜出炉—— 说唱、洗脑神曲、烹饪节目花式整活 一上来,脑洞大开的网友们就开始搞起了抽象…… 提示词:a video with dialogue of two muffins while baking in an over, the first muffin ...