Workflow
Modify Video
icon
搜索文档
谷歌发布Gemini2.5Pro模型,Cursor1.0正式发布
国盛证券· 2025-06-08 18:45
传媒 谷歌发布 Gemini 2.5 Pro 模型,Cursor 1.0 正式发布 证券研究报告 | 行业周报 gszqdatemark 2025 06 08 年 月 日 行情概览:本周(6.3-6.6)中信一级传媒板块上涨 2.52%。本周传媒板块 在游戏板块及 AI 主题带动下上涨。2025 年传媒弹性方向看好 AI 应用、IP 变 现及并购重组,AI 应用聚焦新应用的映射投资及部分较成熟应用的数据跟踪, 重点关注多模态产业方向。IP 变现聚焦有 IP 优势及全产业链潜力的公司,潮 流玩具、影视内容等方向有机会。并购重组重点关注国企方向,在国资委明 确国企市值考核的背景下,传媒国企诉求明显提升,部分国企资金优势明显。 板块观点与关注标的:1)资源整合预期:中视传媒、国新文化、广西广电、 唐德影视、吉视传媒、游族网络等;2)AI:荣信文化、奥飞娱乐、汤姆猫、 盛天网络、中文在线、易点天下、视觉中国、盛通股份、焦点科技、豆神教 育、世纪天鸿、佳发教育等;3)游戏:建议关注确定性强的神州泰岳、恺英 网络、巨人网络、吉比特,关注完美世界、ST 华通、冰川网络、华立科技;4) 国企:慈文传媒、皖新传媒、中文传媒、南 ...
腾讯研究院AI速递 20250606
腾讯研究院· 2025-06-05 23:26
ChatGPT更新 - 新增连接器功能,可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式,支持自动转录、提取关键点、带时间戳查询,首先向macOS的Team用户开放 [1] - 调整定价策略,为Enterprise和Team工作区增加信用点,现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具,可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放,支持Jupyter Notebook深度集成,提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息,一键安装MCP服务器,优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能,能在保留原视频动作和运镜的同时,完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作,可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术,仅需3-6个语音样本即可完美复制说话风格,并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token",实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务,未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本,推出Search MCP,实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义,Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强,并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架,集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务,并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL,在机器人控制任务上比现有模型提升50%成功率,构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息,且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径,提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类:Adobe产品、DAWs等专业软件处于高风险区,Blender、Unity位于中高风险区,Excel居中低风险区,VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式,世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统,认为技术已达临界点,如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人,将使AI不仅能"看懂"三维世界,还能"生成"并"操作"虚拟空间,为设计、创作与模拟实验开辟全新维度 [11]
抽象小视频秒变特效大片:原视频精髓不变角色环境任意换,Luma出品
量子位· 2025-06-05 16:32
AI视频模型Modify Video的核心功能 - AI视频模型Modify Video能重新"想象"任何视频,类似于人类拍个草稿,AI负责搞定各种后期视效 [9] - 能对角色、场景、动作进行精准控制,只编辑想编辑的元素,不会篡改本来的人物动作 [10] - 解决了当前AI视频生成模型不受控制、容易产生诡异动作的问题 [11] Modify Video的三大核心能力 - 视频动捕:自由提取全身、面部或口型动作,完美迁移到新角色上 [18] - 风格迁移:从白天到黑夜、公园到峡谷,各种风格都能变幻自如 [19] - 单个元素编辑:不用整个镜头更改,哪里不满意点哪里,细节处理更容易 [20] 技术优势与竞品对比 - 在姿势同步、口型同步和面部跟踪等高级性能信号上表现优异 [22] - 支持16:9(720p)格式分辨率,实现无缝集成 [22] - 在盲评中明显优于Runway V2V,画面一致性更高 [28] - 提供三种结构化预设选择:粘贴、弯曲和重构 [22] 公司背景与融资情况 - 由Amit Jain和Alex Yu联合创立,团队具有苹果AR/CV和伯克利3D计算机视觉背景 [32] - 公司成立于2021年,专注于计算机视觉领域 [35] - 2024年12月完成9000万美元融资,投资方包括亚马逊、AMD等 [35] - 此前已吸引a16z、英伟达等知名投资方 [36]