腾讯研究院AI速递 20250606

ChatGPT更新 - 新增连接器功能，可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式，支持自动转录、提取关键点、带时间戳查询，首先向macOS的Team用户开放 [1] - 调整定价策略，为Enterprise和Team工作区增加信用点，现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具，可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放，支持Jupyter Notebook深度集成，提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息，一键安装MCP服务器，优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能，能在保留原视频动作和运镜的同时，完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作，可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术，仅需3-6个语音样本即可完美复制说话风格，并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token"，实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务，未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本，推出Search MCP，实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义，Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强，并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架，集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务，并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL，在机器人控制任务上比现有模型提升50%成功率，构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息，且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径，提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类：Adobe产品、DAWs等专业软件处于高风险区，Blender、Unity位于中高风险区，Excel居中低风险区，VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式，世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统，认为技术已达临界点，如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人，将使AI不仅能"看懂"三维世界，还能"生成"并"操作"虚拟空间，为设计、创作与模拟实验开辟全新维度 [11]