Workflow
腾讯研究院AI速递 20250903

谷歌Gemini技术升级 - 谷歌Gemini API全面上线URL Context功能 支持深度访问和处理网页 PDF 图像等内容 采用两步检索流程 可解析PDF表格 文本结构 脚注等 处理容量上限达34MB 单次请求最多处理20个URL [1] - 该功能无需提取 分块 矢量化和存储等繁琐流程 直接解析50页PDF并精准提取数据 被评价为RAG的又一颗棺材钉 [1] 腾讯混元世界模型进展 - 腾讯发布混元3D世界模型HunyuanWorld-Voyager 是业界首个支持原生3D重建的超长漫游世界模型 能生成长距离 世界一致的漫游场景 支持视频直接导出为3D格式 [2] - 该模型在斯坦福大学WorldScore基准测试中位居综合能力首位 支持视频场景重建 3D物体纹理生成等多种应用 [2] Runway融资与业务拓展 - 视觉生成AI公司Runway获英伟达 谷歌和General Atlantic等投资者超5亿美元融资 估值达30亿美元 正式跨界机器人领域 [3] - Runway的AI世界模型可为机器人和自动驾驶汽车公司提供训练模拟 实现高效 低成本的虚拟测试环境 相比真实场景训练 用户能更精细地控制特定变量测试 [3] 腾讯优图开源智能体框架 - 腾讯优图实验室开源Youtu-Agent智能体框架 具备开源友好 成本低 灵活架构和自动智能体生成等特点 [4] - 该框架在WebWalkerQA基准上使用DeepSeek-V3.1达到71.47%准确率刷新开源效果SOTA 在GAIA文本子集达到72.8% 无需充值闭源模型 [4] - 框架采用DITA原则 提供四个典型应用案例 本地文件管理 数据分析 论文分析和广域综述 支持一键生成配置和启动测试 [4] AI游戏与模拟应用 - flowith团队发布基于多模态画布和Nano Banana技术的AI人生模拟器flolife.me 玩家可捏造角色后由AI接管整个人生模拟 [5] - 游戏流程包括输入角色名字 性别 出生地并分配属性 设置人格描述 系统自动生成完整人生线和分支选项 还能生成高光瞬间制作分享海报 [6] - 香港科技大学Aivilization小镇项目可创建自定义AI人物 设置MBTI性格与目标 在虚拟小镇生活成长 但评价体系单一 以金钱排名为唯一衡量标准 [7] - 顶尖玩家通过挖矿积累初始资金 升级房子后制造芯片 实现每天67680金币的被动收入 远超读书 休闲等生活方式的收益 [7] 智谱AI模型性能突破 - 智谱开源的GLM-4.5在伯克利工具调用排行榜上超越Claude Opus 4.1 运行相同任务的成本仅为对手的1.4% [8] - 该模型使用MoE架构 在CC-Bench评测体系中表现强劲 尤其在任务完成效果和工具调用可靠性方面 推理速度比Opus 4.1快3倍 比GPT-5快5倍 [8] - GLM-4.5已接入Claude Code Cline Gemini CLI等多款主流编程工具 价格仅为Claude的1/7 [8] 脑机接口技术突破 - 加州大学洛杉矶分校团队开发AI辅助非侵入性脑机接口系统 让瘫痪受试者在移动计算机光标任务中的表现提升近4倍 [9] - 系统采用AI副驾驶模式 人类专注决策 AI完成预测和辅助修正 能推断用户目标并实时辅助执行 [9] - 瘫痪参与者使用AI副驾驶系统可将光标控制接入时间从4.15秒减至0.05秒 机械臂任务正确放置率从0提高至93% [9] 特斯拉战略规划 - 马斯克发布《宏伟蓝图4》 宣布特斯拉未来80%价值将来自机器人Optimus 核心在于将AI引入真实物理世界 [10] - 蓝图4阐述五大核心原则 增长是无限的 创新消除限制 技术解决实际问题 自动化必须造福全人类 更广普及带来更大增长 [10] - 与前三次蓝图相比 蓝图4更加注重AI作为核心驱动力 汽车被视为机器人生态中的特例 一个特定场景下的轮式机器人 [11] AI教育应用现状 - 美国千人高校调查显示 85%学生在学习中使用AI 主要用于头脑风暴55% 问答50%和考试备考46% 而非单纯偷懒 [12] - 97%学生认为院校应积极应对AI带来的学术诚信挑战 但不支持使用AI检测软件21%或限制技术使用18% 而是希望学校提供AI合理使用教育53% [12] - 55%使用AI的学生认为AI对学习能力和批判性思维好坏参半 23%学生认为AI提升了高等教育价值 仅18%表示更质疑大学价值 [12]