腾讯研究院AI速递 20251106

生成式AI与太空计算 - 谷歌宣布Project Suncatcher计划，将于2027年初发射两颗搭载Trillium代TPU的原型卫星，利用太阳能驱动AI计算 [1] - 该计划构想由太阳能卫星星座通过光通信链路相连，太空太阳能效率比地球高8倍且几乎可持续发电 [1] - Trillium TPU已通过辐射测试可承受5年任务周期，预计到2030年代中期卫星发射成本可降至每千克200美元 [1] AI Agent效率优化 - Anthropic发布基于MCP的"代码执行"新范式，让模型编写代码调用工具，将Token消耗从15万降至2000，效率提升98.7% [2] - 新范式采用按需加载工具定义和数据本地流转设计，解决工具定义过载和中间结果消耗两大效率瓶颈 [2] - 该方案带来渐进式披露、上下文高效、强大控制流、隐私保护和状态持久化五大核心优势 [2] 多模态模型与图像编辑 - 兔展智能&北大推出UniWorld-V2图像编辑模型，在GEdit-Bench和ImgEdit基准测试中取得SOTA，综合表现超越OpenAI的GPT-Image-1 [3] - 模型基于首创的UniWorld-R1强化学习框架，采用多模态大语言模型作为免训练奖励模型，实现精准中文字体渲染和精细化空间可控 [3] - UniWorld-R1框架具有极强通用性，应用于其他基础模型时同样带来显著性能提升 [3] 产品集成与用户体验 - QQ浏览器电脑端推出"AI+"小窗功能，以无感悬浮小窗形式集成14种AI工具，从网页总结到订阅下载均可在小窗内完成 [4] - 新版本升级极简框架合并菜单与个人中心，地址栏右侧搜索框支持常驻或隐藏，提供更多自定义操作选项 [4] - 基于精准意图识别，"AI+"小窗能主动推荐可使用的AI功能，包括智能标签整理、AI翻译、订阅助理等多种生产力工具 [4] 地理空间AI应用 - 谷歌升级Earth AI，发布遥感、人口动力学和环境三大基础模型，并推出Gemini驱动的地理空间推理智能体 [5] - 遥感基础模型在文本图像检索任务提升超16%，零样本检测精度达基准线两倍，人口动力学模型覆盖17个国家提供按月更新的人类活动嵌入 [5] - 地理空间推理智能体在问答基准测试中准确率达0.82，显著优于Gemini基线，已为20亿人提供洪水预警服务 [6] 具身智能与机器人 - 小鹏发布第二代VLA大模型和全新IRON人形机器人，VLA模型实现视觉到车辆控制指令的端到端映射，接管里程提升13倍 [7] - IRON机器人拥有82个自由度和22个手部自由度，搭载3颗图灵AI芯片总算力达2250TOPS，为当前人形机器人最高水平 [7] - 小鹏计划2026年推出三款Robotaxi车型启动试运营，总算力3000TOPS，同时推出面向消费者的L4智驾版本 [7] 通用具身基础模型 - Generalist推出具身基础模型GEN-0，参数量达10B+，在27万小时真实世界操作数据上训练，数据量超现有最大机器人数据集数个数量级 [8] - GEN-0首创"和谐推理"训练方法，在异步连续时间的感知和行动token流之间建立和谐相互作用，实现跨机体部署能力 [8] - 研究发现7B参数出现"相变"现象，模型展现强大Scaling Law，证明具身智能可预测扩展 [8] 智能导航技术 - 银河通用联合多高校推出全球首个跨本体全域环视导航基座大模型NavFoM，统一不同导航任务 [9] - 模型训练数据包含800万条跨任务跨本体导航数据和400万条开放问答数据，通过TVI Tokens和BATS策略实现时空理解和实时响应 [9] - 基于NavFoM发布TrackVLA++、UrbanVLA和MM-Nav三个应用模型，构建从室内到城市的完整具身智能导航体系 [9] 创业与组织管理 - ElevenLabs现有350人分为20个产品小队，每个5-10人完全自治，6个月内必须完成PMF，成功继续否则解散 [10] - 公司砍掉Slack访问权强制注意力集中，让团队专注自己的6个月任务，避免信息过载导致的注意力分散 [10] - 提成规则明确落后于公司战略，禁止向竞品出售技术写入政策，销售行为符合长期利益可取消交易但业绩照算 [10]