腾讯研究院AI速递 20251028

特斯拉自动驾驶技术 - 特斯拉正式公开神经网络“世界模拟器”，可直接模拟合成自动驾驶孪生世界，其神经网络每天可处理相当于500年的人类驾驶经验并在虚拟世界中自我进化 [1] - 该模拟器采用端到端神经网络架构，能生成8个摄像头、24帧/秒的连续画面，一次输出长达6分钟的逼真驾驶体验，其AI大脑可供擎天柱机器人共用 [1] - 公司通过“端到端”技术路线实现从原始像素输入直接输出方向盘角度和油门/刹车力度，消除模块间信息损失，能学习人类价值观处理复杂路况决策 [1] 视频生成模型进展 - 美团发布LongCat-Video视频生成模型，基于DiT架构的统一视频基座，通过“条件帧数量”区分任务，原生支持文生、图生、视频续写三大核心任务 [2] - 该模型可稳定输出5分钟级别的长视频且无质量损失，生成720P的5秒视频仅需10秒，通过三重优化使推理速度提升10.1倍，在文生、图生视频任务中综合性能达开源SOTA级别 [2] - 火山引擎上线豆包视频生成模型Seedance 1.0 pro fast，生成速度最高提升约3倍，720P的5秒视频仅需10秒，价格直降72%，生成一条5秒1080P视频成本仅1.03元 [4] - 豆包视频模型以1万元成本可制作9709条视频，对比pro版效能提升3.56倍，在图生视频方向相较Veo 3.0 Fast等全球主流模型有显著效果优势 [4] 大型语言模型竞争 - MiniMax发布M2模型并正式开源，在Artificial Analysis智能指数排名第五，价格仅为Claude 4.5的1/12、GPT-5的1/7，是前五中唯一国产模型 [3] - M2在SWE-bench Verified得分69.4分，在τ²-Bench、GAIA、BrowseComp等多项测试中表现优异，FinSearchComp-global金融搜索基准65.5分全球登顶 [3] - M2支持接入Claude Code、Cursor等主流开发工具，API和Agent全面限免14天，在智能水平、速度和价格方面具备压倒性性价比优势 [3] AI应用工具创新 - 昆仑万维Skywork AI推出网页复刻功能，用户只需提供网页链接、上传文件或输入文字描述，AI即可在数分钟内生成功能完备的网页原型，建站效率提升10倍 [5][6] - 系统通过算法深度解析网页DOM层级结构、视觉分区和语义关系，实现较高网页还原度，涵盖布局、文字、图片、配色等多维度要素，支持三种创建方式 [5][6] - 马斯克旗下xAI为Grok推出AI虚拟伴侣功能Grok Companions，首个角色Mika是二次元酷姐型角色，会用调情语气回答问题，定位为情感产品而非工具 [7] 脑机接口技术前沿 - OpenAI CEO萨姆·阿尔特曼聘请加州理工学院教授米哈伊尔·夏皮罗加入脑机接口初创公司Merge Labs，该公司以85亿美元估值筹集2.5亿美元投资 [8] - 夏皮罗专注利用超声波与人类大脑交互的无创神经成像与控制技术，阿尔特曼公开反对Neuralink的侵入式脑机接口，研究方向是向细胞导入基因使其对超声波响应 [8] AI行业人才动态 - 硅谷顶尖AI实验室研究员和高管每周工作80到100小时成为常态，被比喻为战时状态，用2年完成本该20年的科研进展 [9] - Anthropic研究员深夜刷Slack获取灵感，DeepMind研究员作息被称“0-0-2”，微软高管开发浏览器扩展持续优化效率 [9] - OpenAI因人才流失和倦怠危机强制全体员工休假一周，Meta新成立超级智能实验室开出上亿美元签约奖金挖角OpenAI核心研究员 [9] 强化学习算法突破 - Google DeepMind提出DiscoRL方法，通过多代智能体在不同环境中交互经验自主发现RL规则，相关研究论文发表在Nature上 [10][11] - DiscoRL在Atari基准测试中超越所有现有规则包括MuZero和Dreamer，IQM达13.86，在未接触过的ProcGen、Crafter、NetHack等基准中也表现出色 [10][11] - 研究发现RL性能取决于数据与计算量，随着环境数量和多样性增加规则变得更强大，表明未来高级AI的RL算法可能由机器自主发现而非人工设计 [10][11]