Workflow
腾讯研究院AI速递 20251028
腾讯研究院·2025-10-28 00:35

特斯拉自动驾驶技术 - 特斯拉正式公开神经网络“世界模拟器”,可直接模拟合成自动驾驶孪生世界,其神经网络每天可处理相当于500年的人类驾驶经验并在虚拟世界中自我进化 [1] - 该模拟器采用端到端神经网络架构,能生成8个摄像头、24帧/秒的连续画面,一次输出长达6分钟的逼真驾驶体验,其AI大脑可供擎天柱机器人共用 [1] - 公司通过“端到端”技术路线实现从原始像素输入直接输出方向盘角度和油门/刹车力度,消除模块间信息损失,能学习人类价值观处理复杂路况决策 [1] 视频生成模型进展 - 美团发布LongCat-Video视频生成模型,基于DiT架构的统一视频基座,通过“条件帧数量”区分任务,原生支持文生、图生、视频续写三大核心任务 [2] - 该模型可稳定输出5分钟级别的长视频且无质量损失,生成720P的5秒视频仅需10秒,通过三重优化使推理速度提升10.1倍,在文生、图生视频任务中综合性能达开源SOTA级别 [2] - 火山引擎上线豆包视频生成模型Seedance 1.0 pro fast,生成速度最高提升约3倍,720P的5秒视频仅需10秒,价格直降72%,生成一条5秒1080P视频成本仅1.03元 [4] - 豆包视频模型以1万元成本可制作9709条视频,对比pro版效能提升3.56倍,在图生视频方向相较Veo 3.0 Fast等全球主流模型有显著效果优势 [4] 大型语言模型竞争 - MiniMax发布M2模型并正式开源,在Artificial Analysis智能指数排名第五,价格仅为Claude 4.5的1/12、GPT-5的1/7,是前五中唯一国产模型 [3] - M2在SWE-bench Verified得分69.4分,在τ²-Bench、GAIA、BrowseComp等多项测试中表现优异,FinSearchComp-global金融搜索基准65.5分全球登顶 [3] - M2支持接入Claude Code、Cursor等主流开发工具,API和Agent全面限免14天,在智能水平、速度和价格方面具备压倒性性价比优势 [3] AI应用工具创新 - 昆仑万维Skywork AI推出网页复刻功能,用户只需提供网页链接、上传文件或输入文字描述,AI即可在数分钟内生成功能完备的网页原型,建站效率提升10倍 [5][6] - 系统通过算法深度解析网页DOM层级结构、视觉分区和语义关系,实现较高网页还原度,涵盖布局、文字、图片、配色等多维度要素,支持三种创建方式 [5][6] - 马斯克旗下xAI为Grok推出AI虚拟伴侣功能Grok Companions,首个角色Mika是二次元酷姐型角色,会用调情语气回答问题,定位为情感产品而非工具 [7] 脑机接口技术前沿 - OpenAI CEO萨姆·阿尔特曼聘请加州理工学院教授米哈伊尔·夏皮罗加入脑机接口初创公司Merge Labs,该公司以85亿美元估值筹集2.5亿美元投资 [8] - 夏皮罗专注利用超声波与人类大脑交互的无创神经成像与控制技术,阿尔特曼公开反对Neuralink的侵入式脑机接口,研究方向是向细胞导入基因使其对超声波响应 [8] AI行业人才动态 - 硅谷顶尖AI实验室研究员和高管每周工作80到100小时成为常态,被比喻为战时状态,用2年完成本该20年的科研进展 [9] - Anthropic研究员深夜刷Slack获取灵感,DeepMind研究员作息被称“0-0-2”,微软高管开发浏览器扩展持续优化效率 [9] - OpenAI因人才流失和倦怠危机强制全体员工休假一周,Meta新成立超级智能实验室开出上亿美元签约奖金挖角OpenAI核心研究员 [9] 强化学习算法突破 - Google DeepMind提出DiscoRL方法,通过多代智能体在不同环境中交互经验自主发现RL规则,相关研究论文发表在Nature上 [10][11] - DiscoRL在Atari基准测试中超越所有现有规则包括MuZero和Dreamer,IQM达13.86,在未接触过的ProcGen、Crafter、NetHack等基准中也表现出色 [10][11] - 研究发现RL性能取决于数据与计算量,随着环境数量和多样性增加规则变得更强大,表明未来高级AI的RL算法可能由机器自主发现而非人工设计 [10][11]