Workflow
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位·2025-06-10 15:35

闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少? 这是UC伯克利大学计算机副教授 Sergey Levine 最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。 "柏拉图洞穴"是一个很古老的哲学比喻,通常被用来说明人们对世界认知的局限性。 在文章的开头,作者提到人工智能就是在研究能够反映人类智能的灵活性和适应性的假想智能。 一些研究者推测,人类心智的复杂性和灵活性源自于大脑中应用的一个 单一算法 ,通过这个算法可以实现所有多样化的能力。 也就是说,AI如果能复现这个终极算法,人工智能就能通过经验自主获取多元能力,达到人类智能的高度。 在这个探索过程中,语言模型取得了非常成功的突破。 甚至,LLMs实现能力跃升背后的算法( 下一词预测+强化学习微调 ),也非常简单。 单一终极算法 假设似乎就是AI模型的答案…… 然而,这个假设对视频模型并不适用。 语言模型与视频模型的对比 Serge ...