柏拉图的洞穴

搜索文档
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心· 2025-06-10 11:58
语言模型与视频模型的对比 - 语言模型通过预测下一个token学习到丰富知识,而视频模型通过下一帧预测学习效果有限,引发对两者差异的思考 [1] - 语言模型核心算法简单(预测下一个词+强化学习调优),却展现出强大认知能力,包括解决新问题和空间推理 [18][23] - 视频模型虽能生成逼真视频,但在复杂问题解决、深度推理方面远不如语言模型,尽管视频数据信息量远超文本 [21] 语言模型的本质与局限性 - 语言模型并非直接学习世界运作,而是通过分析人类在互联网上的文字输出(思维投影)进行逆向工程,间接复制人类认知过程 [26][28] - 语言模型如同被困在柏拉图洞穴中,只能观察人类智能投下的阴影(网络文本),无法直接体验真实世界 [33][34] - 语言模型擅长模仿人类认知技能,但在从真实世界经验中自主学习新技能方面薄弱,这正是人类智能的核心优势 [36] AI发展的方向性思考 - 当前AI研究方向可能存在基础性错误,过于关注回忆和解决数学问题,而非人类从经验中学习的方式 [10] - 未来AI研究的关键挑战是:既要借鉴语言模型成功经验,又要探索从物理经验中自主获取表征的方法,实现真正灵活的智能 [38] - 有研究提出无需配对数据即可跨向量空间转换文本嵌入的新方法,可能为AI发展提供新思路 [39] 人类智能与AI的差异 - 人类智能强大之处在于能从经验中快速学习、适应新环境并解决全新问题,而非记忆力或数学能力 [19] - 早期研究者曾猜想人类大脑可能使用单一"万能算法",这一猜想对AI研究极具吸引力 [16] - 数字计算机理论上应能实现大脑所有功能,但当前AI与人类智能的实现路径存在本质差异 [2][25]