图灵测试
搜索文档
Nature重磅:图灵测试已死,AI已具备人类水平智能,这一天终于来了
虎嗅APP· 2026-02-04 22:07
以下文章来源于不懂经 ,作者不懂经也叔的Rust 不懂经 . 《主权个人》:未来会活得很爽的有三种人,一是技术精英,二是各行业头部,三是有资本及良好判断 力的人。本号专注后面两种。 本文来自微信公众号: 不懂经 ,作者:不懂经也叔的Rust 别再争论AI什么时候能赶上人类了。顶刊《Nature》刚刚发文宣布:不用等了,就是现在。 如果说1950年阿兰·图灵(Alan Turing)提出的"模仿游戏"只是一个天才的脑洞,那么75年后的今 天,这个脑洞已经被硅基生物彻底填平。 今天,一篇发表在《Nature》上的重磅文章引爆了科技圈。这就好比《皇帝的新衣》里那个诚实的小 孩,来自加州大学圣地亚哥分校等机构的顶级哲学家、认知科学家和计算机专家们联名站出来,指着 那个名为"通用人工智能(AGI)"的房间大声宣布: "别找了,AGI就在这儿。它已经诞生了。" 曾几何时,嘲笑AI是我们的一大乐事:"它连小学数学都算不对"、"它就是个只会概率预测的随机鹦 鹉(Stochastic Parrots)"、"它经常一本正经地胡说八道(幻觉)"。 但在这个2026年的开端,如果你还抱着这些老黄历看AI,那你可能已经成了那个"活在旧 ...
Nature重磅:图灵预言的AGI早已实现,人类却不敢承认
36氪· 2026-02-04 21:20
文章核心观点 - 加州大学圣迭戈分校研究团队在《自然》杂志发表评论文章,宣称通用人工智能已经实现,当前的大语言模型已展现出符合人类平均水平的广域智能 [1][6][7] - 研究团队认为,AGI的定义应是具备多领域广度及足够深度的能力,而非完美或全能,当前AI的能力已满足此标准,但76%的顶尖AI研究人员仍持怀疑态度 [12][13] - 文章指出,人类对AGI的集体否认源于定义模糊、恐惧被取代以及商业利益交织的“有毒组合”,并系统驳斥了关于AI能力的十大常见异议 [13][35] AGI已至的证据与能力表现 - 大语言模型在图灵测试中表现优异:GPT-4.5-PERSONA在Prolific平台测试中胜率达75.5%,在本科生测试中胜率达69.2% [11] - AI在多个专业领域达到专家水平:包括在国际数学奥林匹克竞赛中获奖、协助证明定理、构思可验证的科学假说、通过博士水平考试、编写零错误代码以及创作高水平诗篇 [12] - 当前LLM的能力广度已超越科幻作品《2001太空漫游》中的HAL 9000计算机,并正悄然迈向能做出革命性发现的“超人类水平” [27][29] 对AGI定义的重新审视与常见异议驳斥 - AGI无需完美或全能:通用智能意味着在数学、语言、科学、创造力等多领域具备广度及足够深度,人类亦非全知全能 [13][14] - 驳斥“随机鹦鹉”论:AI已能解决未发表的数学问题、进行跨领域知识迁移,其从数据中提取结构的能力与人类智能的基础可能并无本质不同 [35][40][41] - 驳斥“缺乏身体故无智能”论:以斯蒂芬·霍金为例,智力与认知有关,与物理形态或运动能力无关,人类在评估智能时对AI使用了基于机制的双重标准 [35][37][38] 历史背景与认知革命 - 此次AGI的实现被喻为继哥白尼日心说、达尔文进化论之后,第三次颠覆人类中心观的认知革命 [8][45] - 文章引用哲学家Hubert Dreyfus在1965年的比喻,指出过去认为实现人类级AI如同“爬树登月”,但现在看来“树已经够高,月亮其实也没那么远” [5][43][44] - 图灵在1950年预言的智能机器已经到来,其样貌既“人类”又“怪异”,这迫使人类重新思考自身在智能谱系中的位置 [45][46][47][48]
2026春节,是人类史上最大的图灵测试
36氪· 2026-01-28 19:02
行业核心观点 - 2026年春节成为国内AI应用竞争的关键节点,各大科技公司通过红包补贴、社交裂变等方式争夺用户,本质是一场惨烈的“桌面淘汰赛”,其结果可能决定未来三年的行业格局[5][12][16] 腾讯的战略与元宝 - 腾讯在2026年春节释放“重现微信红包盛况”的信号,通过内部项目“元宝派”和10亿现金补贴,试图利用微信/QQ的社交关系链催熟其AI产品[5] - 公司采用“大力出奇迹”战法,旨在通过高频的社交场景带动低频的AI问答需求渗透,解决C端AI应用“留存难、获客贵”的行业痛点[6][7] - 腾讯的战略极具定力,其核心是依托社交生态优势:利用群聊场景实现低成本获客与高效裂变,并将AI从“低频工具”转化为社交中的“高频伴随者”,而非强行改造微信、QQ的核心功能[7][9] 字节跳动的策略与豆包 - 字节跳动的核心策略是“防守反击”,其AI应用“豆包”虽然在日活上领跑,但公司的真正护城河在于“Kill Time”的生态能力[10] - 字节已将AI能力彻底原子化,并深度参与春节超级流量池的竞争,其深层恐惧在于用户可能养成在微信内使用AI的习惯,导致抖音退化为单纯的娱乐管道[10] - 公司在春节的投入力度不逊于腾讯,正用算法与现金的双重手段将用户锁定在自身生态内[11] 百度与阿里的处境 - 百度文心一言陷入“腹背受敌”的困境,在流量根基上不及腾讯、字节,在技术口碑上也被其他家追赶,春节期间的跟进措施可能杯水车薪[13] - 阿里“通义千问”在B端(钉钉、阿里云)稳扎稳打,但在C端春节大战中选择“战略性避战”,专注于深耕B端工作流以构筑产业级AI壁垒[13] - 在春节这个全民注意力峰值节点缺席,意味着被边缘化的风险,但千问在接入淘宝、飞猪后,可能在年货季有后续动作[15] 春节竞争的本质与影响 - 春节七天是一场“桌面淘汰赛”,目标是在用户手机首屏固定APP,拿到未来三年的行业船票,而被淘汰的产品可能在2026年的行业寒冬中退场[12] - 信息流广告的获客成本已突破临界点,此时“发红包”反而成了“降本增效”的选择,巨头投入的十亿、二十亿资金本质是为降低综合获客成本向流量市场缴纳的“生存税”[12] - 战役的真正胜负手在于节后复工第一天的日活留存率,而非春节期间的下载量,这将检验AI应用是成为真正的生产力工具还是领完钱就卸载的电子玩具[16] - 这场竞争可能敲定2026年中国AI版图的座次,但在真正的通用人工智能到来之前,巨量现金与流量可能无法强行催熟一个技术周期[16]
AI如何才能通过“终极考验”?让它重走人类来时的路
观察者网· 2026-01-20 09:08
文章核心观点 - 上海财经大学王献华教授提出名为“Nigiro Challenge”的测试方案,旨在通过一项“社会性虚拟造字测试”来评估通用人工智能是否真正拥有智能 [1][4][17] - 该方案认为,如果人工智能体能够在模拟的社会互动中,像人类发明文字一样,重新发明、创新并系统化构建一套可外化的文字体系来记录其文明,则意味着其拥有了可与人类相比的智能水平 [1][17][18] - 该观点源于对人类文字(特别是楔形文字)起源的逆向思考,将人工智能理解语言的过程视为一种“逆向工程”,并试图以此回应关于AI是否真正理解意义的哲学性质疑 [4][11][14][17] 人类文字起源与智能发展的关联 - 楔形文字的起源与三种前文字现象密切相关:陶筹(Token,用于计数和记录交易,公元前8000年已出现)、印章(用于确认归属和保证交易,公元前7000纪已使用)以及早期的数学计数系统 [4][6][8] - 文字的形成和发展与社会复杂性的增长密切相关,约在公元前3500年至公元前3000年间,楔形文字在行政管理和社会管理压力增大的背景下应运而生,从纯数字泥板发展到“数字+表意符号” [8][10] - 文字的出现被视为人类集体智能的结晶,完成了从具象计数到抽象符号的跨越,其发明能力与人类作为集体的发展相关联 [10][11] 人工智能理解语言的路径与挑战 - 现代大语言模型处理语言的核心步骤是词元化,其发展经历了从“词级”到“字符级”,再到主流的“子词”词元化的过程,以在词汇表规模和语义捕捉间取得平衡 [11][12] - Transformer架构是关键模型,它基于自注意力机制,可并行处理整个文本序列并捕捉长距离词语关系,这被认为是GPT等大模型能生成连贯文本的关键 [12] - 人工智能面临“符号接地问题”的根本性质疑,即纯粹的符号系统内部操作是否能赋予符号真正的指称和意义,还是仅仅在统计符号间的共现关系 [14] - 有观点认为,真正的人工智能应通过“具身交互”学习,即通过感知、行动与世界互动来获得理解,以解决符号接地问题 [14] 对现有智能测试的反思与新方案的提出 - 经典的“图灵测试”被反思为可能更像一面镜子,反映的是提问者的水平而非机器本身的智能,因此其作为智能检验标准受到质疑 [15][17] - “Nigiro Challenge”旨在提供一种超越图灵测试的、具有“终极”意义的测试方案,其名称“Nigiro”是“Origin”的反写,象征着对人类智能的逆向探索 [4][17] - 该测试聚焦于人工智能的“社会性”,要求智能体在模拟社会环境中互动并发明文字,这呼应了人类智能在社会环境中逐渐发展的历史观 [17] - 该方案提出,如果一个智能体社会能够独立发明文字系统,或许可以被接纳为人类社会的“合格成员”,因为文字的发明是人类文明有形的结晶 [17][18]
如何判断AI拥有能和人类相比的智能水平?王献华提出Nigiro Challenge
新浪财经· 2026-01-18 12:04
文章核心观点 - 上海财经大学王献华教授提出了一个名为“Nigiro Challenge”的新测试方案,旨在检验人工智能是否真正具有智能,其核心是测试人工智能体社会能否在互动中独立发明出自己的文字系统 [1][3] 对现有图灵测试的反思 - 王献华教授指出,当前许多人工智能系统声称通过图灵测试,但图灵测试本身可能存在问题 [1] - 有学者反思认为,图灵测试更像一面镜子(“Gnirut”测试),其反映的是提问者自身的水平而非机器的智能,提问者的问题质量直接决定了AI回答的质量 [1] Nigiro Challenge测试方案详解 - “Nigiro”是“Origin”(起源)的反写,象征着对人类智能起源的逆向探索 [1] - 该测试方案的具体内容为“社会性虚拟造字测试”,即检验人工智能体社会能否在与其他智能体的社会互动中,逐步发明出它们自己的文字系统 [3] - 王献华教授认为,如果一群智能机器人能独立发明一个文字系统,那么它们应该被视为拥有类似人类的智能,并可被接纳为人类社会的“合格成员” [3] 人类智能与文字发明的关联 - 人类的智能是在社会环境中逐渐发展起来的,文字的发明是一个关键例证 [2] - 一个社会能够独立发明文字,虽非人类拥有文明的唯一标志,但确实是人类文明有形的结晶 [3]
如何判断AI智能水平?图灵测试有问题,中国学者提出新方法
观察者网· 2026-01-18 11:24
文章核心观点 - 上海财经大学王献华教授提出名为“Nigiro Challenge”的新测试方案,旨在检验人工智能是否真正具有智能,其核心是考察人工智能体社会能否在互动中独立发明文字系统,这被视为对人类智能起源的逆向探索 [1][3] 对图灵测试的反思与批评 - 当前不少人工智能系统试图或声称通过图灵测试,导致图灵测试本身的有效性受到质疑 [1] - 有学者批评图灵测试实为“Gnirut”测试,其像一面镜子,仅能反映提问者的水平,而非真正检验机器智能 [1] Nigiro Challenge测试方案详解 - Nigiro是“Origin”的反写,象征对人类智能的逆向探索,该测试被提出者认为可能具有“真正终极意义” [1] - 测试内容为“社会性虚拟造字测试”,即考察人工智能体社会能否在与其他智能体的社会互动中,一步步发明出他们自己的文字系统 [3] - 从文字发明角度,如果一群智能机器人能独立发明文字系统,或许应被接纳为人类社会的“合格成员”,因为独立发明文字是人类文明有形的结晶 [3] 人类智能与文字发明的关联 - 人类的智能是在社会环境中逐渐发展起来的,文字的发明就是一个关键例证 [2]
豆包一声声“OK”把罗永浩搞破防,不就是大型现场直播版图灵测试
量子位· 2026-01-01 10:13
事件概述 - 罗永浩在年度科技创新分享大会上,与字节跳动旗下AI产品“豆包”就“锤子手机是否好用”这一辩题展开了一场公开的实时语音辩论[3][5] - 这场持续四个多小时的直播活动因该场“人机舌战”而火爆出圈,被网友称为“老罗科技春晚上最搞笑名场面”[3][8] 辩论过程与AI表现分析 - 豆包在辩论中展现了**零延迟响应**能力,能够快速接招与出招[13] - AI具备**情绪承接和控制能力**,能根据对话氛围调整声调与对抗性,例如在反驳时带上“生气”色彩[13] - 豆包展示了**多轮长上下文理解能力**,能精准记住并回溯历史论点(如“品控”问题),不被对方带偏话题[14][28] - AI能够**深度遵循复杂指令**,例如按要求在语句中穿插“OK”,并在被指出问题后立即调整[17][20][22] - 豆包的论点基于**大量用户反馈和评测数据**,在被追问时能脱口而出具体评测来源(如ZEALER)[23] - AI在辩论中**多次试图将跑偏的话题引回核心辩题**,展现了强大的逻辑主线维持能力[28] - 豆包自身澄清其表现**并非拥有真正情绪**,而是根据用户的话调整表达[26] 豆包AI的技术能力解读 - 支撑其表现的是背后的**豆包端到端实时语音模型**,该模型经过多轮迭代优化[30] - 技术提升主要体现在五个维度:**多轮长上下文理解能力显著增强**、**智商情商拟人表现大幅提升**、**指令遵循的深度和稳定性进一步提升**、**更好的情绪承接和控制能力**、**更极致低延迟**[32] - 该模型版本即将在**火山引擎上线API**,意味着其能力将开放给更广泛的开发者[31] - 豆包APP已上线**“一辩高下”** 同款功能,用户可通过“打电话-选择情景-一辩高下”路径体验[31] 行业意义与趋势判断 - 该事件标志着**实时交互式AI的能力已抵达可进入实战应用的关键阶段**[34] - AI交互模式正从过去的 **“指令-响应”工具**(功能映射),演进为展现 **“意图-理解-博弈-共识”认知对齐能力**的“对话型伙伴”[35][36] - 评估AI能力的方式需要更新,**实验室基准测试已不够用**,真正的考验来自于复杂的现实场景与开放式“压力测试”[37] - 这种能力的突破将开启更多实际应用场景,例如处理复杂投诉的客服、作为教育对话伙伴、理解模糊意图的个人助理等[38] - 这场辩论可被视为**一次“大型现场直播版图灵测试”**,AI在复杂实时思维博弈领域展现了匹配甚至超越人类交互深度与逻辑韧性的潜力[38]
中文屋提出者逝世,曾当众“调戏”Hinton被记了半辈子
36氪· 2025-11-30 14:10
约翰·塞尔生平与影响 - 哲学家约翰·塞尔于2024年9月16日去世,享年93岁[1] - 塞尔于1932年生于美国丹佛,19岁获罗德奖学金转入牛津大学,师从约翰·奥斯汀,1959年加入加州大学伯克利分校并任教长达六十年[17][18][19] - 其以犀利直言著称,一生不断与主流理论对抗,与丹尼尔·丹尼特、德里达等人的争论是二十世纪后半叶哲学史上的标志性场景[20][21] - 2017年因多起性骚扰指控被伯克利撤销荣誉教授头衔,其命名的“塞尔中心”关闭,去世后主流媒体讣告报道姗姗来迟[27][28][29][30] “中文屋”思想实验 - 塞尔于1980年提出“中文屋”思想实验,被视为人工智能哲学史上的经典命题,与“图灵测试”并列[3] - 实验设想一个不懂中文的人凭借英语规则书处理中文问题,论证程序只能模仿智能的语法形式,无法获得真正的语义理解,从而反驳强人工智能主张[35][36][38] - 该实验质疑图灵测试的有效性,认为机器行为上的“智能”表现不等于真正理解,强调理解需要建立符号与对象间的语义联系[38][39][40] - 该思想实验影响持续至今,常被用来比喻GPT等大型语言模型只是在“模拟理解”而非“拥有理解”[41][42] 学术分歧与争议 - 塞尔在70年代一场电视录制中“戏耍”了年轻的杰弗里·辛顿,令后者耿耿于怀半个世纪,节目开场便打破不谈“中文屋”的约定并对辛顿进行哲学拷问[3][5][6][7][8][9] - 学术根源上,辛顿代表的连接主义主张心智是分布式网络,而塞尔将人工智能一概视为“符号操作系统”,未区分符号主义与连接主义,导致辩论框架不对称[12] - 在意识问题上,塞尔主张心智经验源自大脑功能,是神经放电的产物,否定模糊的“精神”概念[24][25] - 在与后现代主义者的对立中,塞尔坚称从一个角度看事物并不意味着看不到真实本身[26] 对“中文屋”的批评与AI“理解”的再思考 - 玛格丽特·博登指出争论焦点应从“是否理解”转向“理解如何生成”,即为了能够作出理解,机器必须能够做到哪些事情[44] - 约翰·麦卡锡批评塞尔混淆了执行计算的人的心理特质和被计算模拟的过程,认为“中文屋系统”作为一个整体可能理解中文,正如单个神经元不懂语言但大脑能懂[44] - 史蒂文·平克认为塞尔只是在讨论“理解”一词的用法,未触及可观测的科学问题[45] - 杰弗里·辛顿认为大型语言模型确实以模拟人类认知的方式“理解”语言,通过为单词分配特征并分析特征间的相互作用来实现,这是对大脑语言处理最接近的模拟[47][48] “中文屋”选择中文的原因 - 塞尔解释选择中文是因为它是一种他完全不会的语言,便于假定存在一个“理解中文”的程序[50] - 网友解释可能反映了西方文化刻板印象,英语谚语“It's all Chinese to me”意为“完全听不懂”[52] - 拉丁字母语言间有词形或语源可猜,而中文独立的文字系统彻底切断了这种可能,使“不可理解”更为彻底,增强了思想实验的隐喻张力[52]
中文屋提出者逝世,曾当众“调戏”Hinton被记了半辈子
量子位· 2025-11-30 13:09
约翰·塞尔的哲学遗产与人工智能哲学 - 约翰·塞尔于2024年9月16日去世,享年93岁,其提出的"中文屋"思想实验被视为人工智能哲学史上的经典命题,与图灵测试并列[1][3][4] - "中文屋"实验于1980年提出,核心观点是机器只能模拟智能的形式(语法层面),但无法真正理解语义,质疑强人工智能的可行性[49][52][54] - 该实验直接影响当代对GPT等大型语言模型的讨论,引发"模拟理解"与"生成理解"的争议,至今仍是AI哲学的核心议题[5][57][59] 中文屋思想实验的学术分歧 - 塞尔将人工智能一概视为"符号操作系统",未区分符号主义与连接主义,这与杰弗里·辛顿的并行分布式处理(PDP)理论形成直接对立[19][20][21] - 中文屋实验强调理解需依赖符号与对象的语义联系,而计算机仅操作形式符号,缺乏意义把握[52][55][56] - 反对者如约翰·麦卡锡认为塞尔混淆了执行计算的人与计算模拟的过程,指出系统整体可能具备理解能力,如同神经元不懂语言但大脑能理解[60][61] 塞尔与学术界的争议事件 - 20世纪70年代电视录制中,塞尔打破与辛顿的约定,公开讨论中文屋实验,导致辛顿称其为"极其痛苦的经历"[6][7][11][12] - 塞尔以犀利直言著称,曾评价哲学工作"像谋杀",并与丹尼特、德里达等学者激烈争论,形成哲学史标志性场景[34][35][38] - 2017年因性骚扰指控被加州大学伯克利分校撤销荣誉教授头衔,相关中心关闭,晚年争议影响其公众形象[41][42][46] 中文屋的隐喻选择与文化背景 - 塞尔选择中文作为实验语言,因其完全不懂中文,且中文独立的文字系统切断了与其他语言的词形关联,强化"可操作但不可理解"的隐喻[67][72][73] - 英语俗语"It's all Chinese to me"反映西方文化中对中文"难理解"的刻板印象,增强了实验的张力[69][70][71] - 实验设计看似随意,实则通过语言隔阂凸显语法与语义的分离,成为哲学史上最具影响力的思想实验之一[68][74] 当代AI技术对中文屋的回应 - 辛顿认为大型语言模型通过为单词分配特征并分析特征互动,实现了对人类认知的模拟,本质是一种理解形式[64][65] - 争论焦点从"机器能否理解"转向"理解如何生成",如玛格丽特·博登指出需关注"理解所需的条件",而非二元判断[59][60] - 费曼名言"What I cannot create, I do not understand"暗示通过构造与模拟可能重新定义理解,为AI发展提供新路径[66]
浙大房汉廷:“无AI 无上市” 中国如何走出自身“AI+”路径?
新浪证券· 2025-11-29 09:59
AI对资本市场的核心作用 - AI将成为资本市场发展的核心引擎,贯穿上市筛选、合规审核到全面投资决策等所有环节[1] - 未来资本市场将由AI公司和使用AI的公司共同组成,交易所及服务机构必须是AI使用者,“无AI无上市”[4][5] - AI将从“对话交互”进化到“决策行动”,目前人类决策在ChatGPT、DeepSeek等AI模型面前已显滞后性与粗糙性[1][10] AI解决传统资本市场痛点 - 解决信息处理效率问题:传统资本市场依赖人工与规则驱动,对非结构化高频数据处理困难[6] - 改善决策模式偏差:过去金融机构以经验驱动存在认知偏差,无法有效挖掘数据信息[6] - 克服监管滞后性:传统监管方式难以实现实时预警和主动合规,多为事后查办[6] - AI能自动起草、验证并审核披露文件,且“不会撒谎”,避免人类主观道德风险[7] AI在金融机构的应用价值 - 量化效益显著:传统准备一份资本市场表格需180小时,成本5万至100万美元,AI可节省90%时间并大幅降本[7] - AI作为投行券商“深度助手”而非“简单工具”,在某些方面可能成为投行代理人[7] - “AI投行+”模式通过自动化处理材料审核、数据核验等基础工作,在精准度上超越传统人力模式[8] AI监管生态变革 - 监管从“瞭望塔”变为“自动驾驶舱”,从事后监管走向早期介入和前期监管[9] - 香港证监会市场侦测模型在测试中发现二三十个早期盲点,体现监管价值[9] - 中关村科金公司与券商打造的证券业垂直大模型可实现多点检测,节省人力物力,提升精确度[9] - AI驱动合规大模型使金融机构从“被动接受监管”转向“主动合规”[9] 金融AI+未来发展方向 - 金融智能体从“对话式交互”进化为“决策式行动”,逐步承接更复杂金融任务[10] - AI多模态应用解决跨境监管协同问题,打破信息处理边界与地域限制[10] - 通过隐私计算技术实现“数据可用但不可见”,打通数据壁垒同时保护隐私[11] - 治理体系采取“边施工边建设”适中路径,不同于美国更开放模式或欧盟更谨慎态度[11] 中国AI产业发展优势 - 2024年中国AI核心产业规模突破7000亿元,年复合增长率超20%,预计2025年产业规模突破8000亿元[4] - AI应用层占比从2023年35%升至2025年52%,成为最大增长点[4] - 资本市场政策向AI倾斜,科创板、创业板、北交所IPO规则允许AI企业缩短持续经营时间要求从两年减至一年[4] - 中国以大量产业场景、消费场景为AI技术提供天然试验场,应用公司可通过场景反馈推动技术迭代[14][15] - DeepSeek从聚焦量化交易的AI应用企业成功实现从“技术应用”到“技术创造”的跨越[14]