Workflow
图灵测试
icon
搜索文档
深度|Anthropic创始人:当机器通过经济图灵测试,就可以称之为变革性AI;MCP是一种民主化力量
Z Potentials· 2025-07-02 12:28
Claude 4的发布与亮点 - Claude 4在编码方面显著提升,能够避免目标偏离效应、过激响应倾向或奖励机制滥用,提高了专业软件工程的可维护性和可靠性 [5] - 新模型解锁了更具智能体性质、更长时间的任务,例如可以无人值守地运行许多小时完成大型代码重构 [7] - 在非编码用例中,Claude 4能够完成复杂的工作流,如将视频转换成PowerPoint,通过多步骤处理实现自动化 [7] - 模型采用成本优化策略,可以根据问题难度决定投入多少计算资源,例如使用Sonnet作为子智能体处理特定任务 [9] AI模型的未来架构演进 - 未来AI架构可能向模块化与专业化方向发展,类似人脑的模块化处理方式,由高层智能体统筹安排专门化的子智能体 [10] - 通过机制可解释性研究,发现模型内部存在专门负责特定功能的权重块,如共情响应、工具使用或图像分析 [10] - 未来可能发展出更复杂的架构,不再是均匀的Transformer主体模型,而是包含专门模块的混合架构 [10] Anthropic的模型开发策略 - 公司保持简单的模型区分策略,根据成本、性能的帕累托前沿来区分模型,未来可能增加更多模型但仍保持同一前沿标准 [12] - 在编程等关键应用领域,公司选择直接与用户建立关系,推出Claude Code产品以加速学习和改进 [13] - 编程能力被视为三重重要领域:受欢迎的客户应用场景、有价值的数据集、以及训练未来模型的重要工具 [14] AI弱监督学习实现自我改进 - 采用Constitutional AI方法,通过自然语言原则让模型自我批评和修改回应,帮助模型更好地嵌入原则 [21] - 在无法直接衡量正确性的领域,使用偏好模型汇总专家反馈,通过强化学习代表人类判断 [22] - 强调经验主义方法,通过与现实世界合作获取验证,如与生物医药公司合作缩短研究报告时间 [23] AI安全的多维挑战 - 安全研究关注从日常问题到严重危害的连续谱系,如从语言使用到生物安全风险 [26] - 采用Responsible Scaling Policy(RSP)确保随着模型智能化提升,部署时做好相应安全防范措施 [28] - 重点关注生物安全领域,因为制造生物危害所需资源相对较少,潜在风险更大 [29] 模型标准化协议与生态共建 - 推出Model Context Protocol(MCP),建立标准化方式获取更多信息和上下文进入模型,促进全生态系统集成 [35] - MCP作为一种民主化力量,允许任何服务提供商与模型进行标准化集成,无论规模大小 [37] - 支持远程MCP使非开发者也能受益,如Google Docs等服务可以通过MCP与Claude AI集成 [38]
人工智能至今仍不是现代科学,人们却热衷用四种做法来粉饰它
观察者网· 2025-05-21 08:09
图灵被尊为人工智能之父,原因在于在人们纠缠于如何定义或描述什么是人类的"思考"或所具有的"智 能"的时候,他"巧妙"地避开了这个问题。于1950年在一篇论文中他提出了一个"可操作"的判定机器是 否具有了与人一样的"思考"能力的测试方法,即著名的"图灵测试"。 有趣的是这篇《计算机器与智能》的论文并不是发表在科学类杂志上,而是刊登在心灵学会的季刊《心 灵(Mind)—心理学与哲学》上(A. Turing,"Computing Machinery and Intelligence",《Mind》,59 (236):第433-460页,1950)。 刊载图灵论文的期刊 图灵测试,简单地说就是让一个人(询问者)只通过键盘与显示器与在另外一个与其严格隔离的房间里 的"智能体"对话,这个"智能体"可能是一个人,也可能是一台机器。对话内容不限。如果经过一段时间 的对话,一台机器给出的回答让这个询问者无法确定它是人还是机器,则这台机器便被认为具有了与人 一样的"思考"能力,也就是智能。 图灵之并没有限制对话内容,因为我们无法确定智能的边界在哪里。 【文/谢耘】 "人工智能"一词是在1956年夏天在美国达特茅斯学院举行的一个研 ...
英伟达Jim Fan深度分享:揭秘具身智能路线与障碍
36氪· 2025-05-14 10:23
机器人技术发展现状与挑战 - 大语言模型已突破传统图灵测试,但机器人在物理世界的表现仍远未达到人类水平,数据是最大瓶颈 [1] - 机器人需要物理交互的真实数据,这些数据无法从网页抓取,只能靠人类手动采集,效率极低 [1][14] - 当前机器人面临"物理图灵测试"挑战,例如人形机器人动作笨拙、机器狗易滑倒、执行任务时混乱 [8][10] 仿真技术的突破性应用 - 在超高速仿真数字孪生中,机器人可在2小时内完成相当于现实世界10年的训练量 [17][24] - 仿真1.0采用数字孪生范式,矢量化物理引擎运行速度达每秒1万-100万帧 [28] - 通过域随机化技术(改变重力/摩擦/重量等参数),在1万个并行仿真环境中训练机器人 [20][22] 生成式AI驱动的仿真2.0革新 - RoboCasa平台中除机器人本体外,所有视觉元素由AI生成(3D资产/纹理/布局) [30][32] - 视频生成模型仅用1年实现传统图形学30年的进步,可模拟软体/流体等复杂交互 [42][43] - "数字表亲"仿真混合AI生成与传统图形管线,虽非1:1复刻但捕捉关键特征 [38] 世界模型与物理API的未来展望 - 仿真2.0结合视频扩散模型,实现"数字游民"在梦境空间的无限训练场景 [47][49] - 物理API将像大模型API操控数字信息一样操控物质变化,催生"物理App Store"经济 [54] - GR00T系列模型持续开源,推动视觉-语言-动作模型在工业/灵巧操作的应用 [51][53] 技术商业化路径 - 环境生成技术将场景数量扩展N倍,运动生成技术将演示数据扩展M倍 [34] - 米其林大厨可通过传授烹饪技艺给机器人实现服务规模化,形成技能经济 [54] - 最终目标为机器人融入环境智能,突破物理图灵测试临界点 [2][54]
腾讯研究院AI速递 20250512
腾讯研究院· 2025-05-11 22:17
生成式AI 一、 OpenAI强化微调终于上线,几十个样本可轻松打造AI专家 1. OpenAI正式发布RFT(强化微调)功能,通过思维链推理和专属评分机制,可用极少样本快 速提升模型在特定领域的专业表现; 2. RFT主要应用于三大场景:指令转代码、文本精华提取、复杂规则应用,已有ChipStack 等多家公司取得显著成效; 3. 实施RFT前必须创建评估体系,需要明确任务定义和强化评分方案,避免模棱两可的任务 目标。 https://mp.weixin.qq.com/s/c7RfeoWNwh3NZDeuTCXXLw 二、 Gemini 2.5实现视频理解重大突破:一口气处理6小时视频 1. Gemini 2.5 Pro突破视频处理长度限制,通过低媒体分辨率技术可处理长达6小时视频, 在多个学术基准测试中创下新纪录; 2. 实现视频内容与代码无缝结合,能将视频直接转化为交互式网页应用、p5.js动画等创新应 用形式; 3. 具备精准的视频片段检索和时序推理能力,可实现复杂场景计数、时间戳定位等高级分析 功能。 https://mp.weixin.qq.com/s/FkaOacVuVCS7wzny5l1jFQ ...
欧美机器人,急着进厂拧螺丝
虎嗅· 2025-05-10 08:10
人形机器人行业动态 - FigureAI提出"机器人制造机器人"的制造业终局目标 已设计出BotQ生产线 计划年产12000台Figure 3人形机器人 四年内扩产至10万台/年 同时生产300万个执行器 [1] - FigureAI正进行垂直整合硬件设计 公司估值达400亿美元 是上一轮融资的15倍 创始人Brett Adcock为连续创业者 上一家公司市值50亿美元 [3] - 挪威1X公司的家庭服务机器人Neo被曝依赖远程遥控 Wifi断开后无法运作 目前主要面向硅谷早期用户 计划进入100户家庭 存在隐私争议 [4] - Persona AI专注重工业领域 与HD现代集团合作测试船体焊接 公司CTO Jerry Pratt为MIT背景 曾获DARPA机器人挑战赛亚军 [6] - Apptronik的Apollo人形机器人在奔驰宝马工厂测试 负责部件搬运和质量检查 公司估值20亿美元 制造解决方案由Jabil提供 [8] - Agility机器人已在亚马逊GXO物流中心试训 连续工作28小时完成三项任务成功率98.96% 公司估值20亿美元 拥有自有工厂RoboFab [10] 科技巨头布局 - 亚马逊拥有超75万台物流机器人 新推出的Vulcan机器人具备触觉调节能力 目标替代80%人工操作 处理速度达300件/小时 [12] - 英伟达发布开源模型GR00T N1 适配多种机器人外形 专注于物料搬运等任务 与傅利叶G1机器人合作 [12] - Hugging Face收购Pollen Robotics获得Reachy 2人形机器人 从特斯拉Optimus团队挖角负责人Remi Cadene [12] - 谷歌投资Apptronik并开发具身智能模型 苹果秘密研发桌面机器人 [13] - ABB与BurgerBots合作开发非人形餐饮机器人系统 27秒完成汉堡制作 [14] 技术挑战与行业趋势 - 斯坦福大学研发家务机器人 加州大学发现基础动作如捡物品对人形机器人仍是挑战 [16][17] - 行业面临莫拉维克悖论 感知运动能力发展滞后于推理能力 英伟达提出"机器人图灵测试"标准 [19] - 当前发展路径存在争议 部分企业被质疑估值驱动而非技术突破 视频演示真实性受质疑 [3][19]
纳指彻底崩了5.9%,中概却红了
小熊跑的快· 2025-04-04 07:05
昨晚惊心动魄 美股暴跌 也没啥悬念了 所有跟进出口相关的硬件全完蛋了。 首当其冲的是苹果和台积电,一个跌了9.25%,一个7.63%。 不过还有奇的,中概基本不受影响,腾讯adr是红的,港股大跌的票,昨晚美股不仅没跌,还是红的居 然,美股可是全球资金定价的。 因为昨天欧洲区跌了3.8%。各群都在问,中概怎么这么硬? 可能还是跟这个交易台图有关,A股是全球唯一一个外资资金流入的地方。那个唯一的蓝色柱状图。毕 竟昨晚硬的发指的黄金都漏了。 但软件龙头微软只跌了2.3%,这个还是有点不懂,是反应gpt4.5过了图灵测试?还是认为软件不受影 响?它的云基础设施也要采购英伟达的h200,gb200呀,台湾是被加税非常严重的地区之一,有可能它 采购的来自墨西哥产的?竞争对手亚马逊暴跌9%,估计跌的电商采购受关税影响。 外资们为何独独摘 除了微软?估计还是认为软件股影响不大。 ...
gpt4.5 通过了图灵测试
小熊跑的快· 2025-04-03 07:47
关税影响 - 关税政策导致纳斯达克指数期货下跌 [1] AI技术进展 - AI通过图灵测试,技术成熟度显著提升 [1] - AI技术进步可能加速行业裁员进程 [1]