Workflow
通用智能
icon
搜索文档
LeCun怒揭机器人最大骗局,坦白Llama与我无瓜
36氪· 2025-10-26 17:22
人形机器人行业现状与挑战 - 行业面临从特定任务训练到通用智能的鸿沟,家用机器人实现叠衣服、倒水等任务仍需AI领域取得一系列突破[1] - 行业秘密在于公司尚不知晓如何让机器人变得足够聪明以达到实用级别[21] - 人形机器人拥有40个自由度,可能产生的位姿组合数量超过宇宙原子总数,该问题无法通过编程解决,唯一途径是神经网络[25] 技术路径分歧:世界模型与LLM - Meta首席AI科学家Yann LeCun认为突破核心在于打造可规划的世界模型架构,以学习理解和预测物理世界系统[1] - LeCun指出大语言模型是一条死胡同,仅靠文本训练无法实现人类水平智能,智能源于视觉、听觉、触觉等多模态经验[15] - 四岁儿童通过视觉接收的数据量已相当于所有公开文本训练的最大规模LLM的数据量[15] - LeCun预测未来3-5年内,世界模型会成为AI架构的主流模型,届时头脑清醒的人都不会再用生成式LLM的路子[20] 主要公司动态与战略 - **特斯拉**:公司内部对于如何快速实现通用人形机器人已有非常明确的思路[1];正建设年产百万台Optimus机器人的生产线,目标2026年初推出具备量产意向的V3原型机[26];其神经世界模拟器能够基于当前状态与后续动作直接合成未来状态,该架构将无缝迁移至Optimus机器人[28][31] - **Figure AI**:公司CEO宣称明年就能实现通过语音指令让人形机器人在陌生环境完成各类通用工作[23];强调其机器人所有操作都由神经网络驱动,否认某些公开演示仅为戏剧表演或预设程序[25] - **1X Technologies**:公司发布自研世界模型,该模型允许从相同初始条件出发并行部署不同策略进行直接对比[35][37];公司CEO坦言让机器人进入家庭存在理想与现实的落差,现实环境复杂得离谱[37] 世界模型技术架构 - 世界模型定义为给到时刻t的世界状态及智能体可能动作,以预测动作执行后的环境[16] - 系统配备世界模型后可进行规划,设想连续动作并预测结果,结合代价函数评估任务完成情况,运用优化方法搜索最优动作序列[18] - 环境动力学模型完全通过自监督学习,机器人无需针对特定任务反复训练,能从模拟数据或真实操作中学习动作-结果关系,零样本完成新任务[18][19] - 1X世界模型包含视觉编码器、动作编码器、核心网络及视频与状态价值解码器,通过对成功标签进行监督学习生成的状态价值预测可量化评估输入动作质量[35]
从被吹捧到沦为鸡肋,“AI”这个词用了还不到一年
36氪· 2025-10-17 19:56
文章核心观点 - 当前AI行业的发展状况与历史上两次AI寒冬前的情景高度相似,存在技术泡沫、市场脱节及商业模型不可持续等问题,第三次AI寒冬可能正在来临 [1][4][6][7] 历史上的AI寒冬 - 第一次AI寒冬发生在1974-1980年,因计算机内存和处理能力有限,难以处理复杂实际问题,且早期AI系统无法有效利用人类常识和领域知识,导致政府大幅削减资金支持,AI研究陷入低谷 [2] - 第二次AI寒冬发生在1987-1993年,以专家系统为代表的AI因知识库有限、维护成本高且无法自动学习而失去商业价值,同时昂贵的专用AI硬件市场被性价比更高的台式计算机取代,导致AI硬件市场崩溃和投资撤离 [3] 当前AI行业面临的挑战 - 大模型训练成本高昂,存在严重幻觉问题,难以在企业垂直场景中落地应用,投入产出比极低 [5] - 许多AI产品开发脱离用户真实需求,功能与实际需求脱节,导致产品无人使用或被迅速淘汰 [5] - 企业数字化基础薄弱、业务流程不规范、数据孤岛严重等问题,阻碍了AI技术的有效落地 [6] - 资本市场缺乏耐心,一旦AI项目回报周期拉长便迅速撤资,转向其他风口 [6] 潜在第三次AI寒冬的成因 - 技术能力与社会预期之间存在巨大鸿沟,对通用智能概念盲目乐观 [4] - AI产品与现实市场需求脱节,缺乏可持续的商业发展模式和核心技术壁垒 [6] - AI公司普遍无法提供端到端的一体化解决方案,仅能提供单一功能模块 [6] - 企业和资本急于看到立竿见影的回报,不愿为AI技术的长期演进买单 [7]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]
北极光创投林路:从AI教育看AI创业
创业邦· 2025-09-15 18:11
AI与移动互联网时代的差异 - AI时代大模型公司追求通用智能而非单一垂直应用 与移动互联网时代操作系统厂商难以颠覆应用市场形成鲜明对比[2] - 大模型公司采用"模型即应用"战略 模型能快速扩展能力到任意领域并以更高维度直接竞争[2] - 大模型公司单位经济(UE)不理想 驱动其向周边场景渗透延伸能力寻找变现路径[2] 初创公司防御策略 - 行业know-how足够复杂难以被通用模型复制是抵御大模型渗透的关键[3] - 长期积累的用户数据能持续优化产品体验形成竞争壁垒[3] - 教育行业因know-how复杂性和数据积累特性成为抵御渗透的典型赛道[3] 教育行业核心know-how - 学习动机问题需要通过游戏化设计解决 如心流曲线设计保证挑战与能力平衡[5] - 教材设计需要精细编排 单词和句子结构呈现需循序渐进控制难度递增[8] - 正向反馈机制需要科学节奏安排与行为触发 而非简单语言赞美[9] - 传统教育公司通过数十年修订打磨形成教学体系 AI难以短期复制[8] 大模型在文科与理科的应用差异 - 大模型在理科领域仍会犯基础错误 如分不清3.11和3.8大小[13] - 大模型在文科领域表现突出 特别是在语言处理方面已超越人类水平[13] - 大模型能轻松完成新闻分级改写等传统需大量教研资源的工作[16] AI语言教育的突破点 - 大模型能提供个性化语言学习体验 如生成多样化例句展示词汇不同用法[22] - 结合配图与动画 AI能显著提升语言学习效率[23] - 系统能持续追踪学习轨迹 准确掌握知识点盲点构建个性化学习画像[23] - 大模型能模拟真实场景对话 解决"学会了却不会用"的核心痛点[26] AI对教育行业服务模式的变革 - AI能替代部分标准化服务工作 如通过学习数据提供个性化学习规划[32] - 基于用户行为数据 AI能给出专业学习建议建立信任关系减少销售干预[32] - 理想状态下教育公司只需保留教研和技术团队 其他服务由AI完成[34] 行业创业投资启示 - 深入具体行业探索AI实际改变比在大模型上修补更重要[36] - 行业know-how是基础大模型难以跨越的壁垒[36] - 找到比过去更好解决用户核心问题的方式是关键成功因素[36]
非夕科技高云帆:真正的通用智能依赖具身化与仿人化的深度融合
新浪科技· 2025-09-11 15:56
公司动态 - 非夕科技在外滩大会展区展示了两大创新应用:蛋雕演示和机器人按摩与数据采集演示 [1][2] - 公司副总裁高云帆发表主题演讲,阐述“仿人化”是机器人迈向通用化的关键路径 [1] 行业观点与技术路径 - 行业观点认为“仿人化”是通用智能发展的必经之路,通过模仿人类感知、动作与认知方式,推动机器人从单一任务能力走向跨场景通用能力 [1] - 实现真正的通用智能需要算法突破与具身化、仿人化的深度融合 [1] - 自适应机器人拂晓Rizon在蛋雕演示中展示了灵敏的力觉感知和先进的力控能力,能实时调整参数对生鸡蛋表面进行雕刻并随时切换图案 [1] - 在机器人按摩演示中,系统可精准采集指柔、指拨、掌揉等专业按摩手法数据,实现人类技艺向机器现实的无缝迁移,为模型训练和智能复现提供数据基础 [2] 战略展望 - 公司希望通过展示与交流,让更多行业伙伴看到通用机器人在未来产业与社会中的广阔前景 [1]
24小时高温行走直播后 智元机器人全系开售 卖这个价
南方都市报· 2025-08-18 23:48
技术突破与产品验证 - 远征A2人形机器人完成24小时高温户外自主行走挑战,实测气温37℃、地表温度61℃,创下全球首次人形机器人高温户外极限挑战纪录[1] - 机器人通过7种路面材质、12类障碍测试,验证其在昼夜温差(22℃-37℃)、强光逆光等复杂环境下的全自主能力[2] - 搭载多模态感知系统、大模型融合算法和20秒热插拔换电技术,单台累计行走超3000小时,通过8台机器60小时压力测试和120小时连续行走测试[2] - 采用"正向设计"工程思维,通过T1/T2版迭代优化,标配预留算力与传感器冗余,为算法迭代留空间[3] 商业化布局与产品矩阵 - 六大产品线同步登陆智元商城与京东商城,价格覆盖9 8万至45万元区间,包括远征A2系列、灵犀X2系列、精灵G1等[3] - 远征A2旗舰版配备百万级企业知识库和多语言对话能力,青春版定价16 8万瞄准文娱商演市场[5] - 灵犀X2系列覆盖情感交互需求,青春版支持30余种微表情,探索版开放二次开发权限,旗舰版具备自主导航导览功能[5] - 四足机器人D1系列细分市场:D1 Pro主打3 7m/s奔跑速度的商演租赁,D1 Edu定位教育科研,D1 Ultra以2kW/kg功率密度服务工业检测[5] 行业拐点与战略路径 - 公司采用"由易至难"策略,中标中国移动订单,将远征A2应用于企业大厅接待,未来拓展至文娱商演、康养陪伴场景[6] - 商业化优先选择ROI明确的商业服务场景(如品牌宣传),工业场景聚焦核心需求,当前机器人能力达人类60%-70%,目标年底接近100%[8] - 行业国产化率超95%,技术迭代依赖算法、传感器、硬件协同进步,2025年或成人形机器人"实用化元年"[8] - 行业逻辑从"技术参数极致"转向"场景适配精度",需满足降本增效、危险替代、体验升级三大需求[8] 行业发展趋势 - 人形机器人实用化落地关键从实验室转向真实世界,需应对高温、颠簸、突发状况等复杂条件[9] - 通用智能的核心是泛化性,需在仓库移位、宠物干扰等多元场景中灵活应对[7] - 行业从"概念热炒"进入"实干期",标志性事件包括24小时直播验证和线上开售[1][8]
破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
机器之心· 2025-08-14 09:26
腾讯混元AI数字人团队RLVMR框架研究 核心观点 - 提出RLVMR框架解决长程智能体存在的低效探索和泛化脆弱难题,通过奖励"思考过程"而非仅结果,实现端到端强化学习[4][6][26] - 7B模型在ALFWorld和ScienceWorld的L2任务中成功率高达83.6%,超越GPT-40等SOTA模型[11][12] - 智能体动作效率提升28.1%,训练收敛速度更快[13][14] 技术突破 - **元推理状态机制**:要求智能体行动前标记认知阶段(规划/探索/反思),使思考过程可追踪[7][15] - **可验证过程奖励**:轻量级验证规则实时评估思考质量,杜绝"瞎蒙"行为[8][15] - **双阶段训练**:冷启动SFT学习基础推理概念+强化学习RL内化能力,形成成长曲线[22][23][25] 实验数据 - **成功率对比**: - ALFWorld L2:RLVMR 83.6% vs GPT-40 68.8% vs DeepSeek-V3 53.9% [12] - ScienceWorld L2:RLVMR 32.2% vs GPT-40 41.0% vs GiGPO 25.8% [12] - **效率提升**: - ALFWorld L2动作数从28.9降至15.4(降幅46.7%)[14] - ScienceWorld L1动作数从27.9降至18.8(降幅32.6%)[14] 认知科学应用 - **反思机制**:使智能体主动识别问题而非盲目重试,重复动作率显著降低[18][19] - **元问题解决框架**:建立跨任务的通用思维方法论(规划-探索-反思),L2任务表现提升56.3%[20][21] - **过程奖励必要性**:移除元推理奖励(AMC)导致ALFWorld L2性能下降45.3%→12.5%[23] 行业意义 - 实现从结果导向到过程导向的范式革新,推动AGI向可解释、鲁棒性方向发展[26][27] - 验证"思维模式强化"路径的有效性,为构建具备真正推理能力的智能体提供方法论[21][26]
蛋白质基座的GPT时代来了?!
量子位· 2025-08-10 12:11
蛋白质基座模型AMix-1的核心突破 - 首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling系统化方法论构建蛋白质基座模型,实现从BERT时代到GPT时代的跨越[1][2] - 模型具备通用智能特性,能自主学习并设计新蛋白质,最优变体蛋白质活性提升50倍[3][4][6] - 模型权重、代码和技术细节已全部开源,支撑虚拟生物实验室的蛋白质生成与进化[7][44][46] 四大技术超能力 - **Scaling Law**:通过多尺度模型组合(800万至17亿参数)精确拟合性能与计算量的幂律关系,资源投入与性能提升可预测[13][15][16] - **Emergent Ability**:训练过程中涌现"结构感知能力",自动理解蛋白质折叠方式与空间结构,实现从序列识别到结构理解的质变[18][19][21] - **In-Context Learning**:无需微调即可通过示例推理蛋白质规律,生成结构与功能一致的新蛋白(如高温酶设计)[23][24][27][29] - **Test-time Scaling**:通过EvoAMix-1算法实现验证预算增加时的持续优化,设计酶活性迭代提升[31][32][35][41] 实验验证与行业影响 - 湿实验验证显示,AmeR转录调控因子变体DNA结合活性提升50倍,超越现有方法77%[40] - 虚拟生物实验室实现全自动化蛋白质设计闭环,大幅降低传统试错成本[43][46] - 技术范式革新推动蛋白质设计从任务专用转向通用智能,类比NLP领域ChatGPT的突破[9][10][12]
爆冷,首届大模型争霸,Grok 4下出“神之一手”?DeepSeek、Kimi惨遭淘汰
36氪· 2025-08-07 09:16
赛事概况 - 谷歌旗下Kaggle平台举办首届全球AI国际象棋争霸赛 旨在通过游戏竞技评估通用大模型智能水平[1][3] - 参赛模型包括8款顶级语言模型:闭源阵营为Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash 开源阵营为DeepSeek R1和Kimi K2 Instruct[1] - 比赛采用单败淘汰制 首日进行8进4淘汰赛 胜者以4-0全胜战绩晋级半决赛[2] 首轮赛果 - OpenAI o4-mini以4-0击败DeepSeek R1 后者在脱离开局模板后出现瞄准不存在棋子、防守无威胁空格等严重认知错误[11][13] - OpenAI o3因对手Kimi K2连续4局非法走子自动晋级 最短对局不足8回合 Kimi K2在脱离套路后出现棋盘误读[9][10] - Gemini 2.5 Pro以4-0淘汰Claude 4 Opus 后者在第十回合主动敞开防线送出突破口 成为首轮最接近真实对抗的对局[14][15][16] - Grok 4以4-0碾压Gemini 2.5 Flash 被业内评为开赛最佳表现 其精准识别弱点能力获马斯克在X平台转发[17][20] 赛事价值 - 游戏竞技具备无限扩展性和思维可视化优势 可完整追踪模型决策链并评估策略推理能力[3] - 明确输赢信号为AI智能评估提供理想试验场 尤其考验复杂推理任务中的长期规划与动态适应能力[21] - 真实评分标准基于数百场未公开对局 本次公开赛仅为测试通用智能的开局小规模测试[22] 赛程安排 - 半决赛对阵为OpenAI o3-mini对战同门o3 Gemini 2.5 Pro对战Grok 4[3] - 半决赛将于太平洋时间次日上午10:30举行[5]
安徽:未来产业已来 青年“加速进场”
中国青年报· 2025-08-03 09:59
未来产业布局 - 安徽聚焦量子科技、空天信息、通用智能、低碳能源、生命科学、先进材料、未来网络7个重点领域和第三代半导体、先进装备制造、区块链、元宇宙等N个兼顾发展领域 [1] - 目标到2027年未来产业规模突破2000亿元 2030年达5000亿元 [1] - 未来产业具备四大特征:科技含量足、转化周期长、研发投入大、政策需求高 [1] 核聚变产业 - 合肥汇集核聚变能源产业企业近60家 涵盖超导线材生产、主机设备制造等全产业链 [3] - 合肥综合性国家科学中心能源研究院孵化核聚变相关企业30余家 部分企业互为上下游 [3] - 安徽出台《以创新模式加速推进聚变能商业应用战略行动计划(2022-2035年)》 确立"三步走"发展战略 [2] 量子科技产业 - 合肥高新区集聚超70家量子产业链企业 [4] - 中电信量子集团推出"量子+"科技产品30多项 包括量子密话密信平台 [3] - 合肥加快建设量子信息未来产业先导区等公共服务平台 拓展"量子+"场景示范应用 [4] 人工智能产业 - 2024年合肥市人工智能产业总营收约千亿元 集聚上下游企业超千家 [5] - 智象未来与广告营销、影视制作等领域客户合作 对接新能源汽车、机器人等优势产业 [5] - 企业培养"AI+"复合型人才 融合计算机、人工智能与艺术、设计等专业背景 [5] 航空航天产业 - 中电科芜湖钻石飞机制造有限公司是国内无人机领域细分市场主要供应商 [6] - 中科星图在合肥布局9家子公司 建立超1000人团队 [6] - 发起"航天青年科学家培养计划" 每年为重点高校提供若干重点岗位 [6] 半导体产业链 - 芯聚德科技量产半导体封装核心材料IC载板 填补安徽省技术空白 [7] - IC载板项目全部建成后预计提供3000余就业岗位 [7] - 广德集中安徽省三分之二以上PCB企业 打造专业产业园降低企业运营成本 [7] 新材料产业 - 中研院集团量产0.12毫米"世界最薄触控玻璃" 实现从"跟跑"到"领跑"跨越 [9] - 研发30微米超薄柔性玻璃 实现全链条国产化 [9] - 研发团队35岁以下青年占比超过80% [9]