Workflow
模型泛化
icon
搜索文档
这个近3000人的具身社区近期又分享了很多内容~
具身智能之心· 2025-12-22 09:22
行业动态与趋势 - 融资方面,下半年本体零部件公司融资金额增大、公司数量增多,除明星公司外,许多创业公司带着订单来融资 [2] - 量产方面,多家公司试点逐步推进,头部人形机器人开始探索工业级产品的部署 [2] - 产品设计方面,机械臂产品逐渐收敛,移动操作和人形机器人在结构和尺寸上持续创新,各公司均在压低成本,供应链管理能力成为后期关键竞争力 [2] - 模型泛化方面,基于强化学习的优化思路使模型泛化能力增强,相关工具箱完善,真机部署逐渐便利 [3] - 部署方面,地瓜机器人推出S600助力边缘侧部署,Thor开始应用于人形机器人和移动操作,2000T以上算力逐渐成为参考配置 [4] 社区资源与活动 - 社区提供持续的直播分享,包括圆桌论坛,内容涵盖本体、数据、算法,探讨行业动态与待解决问题 [8][9] - 社区整理了完整的技术路线,为入门者提供技术栈和学习路径 [13] - 社区为已从事相关研究的成员提供有价值的产业体系和项目方案 [15][16] - 社区与多家具身公司建立岗位内推机制,可第一时间将简历送达目标公司 [18] - 社区邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,可为成员答疑解惑 [18] - 社区汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台以及各类技术学习路线 [19] - 社区汇总了具身智能多个研究方向的国内外知名实验室,供成员读研、申博、博后参考 [21][22] - 社区汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向 [24] - 社区汇总了大模型、人形机器人等行业相关的研报,帮助了解行业发展与工业落地情况 [25] - 社区汇总了机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍 [27][28] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [29] - 社区汇总了机器人仿真、抓取、控制、具身交互、感知等多个领域的开源项目 [30] - 社区汇总了国内外知名ToF厂家、相关产品、技术手册、综述等内容 [31] - 社区汇总了遥操方案、动作捕捉、AR等数据采集方案,以及具身感知、触觉感知、导航、大模型等多个领域的开源数据集 [32][34] - 社区汇总了通用机器人仿真平台和真实场景仿真平台 [35] - 社区汇总了基于LLM的强化学习、可解释强化学习、深度强化学习主流方案,以及VLA+RL相关工作 [35][46] - 社区针对主动视觉感知、3D视觉感知定位、视觉语言导航、触觉感知等多个任务进行了汇总 [36] - 社区汇总了具身智能与环境交互相关工作,涉及抓取、检测、视觉语言模型、具身问答等 [38][39] - 社区针对视觉语言导航、规划等应用内容进行了详细汇总,关注自动驾驶与机器人应用 [41] - 社区汇总了触觉感知最新综述、传感器应用、多模态算法集成、数据集等内容 [42] - 社区汇总了大量多模态大模型理解相关内容,包括Image/Video/Audio/3D+Text到Text等 [43] - 社区汇总了大量多模态大模型生成相关内容,包括Image/Video/Audio+Text到Image/Video/Audio+Text等 [44] - 社区汇总了扩散模型设计、Diffusion Policy具体任务应用、Diffusion Generation等内容 [47] - 社区针对大模型部署框架、轻量化方法进行了汇总 [48] - 社区针对机械臂抓取、任务数据表示、位姿估计、策略学习多个部分展开了汇总 [50] - 社区对开源的双足与四足机器人项目、仿真、源码、硬件等部分进行了详细汇总 [50] - 社区针对移动+执行硬件方案进行了汇总 [51] 社区概况与成员 - 社区是国内首个具身全栈社区,旨在提供技术交流平台,交流学术和工程问题 [18] - 社区成员近3000名,来自国内外知名高校实验室和具身相关机器人头部公司 [18][56] - 高校和科研机构成员包括斯坦福大学、加州大学、清华大学、西湖大学、上海交大、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学等 [18] - 公司成员包括智元机器人、有鹿机器人、云深处、优必选、傅里叶机器人、开普勒机器人、小米、星海图、银河通用、星尘智能、逐际动力等 [18] - 社区与近200家具身公司与机构有交流 [56]
AI画不出的左手,是因为我们给了它一个偏科的童年。
数字生命卡兹克· 2025-12-10 09:20
文章核心观点 - 当前领先的文生图AI模型(如NanoBananaPro、Gemini、Lovart、ChatGPT、seedream、grok等)普遍无法准确生成涉及“左手”或“左脚”等特定左右关系的图像,例如“左手写字”或“左手拿橘子右手拿苹果” [1][3][5][7][9][12][21] - 该问题的根源并非AI逻辑能力不足,而是其训练数据集中存在严重的“现象空间偏差”,即数据在“完整性”和“平衡性”上存在缺陷,导致模型无法正确泛化左右等空间关系 [23][27][32][38] - 人类社会的现实偏见(如右撇子占多数)被大规模图像数据集记录并放大,AI通过学习这些有偏差的数据,继承了人类的认知偏见 [42][43][55][56] - 这一现象揭示了数据质量(分布)对于AI模型泛化能力的关键性影响,其重要性可能不亚于数据规模 [31][32][36][37] AI模型测试与现象观察 - 测试多个主流AI模型生成“左手写字”图片,结果几乎全部错误,稳定生成右手写字图像 [3][5][7][9] - 即使使用更复杂的提示词进行限制(如“右手拿着苹果左手写字”),模型仍会生成顺序相反的图像 [9] - 扩展测试其他涉及左右关系的场景(如指定左右手分别持物、左右脚动作),模型同样全部失败 [12][15][17][19][21] - 模型在生成不涉及左右的具体空间关系(如上下、并排)时表现正常,问题特指左右区分 [21] 问题根源:数据集的偏见 - 一篇题为《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》的论文为该现象提供了理论解释 [23] - 研究将图像要素分解为“主体”(filler)和“关系”(role),并通过控制图标组合实验测试模型对“上下”位置关系的理解 [28][29][30] - 定义两个关键数据质量指标:“完整性”(Completeness)指每种要素是否在所有相关位置都出现过;“平衡性”(Balance)指不同位置组合在数据中分布是否均匀 [32] - 实验表明,模型泛化能力高度依赖数据的完整性与平衡性,而非单纯的数据量大小 [31] - 当数据完整度和平衡度均为100%时,模型测试准确率接近100%;当两者降低时,准确率随之下降,最低可低于40% [35][36][37] - 在更接近真实世界的What‘sUp数据集实验中,数据完整性与平衡性下降同样导致生成左右关系图片的准确率下滑,常见错误是“两个物体都画对了,但顺序反了” [38][39][40] - 在错误类型分析中,“翻转顺序”的错误占比高达41.9% [41] 现实世界偏见的映射 - “左手写字”指令失败,是因为训练数据中“写字”的标签几乎全部关联右手写图像,模型未学习到“左手写字”这一现象 [42][43] - 模型将“写字”与“右手”强烈关联,导致无法处理“左手写字”的指令 [44] - 这类似于一个只做过大量“2+3=5”题目,却从未见过“3+2=5”的学生,无法回答后一个问题 [45][46][47] - AI的“偏见”本质上是人类社会现实偏见(如右撇子为主流)在数据中的反映 [50][55][56] - 大规模图像语料库是人类过去几十年摄影与文化习惯的快照,其中固有的统计偏差被AI模型继承 [56] 对AI行业与模型训练的启示 - 该案例凸显了高质量训练数据的重要性,数据的“分布”方式对模型能力的影响可能超过数据“规模” [31][32] - 提升AI模型的泛化能力,需要刻意构建具有高“完整性”和“平衡性”的数据集,覆盖现象空间中的各种可能性,包括少数情况 [32][51][61] - 技术发展可能迫使AI公司重新设计训练集,以改善模型在类似左右关系等任务上的表现 [61]
Scaling时代终结了,Ilya Sutskever刚刚宣布
机器之心· 2025-11-26 09:36
AI行业技术发展现状 - 当前AI模型存在"参差不齐"现象,在复杂评测中表现出色却在简单任务上反复犯错,如修复Bug时引入新Bug[20] - 这种现象源于"奖励黑客行为",研究人员过度针对评测集进行强化学习训练,导致模型缺乏真正理解和泛化能力[11][23] - 模型表现类似于"刷题家",通过大量针对性训练获得表面能力,但缺乏真正的智能天赋[24][25] AI学习机制与人类对比 - 人类学习效率远高于AI,样本效率更高,这得益于进化留下的先验知识和内在学习机制[43][44] - 情绪在人类决策中扮演类似价值函数的角色,帮助在获得最终结果前判断决策好坏[29][32] - 人类拥有基于价值函数的内在学习机制,能够进行持续学习和自我纠正[11][35] AI发展阶段转变 - 扩展时代(2020-2025)以堆算力和数据为主旋律,通过预训练获得性能提升[38][39] - 当前预训练数据即将耗尽,单纯扩大规模的边际回报递减,行业进入"研究时代"[39][40] - 新阶段需要寻找新的"配方",更聪明地使用算力,特别是在强化学习和推理过程中[40][41] Safe Superintelligence Inc战略 - 公司采用"直通超级智能"策略,专注于研发直到解决安全超级智能问题后再发布[9][59] - 目前专注于研究,不急于通过产品获利,避免商业竞争的"老鼠赛跑"[9][58] - 公司筹集30亿美元资金,专注于技术研究而非推理产品开发[56][57] 对齐与未来展望 - 核心对齐目标是"关爱感知生命",这比单纯"听从人类指令"更稳健[9][76] - 未来可能出现多个大陆级规模的AI集群,只要前几个最强大的AI是对齐的,世界可能进入良性发展轨道[9][78] - 长期均衡状态可能是人类通过脑机接口与AI融合,成为"半AI"[9][82] 技术发展方向 - 价值函数将在未来AI发展中发挥重要作用,提高强化学习效率[34][41] - 根本性挑战是提高模型泛化能力,这比人类差得多[41][47] - 需要重新思考训练方式,实现类似人类的持续学习能力[48][49] 行业竞争格局 - 当前AI公司比想法多,扩展战略导致同质化竞争[53][99] - 随着AI能力增强,公司将更注重安全合作,行为模式将发生变化[74][75] - 未来可能出现专业化竞争,不同公司在不同经济领域占据优势[94] 研究哲学与方法 - 优秀研究依靠"自上而下"的信念,追求美、简单性和对生物学的正确借鉴[22] - 当实验数据与直觉相悖时,基于美的信念能支撑研究者继续寻找问题根源[22] - 真正的突破性研究不一定需要最大算力,Transformer等关键突破都是在相对有限算力下实现的[54][55]