Workflow
通用机器人
icon
搜索文档
因多次泄密!字节 Seed 研究员/知乎 8 万粉大V 被开除
程序员的那些事· 2025-11-14 18:10
❶ 11 月 12 日,据新浪和澎湃新闻等多家媒体报道,字节跳动大模型团队(Seed)研究员任某某已于 11 月 11 日离职,原因是"因多次泄密被开除"。 任某某是知乎优秀答主,拥有超过 8.6 万粉丝,其分享内容涵盖协作机械臂、灵巧手、执行器和人形机器人等 多个热门领域。他在知乎的个人简介显示,2015 年毕业于浙江大学机电工程专业,后赴意大利理工学院深 造,于 2019 年获得机器人学博士学位。 2020 年至 2021 年,任某某在珞石机器人担任机电工程师,2021 年至 2023 年就职于小米公司,担任高级研 发工程师。2023 年,他加入字节跳动的 Seed 团队,专注于机器人系统集成等前沿技术的研究。 今年 7 月,任某某曾公开表示深度参与了字节跳动 Seed 团队提出的 GR-3 项目,并详细阐述了该项目的原 理。 在今年 3 月的字节大模型全员会上,吴永辉曾表示,希望 Seed 成为一个能培养人才的组织,"我们希望把世 界上最好的人才吸引到 Seed 来。但更重要的是,我们要把内部人才用好,把我们的潜力股识别出来,给他们 足够的机会,培养成顶级的人才。" ❸ ❷ 重视人才的同时,字节跳动也在 ...
机器人“会用手”了!银河通用首破手掌任意朝向旋转难题,拧螺丝、砸钉子样样精通
量子位· 2025-11-10 08:30
核心技术突破:DexNDM模型 - 银河通用推出的灵巧手神经动力学模型DexNDM,实现了从能动到能用的飞跃[2] - 模型通过分布有偏的真实数据训练,无需成功示例即可精准弥合Sim2Real鸿沟[2] - 首次在真实世界中突破手掌任意朝向的物体旋转限制,实现跨物体、跨姿态的稳定手内旋转与工具操作[4][39] 核心性能优势 - 实现跨类别、跨尺寸、跨姿态的稳定旋转,处理对象从微小零件到大书本、长棍、复杂几何体[5][6] - 无论手掌朝上、朝下或侧向,均能沿任意轴向进行稳定、持续的旋转[5] - 可自如抓、转、拧各类工具,胜任拧螺丝、家具组装等长程、复杂操作任务[5][21] - 在手掌朝下的姿态下,实现10–16cm长物体沿长轴的空中完整旋转[17] 技术创新细节 - 采用关节级神经动力学模型,将复杂的手–物交互拆解到关节级,提升数据利用效率和泛化能力[8][9][10] - 开发全自动数据收集策略,在任务无关的随机扰动下自主生成丰富的接触数据[11][13][14] - 训练残差策略网络弥合仿真到现实的差距,使基础策略能迁移到真实世界[15] - 采用"从专家到通才"训练流程,先训练多个专家策略再融合为统一通用策略[16] 行业应用意义 - 推动机器人从简单抓取向精细操作能力跨越,是通用机器人部署中最艰难的前沿[23][31][36] - 手内旋转和工具使用能力代表灵巧操作向更高维度发展的趋势,是灵巧操作皇冠上的明珠[37][38] - 为遥操作系统的数据生成与策略迁移提供基础,为灵巧操作工业化落地奠定条件[55][56] - 使机器人能在工业装配、家具组装、工具使用等多场景中实现可扩展部署,提升实际生产力[58] 应用场景演示 - 在装配任务中展示全链路灵巧控制:使用螺丝刀固定电路板、安装音量旋钮、敲击安装装饰部件[59][60][61][62][63][64] - 灵巧操作正从"抓取放置"迈向"任务理解",成为真正的生产力单元[58][64]
前特斯拉中国高管成立了一家机器人公司
第一财经· 2025-11-03 19:25
公司产品与定位 - 星际动力科技有限公司于2025年9月19日成立,并于2025年11月3日入驻浙江宁波前湾新区 [3] - 公司展示了首款人形机器人产品星际1号,其外观与真人高度相似,无裸露电缆和关节,外壳涂装类似特斯拉Optimus V2.5的金色版本 [3] - 公司明确对标北美全尺寸人形机器人,如Figure、特斯拉Optimus和1X的产品 [4] - 公司股权结构为宏润建设持股60%,矩阵超智持股40%,双方于2025年9月上旬签署战略合作协议设立合资公司 [3] 核心技术优势 - 公司创始人强调智能机器人的核心是能通过自然语言与人顺畅沟通,而非依赖复杂指令 [4] - 通过自研架构,公司将最核心的控制代码从几十万行压缩到3000行以内,以降低出错概率,提升系统稳定性和可靠性,为规模化量产奠定基础 [4] - 公司提出“硬件抽象层”概念,实现软件与硬件解耦,使产品系统能兼容不同供应商的零部件,应用方可像选配电脑一样根据不同场景需求选配机器人部件 [5] 行业挑战与竞争格局 - 通用机器人在不同场景下面临着性能与成本平衡的普遍难题 [5] - 规模化量产是行业关键挑战,连特斯拉也尚未完全实现,市场消息称特斯拉将Optimus年产目标从5000台下调至2000台,因机器人手部和前臂设计存在严重技术难题 [4] - 未来机器人企业的竞争关键将取决于体系化的工程能力与产业协同速度 [5]
Google最新!Gemini Robotics 1.5:通用机器人领域的突破进展
具身智能之心· 2025-10-16 08:03
技术架构 - 采用“协调器+动作模型”的双模型协同智能体架构,协调器由Gemini Robotics-ER 1.5实现,负责高层任务规划与拆解,动作模型由Gemini Robotics 1.5实现,负责将自然语言指令转化为机器人底层动作轨迹 [2] - 架构支持ALOHA、Bi-arm Franka、Apollo三种形态机器人的直接控制,无需额外适配,并通过环境反馈形成“感知-思考-行动”的闭环执行链路 [2][4] 核心创新:运动迁移机制 - Motion Transfer机制通过多形态机器人混合数据训练,学习通用运动规律,解决了传统机器人模型的“数据孤岛”问题 [5][7] - 该机制在Apollo人形机器人上实现“零样本技能迁移”,任务泛化得分从单形态数据训练的0.49提升至0.62,提升约26.5% [13] - 对于数据量中等的Bi-arm Franka机器人,引入多形态数据和MT机制后,任务泛化得分从0.30提升至0.50,解决了新机器人数据少、训练难的行业痛点 [13] 核心创新:思考-动作融合 - 在VLA模型中引入“思考-动作交织”机制,将复杂指令的转化拆分为“指令→自然语言思考轨迹→动作”两步,提升任务执行的可解释性和鲁棒性 [8] - 在ALOHA机器人“按颜色分类衣物”任务中,开启思考模式后进度得分从0.55升至0.67,提升约21.8% [11] - 思考VLA展现出隐式成功检测、自主错误恢复和场景几何理解三大关键能力,例如能在0.5秒内完成物体滑落后的纠错指令更新 [16] 嵌入式推理能力 - Gemini Robotics-ER 1.5在嵌入式推理得分(59)和通用性得分(75)上取得平衡,是唯一处于“高推理+高通用”象限的模型,既能处理专用机器人任务,也保留通用多模态能力 [17][19][20] - 在复杂指向任务中表现优异,其精准指向能力能为VLA提供结合物理约束和语义理解的动作目标定位,是机器人精准动作的核心支撑 [20][24] 性能评估:多形态泛化 - 在视觉、指令、动作、任务四个泛化维度上,1.5版本相比前代模型均有显著提升,例如在Apollo人形机器人上的任务泛化得分从0.07提升至0.63 [25][27][28] - 在ALOHA机器人上,指令泛化得分从0.53提升至0.76,能理解不同表述的同一指令 [28] - 在Bi-arm Franka机器人上,动作泛化得分从0.24提升至0.66,能根据物体重量调整握力以避免滑落 [28][29] 性能评估:长周期任务 - “ER 1.5+VLA”组合在长周期多步骤任务中表现优异,在“Blocks in Drawer”任务中得分0.83,是“Gemini 2.5 Flash+VLA”方案的2.4倍,凸显ER模型精准任务拆解的价值 [33] - ER模型具备工具调用能力,如在“Nut Allergy”任务中能通过网页搜索正确判断食物成分,而对比模型则出现误判 [33] - ER方案在需要场景记忆的“Desk Organization”任务中得分0.88,远高于仅使用VLA的0.32,证明其场景记忆优势 [33] 安全机制 - 通过ASIMOV-2.0基准测试,覆盖文本风险识别、多模态约束适配、视频风险干预三大维度,例如在文本风险识别中能准确判断儿童误食药片的风险类型为“中毒”及严重程度为“重度” [34][36] - 在多模态约束适配测试中,对于承重限制规则,ER 1.5指向8kg和15kg物体的准确率达到90.9% [36] - 在视频风险干预测试中,能预测“儿童接近热水壶”视频中的最后可干预帧,展示出关键的时间推理能力 [36]
中美AI机器人竞争激烈,日本欲卷土重来
日经中文网· 2025-10-12 08:34
全球人形机器人行业竞争格局 - 截至2025年5月,人形机器人企业32%在美国,27%在中国,日本未进入前5名 [2][9] - 美国企业特斯拉和英伟达加紧研发,中国初创企业也在猛追 [2] - 日本占工业机器人生产份额逾3成,试图利用工业机器人优势在物理AI领域卷土重来 [2][10] 主要参与者动态与技术发展 - 特斯拉CEO马斯克预测,到2040年将有100亿台价值2万至2.5万美元的人形机器人在运行,并称其机器人Optimus将占据特斯拉80%的价值 [4] - 英伟达与鸿海精密工业联合开发自主驱动机器人的“物理AI”,鸿海将利用英伟达的AI半导体开发从工业用途到人形的各种机器人 [5] - 搭载尖端AI的通用机器人无需人类操作就能实时学习和行动,区别于以往依赖人工操作的机器人 [5] 市场潜力与投资趋势 - 对通用机器人的投资额从2022年到2024年增加至5倍,扩大到全年10亿美元以上 [5] - 麦肯锡推算,如果技术进步和价格下降顺利,到2040年机器人市场规模可能达到约3700亿美元 [5] 中国市场的优势与活动 - 中国被认为将在巨大市场中占50%的份额 [8] - 中国以纯电动汽车供应链为基础,在驱动设备和电池等方面具有优势,催生了上海智元新创技术和杭州宇树科技等新兴企业 [8] - 中国举办了全球首个人形机器人半程马拉松赛及世界机器人大会,展示其在拳击、舞蹈、烹饪等领域的技术 [8] 日本企业的机遇与挑战 - 制造业强大的日本适合发展物理AI,因发那科、安川电机、川崎重工业、欧姆龙等公司在生产设备用机器人领域拥有高市场份额 [8] - 软银集团以总额53.75亿美元收购ABB的机器人业务,此举或将成为日本制造业在AI时代生存下去的路标 [10] - 软银集团过去的机器人业务如人形机器人Pepper和波士顿动力公司难以取得积极成果 [8]
刚刚,Figure 03惊天登场,四年狂造10万台,人类保姆集体失业
36氪· 2025-10-10 18:50
产品发布与定位 - Figure 03正式亮相,开启通用机器人规模化时代,专为Helix AI大脑、家庭使用及全球规模化应用而设计[1][3] - 产品是公司首款从零设计为大规模制造的机器人,目标在家庭与商业场景间无缝切换,例如物流搬运、工厂工作、配送快递等[21][22] - 公司CEO Brett Adcock表示未来每个家庭都将拥有一个人形机器人,该产品登上TIME杂志封面[6] 硬件设计与性能提升 - 全机采用柔性织物外层取代机械外壳,质量比Figure 02减轻9%,体积显著缩小,关键位置使用多密度泡沫防夹伤,提升家庭环境安全性[3][8][19] - 手部系统实现质的飞跃,每个指尖可感知低至3克的压力,能区分稳固握持与即将滑脱,可细腻操作如拾取鸡蛋或掀起扑克牌[16][17][20] - 执行器速度提升2倍,扭矩密度优化,支持更快搬取与操作[21] - 支持10 Gbps毫米波数据卸载,允许整个机器人舰队上传TB级数据用于持续学习与改进[18] 感知与交互系统 - 视觉系统帧率提升一倍,延迟降低至四分之一,视野角度扩大60%,结合更广景深,提供密集稳定感知数据流[11][12] - 每只手掌心集成广角低延迟摄像头,即使主摄像头被遮挡也能保持持续视觉感知,确保实时自适应控制[11][15] - 升级音频系统,扬声器体积翻倍,功率提升近四倍,麦克风位置优化,语音识别更清晰、交互更自然[24] 量产与商业化路径 - 公司创立BotQ高产能制造工厂,首期年产能12,000台,目标四年内累计生产100,000台[8][22][25] - 通过设计与流程革新、建立全新供应链、创立大批量制造工厂三大举措实现量产目标[25] - 产品配备无线感应充电,脚部内置充电线圈,踩上充电底座即可实现2kW功率快速充电[24]
灵猴机器人完成超亿元A轮融资,TCL创投等共同领投
新浪财经· 2025-09-29 13:22
公司融资情况 - 苏州灵猴机器人有限公司完成超亿元A轮融资 [1] - 融资由金鼎资本、博原资本、TCL创投共同领投 [1] - 引入苏创投、东运创投、财通资本、银杏谷资本多家投资机构 [1] 资金用途 - 融资资金主要用于工业自动化及通用机器人等领域核心零部件的研发 [1] - 资金将用于实验室建设以及产能的扩充 [1]
腾讯研究院AI速递 20250925
腾讯研究院· 2025-09-25 00:01
AI工具与平台更新 - 谷歌发布Nano Banana支持的AI画板工具Mixboard 支持自然语言编辑图板和批量编辑图片等功能 已开启公测 [1] - 阿里发布通义万相Wan2.5 Preview系列模型 新增音画同步视频生成能力 支持24帧/秒1080P高清视频 [2] - 快手发布可灵2.5 Turbo视频生成模型 在体育场景生成效果有突破性提升 高品质模式下生成5秒视频成本降低近30% [3] - 秘塔AI推出Agentic Search模式 可自主完成5-15步工具调用 内置20余种工具并具备多模态能力 [4] - AI音乐平台Suno发布V5模型 提供录音室级别音质 实现从灵感demo到可发行歌曲的质量跨越 [5][6] 游戏与硬件创新 - 小岛秀夫与Niantic Spatial合作开发基于AR眼镜的多人地理位置游戏 类似现实中的《死亡搁浅》但目前尚未公布发布日期 [7] - 宇树科技创始人指出通用机器人面临三大技术瓶颈:线缆问题占故障60-70%、终端AI芯片功耗需控制在100瓦以内及技术路线差异大 [8] 行业战略与投资趋势 - Google Cloud报告指出AI创业者应以动作快和创新为核心竞争力 应用公司不需自研模型而应专注于业务价值 [9] - 英伟达投资英特尔50亿美元将重塑PC和数据中心市场 AI算力支出将从3600亿美元增至约5000亿美元 华为成为英伟达在非美国市场主要竞争对手 [10] - Sam Altman提出创建每周产出一吉瓦AI基础设施的工厂 认为10吉瓦算力或能治愈癌症并为每个学生提供个性化辅导 [12]
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 20:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]
英伟达推出的“大脑”, 能让机器人变聪明吗?
第一财经· 2025-08-26 11:25
英伟达新一代机器人计算平台Jetson Thor上市 - 新一代机器人计算平台Jetson Thor开发套件和生产模块上市,采用Blackwell架构,与数据中心服务器和工作站的最新GPU架构统一 [2] - Jetson Thor在FP4精度下算力为2070TFLOPS,相比10年前的Jetson TK1平台FP32精度算力0.3TFLOPS提升显著,2022年Jetson Orin在INT8精度下算力为275TOPS [2] - Jetson系列AI性能10年提升7000倍,Jetson Thor的AI计算性能是Orin的7.5倍,能源效率是Orin的3.5倍 [3] 机器人算力需求与市场现状 - 人形机器人从业者反映机器人处于算力不足状态,运行大参数模型需要比Orin算力更大的芯片,算力足够大才能提升执行效率 [3] - 机器人技术不够收敛,厂商为实现更多功能需将更多算法塞进机器人,人形机器人属于给多少算力都不够的状况 [3] - 计算平台需运行推理式AI、生成式AI、大语言模型、视觉模型和行动模型,人形机器人搭载多个传感器需在数百毫秒内完成推理或思考几秒做感知规划 [4] - 许多人形机器人客户在一台机器上同时使用2个或以上Orin,汽车客户同时使用2个甚至4个Orin,算力提升后工作负载可在同一个Jetson Thor上运行 [4] - 机器人需要边缘端运算因云端计算有延迟,可能连接不到云无法做出实时决策 [4] Jetson平台开发者与客户基础 - Jetson平台有220万名开发者,7000多家公司使用Orin [5] - 中国公司包括智元机器人、众擎机器人、银河通用、优必选、宇树科技等已使用Orin并准备使用Thor [5] - Jetson Thor开发套件售价3499美元,生产模块Jetson T5000(2070TFLOPS)售价2999美元 [5] 英伟达机器人战略与竞争环境 - 物理AI和机器人领域有巨大机遇,通用机器人时代正在到来,生成式AI、推理式AI和模拟技术对通用机器人十分重要 [5] - 英伟达在三个层面思考机器人:机器人本身如人形机器人、机械臂,属于机器人范畴的自动驾驶汽车,大型建筑和空间如工厂、城市迈向机器人化 [5] - 英伟达为物理AI和机器人提供三种计算机:机器人"大脑"Jetson Thor用于部署AI,另外两台用于训练AI和提供测试AI的虚拟环境 [5] - 英伟达在机器人"大脑"领域面临竞争,特斯拉自研人形机器人计算机,另有面向扫地机器人、割草机器人等品类的芯片供应商 [6] - 机器人算力芯片朝增加算力方向增长,但长远无法断言算力芯片要多大才够用,未来算力可能收敛 [6] - 2024年全球人形机器人市场规模25.62亿元,2031年人形机器人行业进入快速起量期 [6]