Workflow
数据采集
icon
搜索文档
特斯拉人形机器人,新进展曝光
财联社· 2025-11-03 13:09
特斯拉Optimus机器人数据采集方法 - 公司采用一支超过100人的数据采集团队,通过摄像头直接采集人类动作数据,而非使用动作捕捉服或手动控制[2][3] - 数据采集员每班工作8小时,需重复数百次如拿杯子、擦桌子等动作,并收集至少4小时的可用视频素材[2] - 采集设备包括环境摄像头以及员工头盔和背包上搭载的约5台摄像头,设备重量给员工带来背部和颈部受伤等身体负担[2][3] 特斯拉对人形机器人的战略定位 - 公司目标为实现年产100万台Optimus机器人[3] - 公司预计未来人形机器人业务将占据其总价值的80%左右[3] 机器人行业数据采集的趋势与市场 - 真实数据被视为训练效果最好的“黄金数据”,但成本高且格式不统一;仿真数据可大规模生成且成本低,但模型适应性差[4] - “虚实结合”是行业主流数据采集方案,通过融合高仿真数据与真实数据构建数据底座,以提升机器人智能泛化能力[4] - 数据采集系统市场规模预计从2025年的超过24亿美元增长至2035年的39.8亿美元,2026-2035年复合年增长率约5.2%[4] 机器人训练的AI化发展趋势 - 公司宣布在自研世界模型中训练Optimus机器人[5] - 行业目前采用世界模型、遥控操作等方法均存在局限性,具身智能的学习训练方法仍有待探索[5]
速递|对标Scale AI,华人数据标注Datacurve完成1500万美元融资,已发放超百万美元赏金
Z Potentials· 2025-10-13 12:55
随着 AI 公司日益成熟,争夺高质量数据已成为行业竞争最激烈的领域之一,催生了 Mercor 、 Surge 等企业,其中最引人注目的当属 Alexandr Wang 创立的 Scale AI 。 但随着 Wang 转投 Meta 负责 AI 业务 ,许多投资者看到了市场机遇——他们愿意资助那些拥有创新训练数据采集策略的公司。 随着环境复杂度提升,数据需求在数量和质量上都呈指数级增长——这一趋势可能为 Datacurve 等高质量数据采集公司创造竞争优势。 作为初创企业, Datacurve 目前专注于软件工程领域,但葛表示该模式同样适用于金融、营销甚至医疗等其他领域。 YC 孵化企业 Datacurve 正是这样一家专注软件开发高质量数据的公司。周四该公司宣布完成 1500 万美元 A 轮融资,由 Mark Goldberg 领投的 Chemistry 基金主导, DeepMind 、 Vercel 、 Anthropic 和 OpenAI 员工跟投。 此次 A 轮融资前,该公司曾获得 270 万美元种子轮融资,前 Coinbase 首席技术官 Balaji Srinivasan 参与了投资。 Datacu ...
不同业务适配方案:国外独享专线 IP 在跨境办公、数据采集、海外测试中的应用
搜狐财经· 2025-10-12 00:55
跨境办公 - 核心需求为保障远程协作、文件传输和视频会议的稳定性与安全性 [1] - 亚洲市场可选择香港节点(中国大陆访问延迟<50ms)或新加坡节点(延迟低至30ms)[2] - 欧美市场通过美国多节点部署结合SD-WAN技术,可降低30%网络成本 [2] - 轻量级业务(如基础远程办公)建议配置3-10Mbps独享带宽 [2] - 中大型业务(如多平台电商运营)建议配置50-200Mbps独享带宽以支持高并发流量 [3] - 采用IPsec、SSL/TLS等端到端加密协议防止数据泄露,金融行业需选择通过PCI DSS认证的服务商 [3] - 优先选择通过GDPR、ISO 27001认证的服务商,确保数据存储本地化以规避法律风险 [4] 数据采集 - 核心需求是规避反爬机制并成功获取目标数据 [7] - 优先选择住宅IP而非数据中心IP,因为住宅IP匿名性更高,复用率更低 [8] - 支持动态IP轮换,可按时间(如每小时)或按任务手动切换IP,避免触发反爬机制 [9] - 根据采集目标定制地域IP,例如采集美国数据选用美国本土IP [9] - 在目标市场部署2-3个节点,通过BGP Anycast自动切换路径以降低延迟 [10] - 提供专属带宽保障,支持高速批量采集大体积数据(如视频字幕、高清图片)[10] - 通过API接口实现IP自动切换,并结合监控脚本实时监测带宽使用率、延迟等指标,超阈值时自动扩容 [11] 海外测试 - 核心需求是模拟目标市场环境并验证业务合规性 [14] - 使用目标市场IP模拟真实用户环境,并确保IP活跃时间符合当地用户作息(如GMT时区晚7-11点高峰)以提升自然流量转化率 [14] - 选择通过GDPR、CCPA认证的服务商,确保数据存储本地化以满足数据主权合规要求 [15] - 提供针对亚马逊、TikTok等平台的反封禁技术方案,如IP轮换策略和设备参数模拟,以降低封号风险 [15] - 测试环境需支持高并发≥5000线程,带宽≥1Gbps,以满足大规模压力测试需求 [15] - 通过监控工具实时检测响应速度、丢包率等指标,异常时触发告警以保障测试环境稳定性 [16]
成本相差200倍!遥操作、仿真、UMI、视频学习,谁才是具身智能数据领跑者?
机器人大讲堂· 2025-10-03 12:04
2025 年具身智能行业投融资热度持续攀升,行业内已形成明确共识:要实现从 L1 特定任务具身智能到 L2 组合任务具身智能的技术跨越,乃至向更高阶通用能力迈进,数据采集是必须突破的核心环节。 不同于语言、图像等低维数据的获取,具身智能需要的是物理世界绝对坐标系下的精确测量数据,其获取难 度、成本投入与标注周期,都远超传统模型训练需求。 具身智能的核心目标,是让机器人在物理世界中具备 "举一反三" 的常识理解能力,面对未曾接触过的物体和 任务,能像人类一样依托过往经验推导操作逻辑。而这一能力的构建基础,正是高质量、多模态的交互数据。 当前国内头部企业仍处于 L1 前期发展阶段,可完成特定环境下的单工位操作任务;而 π0.5 模型通过融合操 作数据、网络数据、语言指令等多源信息的预训练方式,在家庭真实环境长程任务中的准确率已突破 60%, 接近 L2 水平。 行业普遍认为,预训练是具身智能技术进阶的核心,而预训练效果直接取决于数据的 "量" 与 "质":一方面, L1 级模型已需 1 万小时 + 的数据量支撑训练,且 Scaling Law 规模定律在具身智能领域仍未见顶,数据规 模的扩大仍能持续推动模型性能提 ...
王兴兴回应“限制机器人爆发的核心问题”:数据采集处在模糊阶段
贝壳财经· 2025-09-11 13:33
行业观点 - 机器人产业发展的核心问题涉及数据和模型架构两方面 均非常重要[1] - 当前行业核心问题包括难以判断优质数据的标准 以及优质数据采集方法和规模不明确[1] - 行业应尽可能提高对数据的利用率以推动技术发展[1] 技术挑战 - 数据采集过程中存在模糊阶段 包括采集标准和规模确定[1] - 模型架构与数据质量共同影响机器人产业发展水平[1]
自动驾驶转具身智能有哪些切入点?
自动驾驶之心· 2025-08-25 07:32
算法技术延续性 - 具身智能领域基本延续机器人和自动驾驶的算法 包括训练与微调方式以及大模型技术[1] - 具体任务存在差异 主要体现在数据采集方式以及重执行硬件与结构方面[1] 技术研究方向 - 主要技术方向涵盖VLA(视觉语言行动) VLN(视觉语言导航)和Diffusion Policy(扩散策略)[1] - 涉及强化学习 机械臂抓取 位姿估计和机器人仿真技术[1] - 包含多模态大模型 芯片部署 sim2real(仿真到现实)以及机器人硬件结构研究[1] 行业生态建设 - 建立具身智能全栈学习社区 持续分享算法与软硬件方案[1] - 日常更新行业动态与招聘信息 形成技术交流与人才发展平台[1]
又帮到了一位同学拿到了VLA算法岗......
具身智能之心· 2025-08-23 00:03
具身智能行业发展趋势 - 具身智能行业处于早期发展阶段 对标自动驾驶行业2017-2018年阶段 仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案 传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高 初创公司1-2年工作经验人员总包可达70-80万 但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点 应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展 涵盖理解与生成两大方向 包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节 存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人 机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移 技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高 某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区 成员近2000人 目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线 覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制 与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源 提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司 涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍 包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息 涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向 包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速 提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制 数十位产业界和工业界大佬提供技术支持 [2]
无人谈论的AI堆栈:数据采集作为基础设施
36氪· 2025-08-07 15:23
人工智能数据基础设施的重要性 - 人工智能行业正从追求模型规模转向重视数据质量与新鲜度,数据成为性能提升的关键因素而非单纯增加参数数量[1] - 模型规模翻倍带来的边际收益成本高昂且环境不可持续,电力与水资源消耗难以规模化[1] - 实时、高质量数据可显著提升AI产品准确性,Salesforce以80亿美元收购Informatica以增强Agentforce平台的实时数据处理能力[2][5] 高质量数据的定义与特征 - 领域特定性:数据需精准匹配应用场景,如零售定价AI需竞争对手数据而非无关噪声[4] - 持续更新:数据需反映最新动态,过时信息会导致模型失效[4] - 结构化与去重:干净、一致的数据能减少计算浪费并增强信号强度[5] - 实时可操作性:价格变动、新闻等实时数据需通过合规方式规模化采集[5] 数据基础设施的行业实践 - IBM以23亿美元收购StreamSets,整合混合数据源为Watsonx提供实时信号,实现10倍效能提升[5] - Dataweps采用Bright Data的API生态系统为电商客户收集实时定价数据,支持AI驱动的动态定价系统[6] - Bright Data提供代理优先的数据基础设施,涵盖自动化工具与合规性支持,成为AI系统基础组件[6][16] 数据采集技术的演进 - 现代AI数据栈需支持动态UI、验证码处理及多模态数据(PDF、视频等)采集[14][21] - 采集管道需具备定时更新、增量刷新及TTL感知路由能力,以维持数据新鲜度[14][20] - 事件驱动架构(如Kafka)成为处理时间敏感数据的核心,替代传统静态数据湖[21] 数据驱动的竞争壁垒 - 未来AI系统竞争力取决于上下文管理能力,实时数据与动态记忆比模型规模更重要[23][24] - 将数据采集视为基础设施的团队能以更低成本实现更快迭代,形成长期护城河[25] - 开源模型(如Gemma 3)在特定领域超越GPT-4的案例显示精选数据对检索系统的决定性作用[16]
人形机器人也要“进校学习”?数据采集成必答题
21世纪经济报道· 2025-07-16 21:53
行业现状 - 真实场景数据稀缺制约具身智能行业发展,数据被认为是"卡脖子"问题 [1] - 不同于大语言模型可使用互联网数据,具身智能模型需专门采集视觉、触觉、力觉等多源异构数据 [1] - 单个场景训练需百万量级数据,行业早期缺乏高质量统一格式数据库 [4] 解决方案 - 德马科技与智元机器人合作建立全球首家人形机器人物流训练工厂,部署数十台机器人采集真实物流场景数据 [1] - 行业出现两种思路:英伟达等通过仿真数据生成,智元机器人等通过大规模真实数据采集厂 [4] - 企业搭建实景工厂依靠人工遥操采集真机数据,单个项目POC需2个月,高准确性需半年以上 [4] - 一套完整数据采集解决方案售价40万-50万元,包含机器人、硬件、软件、云服务等 [5] 市场动态 - 去年下半年以来具身智能数据采集厂密集落地,智元机器人数据采集中心2023年9月启用 [3] - 帕西尼具身智能超级数据工厂2024年6月投入运营 [3] - 合肥市具身智能机器人数据采集预训练场2024年6月启用 [1][4] - 国家地方共建人形机器人创新中心2024年1月启用全国首个异构训练场 [4] 政府参与 - 工业与人工智能产业发达地区政府主导建设公共服务平台数据采集中心 [5] - 政府平台采集数据归政府所有,积累后可提供给辖区企业使用 [5] - 青瞳视觉2023年开启人形机器人数据采集业务,覆盖政府、学校、企业端 [5] 行业挑战 - 硬件方案未收敛:轮式/双足方案、手部结构、传感器方案等尚未统一 [7] - 人形机器人快速迭代:每周模组修改,数月局部改造,半年更新一代 [7] - 当前数据采集集中在关节层,硬件不统一导致数据平台依赖性强、可复用性低 [7] - 本体精度问题和自由度不匹配导致真实数据采集精度不足,有效数据比例较低 [8]
入门具身离不开3个要素,数据+算法+本体
具身智能之心· 2025-06-23 21:54
具身智能技术核心要素 - 入门具身智能需掌握数据+算法+本体三大要素 其中数据采集依赖遥操和retargeting方案 机械臂适用VR遥操+动捕手套方案 成本20-30万[1] - 主流算法包括VLN、VLA、Diffusion Policy和强化学习 技术迭代快需持续跟踪论文[1] - 硬件配置分两档:实验室级20-30万本体 预算有限可采用3D打印或高性价比平台[1] 社区建设目标 - 计划3年内建成万人规模技术社区 已吸引斯坦福、清华等高校及智元、优必选等企业成员[6] - 构建学术+产品+招聘完整生态链 形成课程+硬件+问答的教研闭环体系[2] - 重点关注本体改进、数据采集效率提升、sim2real等前沿问题[2] 技术资源储备 - 汇总40+开源项目与60+数据集 覆盖机械臂抓取、双足机器人等23个技术方向[9] - 包含国内外50+高校实验室和具身公司信息 涉及教育、医疗等应用领域[6][14] - 整理机器人导航、动力学等专业书籍PDF及零部件厂商资料[18][20] 学习体系架构 - 设计16条专项学习路线 包括强化学习全栈、视觉语言导航等细分领域[9] - 建立多模态大模型技术矩阵 涵盖理解/生成/微调/部署全流程[40][42][44][51] - 提供仿真平台汇总 包含通用机器人和真实场景两类解决方案[28] 行业服务功能 - 定期组织行业大佬直播 内容可回看 主题覆盖前沿技术与产业应用[58][59] - 提供30家头部公司研报和岗位推荐 实现产学研直通[11][16] - 建立自由问答机制 解决研究方向选择等实际问题[62]