人机交互
搜索文档
具身数采方案一览!遥操作和动捕的方式、难点和挑战(2w字干货分享)
具身智能之心· 2025-07-09 22:38
遥操作技术发展现状 - 遥操作概念起源于太空探索和军事领域,已有数十年历史,早期应用于手术机器人和远程挖掘机等场景[6][10] - 具身智能的兴起使遥操作技术重要性显著提升,主要因其在数据采集方面的关键作用[15][17] - 当前主流遥操作方案包括同构臂控制、VR操控和视觉动捕技术,其中纯视觉IK方案因操作自由度优势获得专家认可[21][29][31] 技术挑战与解决方案 - 系统延迟是核心瓶颈,整体延迟需控制在40毫秒以内以避免眩晕,远程操作普遍面临100毫秒延迟难题[34][118] - 异构映射问题突出,特别是手部操作环节,需设计新型reward函数优化人手到机械手的转换[83] - 动捕系统面临精度与自由度平衡难题,光学方案精度高但设备复杂,纯视觉方案便捷但存在遮挡问题[74][94][96] 行业应用场景 - 医疗领域已实现四手手术机器人系统,医生通过同构操作台完成精密手术[6] - 工程机械领域出现远程遥控挖掘机,操作员可在空调房内完成作业[6] - 人形机器人控制提出驾驶舱概念,通过多功能按钮集成实现移动与关节协同操作[68][71] 技术演进方向 - 未来可能形成纯虚(纯视觉)与纯实(力反馈外骨骼)两种互补方案[38][45] - 智能辅助系统将成为关键,类似汽车ESP的自动补偿机制可提升操作效率[125][126] - 脑机接口被视为终极解决方案,可绕过当前感知-动作转换链条的直接控制[37][144] 行业生态建设 - 标准化缺失制约发展,ALOHA系统首次提供完整硬件算法套件但尚未形成行业标准[103][109] - 机器人操作系统需从功能模块导向转向以人为中心,类似Windows的交互范式变革[146][147] - 封闭生态趋势显现,各厂商自定义中间件导致底层适配工作量大,亟需统一平台[159][160] 商业价值展望 - 遥操作将长期存在,即使实现AGI仍需要保留人类参与感和控制权[134][136] - 分身应用场景潜力巨大,可实现跨空间实体存在,但受限于图传等技术瓶颈[61][122] - 设计理念转向"Teleoperation First",将遥操作作为产品核心而非过渡方案[161][162]
Science Advances发表!南洋理工大学推出头发丝薄度传感器FMEIS,让机器秒懂肌肉「微表情」
机器人大讲堂· 2025-07-06 13:23
柔性多通道肌肉电阻抗传感器(FMEIS)技术突破 - 新加坡南洋理工大学王一凡教授团队开发出柔性多通道肌肉电阻抗传感器(FMEIS),厚度仅220μm,弹性模量212.8kPa,与人体皮肤弹性模量范围(420-850kPa)接近 [2][4] - FMEIS在手势分类任务中实现98.49%准确率,肌肉力量预测任务达到0.98判定系数(R²) [4] - 相比传统肌电(EMG)信号监测,FMEIS通过施加低强度高频电流感知肌肉组织阻抗变化,可捕捉深层肌肉(约30mm内)收缩过程中的阻抗变化 [4][10] FMEIS系统构成与性能 - 系统由4g传感器垫和53g控制单元组成,传感器垫采用超薄(220微米)高柔性(杨氏模量212.8kPa)可重复使用贴片 [6][7] - 传感器垫采用50kHz、0.4mA安全交流电流进行多通道信号注入与采集,可承受50%应变而不影响信号完整性 [7] - 控制单元运用机器学习算法处理多通道阻抗数据,手势识别准确率98.5%,肌肉力量回归拟合优度R²达0.98 [8][10] 应用场景验证 - 人机协作:通过肌肉信号解析操作意图,实现与协作机器人精密同步操作,提升工业组装效率与安全性 [19][20] - 外骨骼控制:驱动外骨骼响应延迟仅756毫秒,在增强握力实验中最大输出提升65%,有效延缓肌肉疲劳 [21][22] - 虚拟手术:精准反馈手势与力量信息控制虚拟手术刀,实现实时响应与拟真操作,未来可与触觉反馈系统联动 [23][26] 技术优势对比 - 相比商用EMG传感器,FMEIS可同时检测肌肉主动收缩和被动拉伸,而EMG仅能检测主动收缩 [17] - 在运动伪影抑制、检测深度、分辨率、兼容性、成本效益及非侵入性等关键指标上表现优异 [11] - 对三位参与者测试显示平均手势分类准确率98.49%,肌肉力量回归平均R²值0.98,显示强稳健性 [16] 产业化前景 - 该技术发表于《Science Advances》期刊,具有皮肤亲和性强、抗干扰能力优异、可重复使用等特性 [5][24] - 革新传统测量范式,为构建自然高效人机交互界面提供关键技术支撑,在康复机器人、智能可穿戴设备、神经接口等领域具广阔应用前景 [24]
赛道Hyper | Meta收购PlayAI谈判:意图与挑战
华尔街见闻· 2025-07-04 12:35
收购谈判进展 - Meta Platforms正与人工智能语音初创公司PlayAI就收购事宜展开深入谈判 [1] - 交易条款尚未最终确定,收购仍存在失败可能性 [2] PlayAI技术价值 - PlayAI专注于将人类语言转换为机器可理解的代码技术,其研发成果已被应用于虚拟助手开发 [1] - 该技术通过对人类语言的语义分析、意图识别,将自然语言转化为机器可执行指令代码,提升人机交互效率与准确性 [2] - 在虚拟助手市场,该技术能解决现有产品(如谷歌助手、苹果Siri、亚马逊Alexa)对复杂语义理解和个性化交互的局限性 [3] Meta战略布局 - 收购PlayAI是Meta在人工智能领域多维布局的举措,可补充其在语音交互技术方面的短板 [4] - PlayAI技术能帮助Meta构建更完整的AI技术栈,特别是在自然语言处理与机器理解细分领域 [4] - 技术整合后,Meta旗下Facebook、Instagram、Oculus等产品可集成更智能的虚拟助手,优化用户体验 [5][6] 人才与研发协同 - 收购PlayAI可帮助Meta吸纳语音技术领域的核心人才,为研发团队注入新思路 [7] - Meta同步推进AI人才布局,聘请OpenAI研究员Trapit Bansal负责AI推理模型研发 [7] - Trapit Bansal在深度学习、自然语言处理等领域有深厚积累,曾推动OpenAI首个AI推理模型O1的开发 [8] 潜在行业影响 - 若收购成功,Meta的语音交互与虚拟助手功能将显著优化,巩固其在社交网络、虚拟现实领域的优势 [9] - 收购可能加剧人工智能语音技术市场竞争,推动行业进入更激烈的创新竞争阶段 [9] - 无论结果如何,此次收购将为AI语音技术领域发展带来新动态 [9]
3巨头押注下一个十亿级入口:当小米、字节、华为盯上 AI 眼镜,争的不是硬件是交互主权
犀牛财经· 2025-06-30 14:51
小米AI眼镜产品发布 - 小米发布首款AI眼镜,起售价1999元,半小时内小米商城售罄,京东首日销量突破7000台 [2] - 产品定位为"随身的AI入口",重量仅40克,续航8.6小时,超越Meta Ray-Ban的4小时续航 [3] - 搭载高通骁龙AR1芯片与索尼IMX681传感器,1200万像素摄像头,针对亚洲人脸型优化 [3] - 采用"软件定义硬件"理念,内置"超级小爱"AI助手,支持多模态交互和跨设备操作 [3] - 70%组件实现国产化,光学模组成本较2024年下降30% [4] 市场策略与供应链 - 内部预期销量"三十万台往上",相比Ray-Ban Meta全球200万台销量保守 [5] - 针对中国52.7%青少年近视率,与400家眼镜门店合作提供配镜服务 [6] - 歌尔股份为独家整机代工厂,欧菲光供应摄像头模组,瑞声科技提供扬声器 [3] 技术挑战与竞争格局 - 高通AR1芯片在3D建模等重度任务可能存在性能不足 [7] - 近视用户佩戴后重量增加约30克,与"无感佩戴"设计形成冲突 [7] - 全球智能眼镜2025年一季度出货量148.7万台,同比增长82.3%,中国市场贡献49.4万台 [8] - IDC预测2025年全球AI眼镜出货量550万台,中国市场275万台 [9] 行业发展趋势 - 2023年成为行业转折点,Meta与雷朋合作产品销量突破300万台 [8] - 阵列光波导+Micro-LED技术商用落地,模组重量压缩至8克 [9] - 科技巨头将AI眼镜定位为下一代人机交互入口 [10] - AI眼镜光学组件单机价值量达TWS耳机6倍,歌尔股份等企业率先受益 [11] 行业竞争与投资 - 百度、华为加速布局,三星、字节跳动、亚马逊计划发布新品 [12] - 2024年多家AI眼镜厂商获得单笔数千万元融资 [11] - 雷鸟创新AI眼镜已覆盖全球25国,北美及日韩市占率超40% [12]
蔚来申请一种人机交互方法相关专利,对同一种手势事件进行功能复用
金融界· 2025-06-20 20:24
公司专利技术 - 公司申请一项名为"人机交互方法、系统、触控模组、控制器、车辆及介质"的专利,公开号CN120179141A,申请日期为2023年12月 [1] - 专利涉及车辆控制技术领域,旨在提高交互体验感,通过触控模组识别手势事件并与应用场景匹配,实现功能复用和便捷更新 [1] - 专利技术可在有限空间内显著提高控制功能数量,优化人机交互体验 [1] 公司基本信息 - 公司成立于2020年,位于合肥市,主要从事研究和试验发展 [2] - 公司注册资本1800000万人民币 [2] - 公司对外投资4家企业,参与招投标项目19次 [2] 公司知识产权 - 公司拥有商标信息2332条,专利信息3037条 [2] - 公司拥有行政许可27个 [2] 新闻来源 - 新闻源自金融界,作者为情报员 [3]
培育大模型产业生态需要制度革新丨法经兵言
第一财经· 2025-06-16 19:51
大模型产业生态发展模式 - 上海形成"政策引领+生态协同+场景驱动"三位一体发展模式 具有示范效应 [1] - 大模型产业生态需通过基础模型研发推动人工智能商业化落地应用 [2] 大模型定义与特征 - 人工智能大模型基于深度神经网络构建 参数规模达数十亿至数万亿 [2] - OpenAI完成行业标准定义 DeepSeek实现架构创新和工程优化 大幅降低训练与推理成本 [2] - 大模型产业生态由数据/算法/算力要素 多元主体和多层级产业链组成复杂体系 [2] 生态形成必要性 - 大模型技术复杂 需协同整合高质量数据与算力资源 [3] - 通用大模型需结合场景精准适配 生态化可降低研发成本提升创新效率 [3] 生态形成必然性 - 数据/算法/算力三要素强耦合性决定生态化发展方式 [3] - 开源趋势吸引开发者接入 多场景碎片化需求驱动产业链协同 [3] 发展趋势 - 多模态融合实现文本/图像/语音/视频处理与跨模态推理 [4] - 开源生态降低应用门槛 加速跨行业资源共享与场景创新 [5] - 人机交互增强环境交互性与自主性 应用于交通/医疗/工业等领域 [5] 制度革新需求 - 需构建符合大模型发展规律的制度体系 实现技术刚性与制度弹性平衡 [7] - 基础设施层需推动数据分类分级与算力合理布局 [7] - 技术模型层需建立统一标准 加强开源社区管理与知识产权保护 [8] - 服务应用层需建立责任分类模式 压实平台内容合规责任 [9] 治理原则 - 需平衡创新发展与安全运行 为应用创新留空间同时划定红线 [10] - 平台需明确数据获取底线 调整避风港原则与合理使用原则适用 [10]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑的物流分拣视频,显示其在实际工作场景中的表现[1] - 机器人能够灵活处理多种形态包裹,包括硬纸盒、聚乙烯袋、信封等可折叠或弯曲物品[10] - 通过即时调整抓取策略,机器人可对不同形态包裹采取不同处理方式,如双手翻转纸盒或单手轻捏信封边缘[13] 技术性能提升 - 通过扩展高质量演示数据集和改进Helix神经网络架构,机器人工作稳定性和性能显著提升[7] - 包裹平均处理速度达到4.05秒,吞吐量提高58%,条形码识别成功率从88.2%升至94.4%[17] - 引入视觉记忆、状态历史和力反馈模块,使机器人具备时间背景感和环境适应能力[20][22][28] 系统功能特点 - 机器人具备自主学习能力,能够从演示中学习自适应行为如拍打塑料包装抚平条形码[15] - 采用端到端学习模型,可实现人机自然交互,无需单独程序即可识别人类交接物品的意图[31] - 新策略使条形码识别成功率提升至94%,处理时间降至4.05秒,精度保持在92%以上[30] 行业应用前景 - 技术改进使机器人系统更加灵巧可靠,接近人类水平的工作速度和准确性[19] - 机器人参与物流工作引发行业对效率和成本优势的关注[37] - 仿人型机器人在物流领域的应用引发关于外形设计与效率关系的讨论[39]
拿下数亿订单,大型央国企是其客户,深圳人形交互机器人公司融资数千万|早起看早期
36氪· 2025-06-12 07:48
公司融资与背景 - 数字华夏完成数千万元天使+轮融资 由同创伟业独家投资 资金将用于技术研发 产品迭代和生产交付提速 [4] - 公司成立于2024年3月12日 聚焦AGI机器人规模商用 核心产品包括仿人机器人夏澜 通用人形机器人夏起和IP系列机器人星行侠 [4] - 创始人沈健有20年IT头部企业管理经验 曾带领公司实现从0到100亿营收 核心团队来自国内外顶尖高校 具备商业化经验及客户资源 [6] 行业前景与战略 - 中国人形机器人市场规模预计2025年达30亿美元 复合年增长率19.7% 交互服务机器人占比最大 [8] - 交互服务领域机器人技术成熟度更高 商业化潜力显著 需求日益旺盛 仿人机器人多场景适配能力强 [8] - 公司采用1+3+3战略布局 搭建巨号®具身智能交互平台 集成多模态感知 情感洞察和类人垂域智能功能 [8] 产品与技术 - 夏澜®仿人机器人搭载29个主动自由度 实现面部颈部精准表情表达 具备多模态交互能力 支持复杂环境自主移动 [9] - 星行侠®是首款双形态人形机器人 支持轮式/双足自由切换 覆盖1万平米以上区域 续航超10小时 可跨楼层任务 [11] - 夏起®通用人形机器人面向工业制造 商超服务等场景 提供接待引导 智慧康养等功能 [9] 商业化进展 - 已构建客户IP定制 联合运营和自有IP三大商业模式 与瑞贝卡合作在门店部署夏澜®作为展示模特 [12] - 2024年已获数亿元订单 客户包括头部ICT厂商 地方电网 大型国央企及高校 预计年内交付上千台 [12] - 产品开始小规模交付 通用和仿人机器人系列已进入交付阶段 [3][12] 投资方观点 - 同创伟业认为具身机器人是万亿级赛道 数字华夏选择交互服务场景具有差异化优势 [13] - 看重公司研发能力和场景落地能力 创始人产业背景深厚 客户拓展策略成熟 [13]
深度|AI语音独角兽11Labs创始人:“人性”中的不完美,恰恰是人愿意互动的关键
Z Potentials· 2025-06-09 11:34
公司概况 - ElevenLabs是一家2022年由前谷歌工程师Piotr Dabkowski与前Palantir策略师Mati Staniszewski创立的AI语音合成公司,专注深度学习技术开发自然语音 [2] - 2025年1月完成1.8亿美元C轮融资,估值达33亿美元 [2] - 年经常性收入(ARR)已突破1亿美元,语音转文本模型Scribe v1支持99种语言且准确性领先 [3][2] 技术突破 - 核心技术突破在于让AI语音加入"人性化特征"如笑声、呼吸音等不完美细节,使合成声音更真实有情感 [9][19] - 首次重大突破发生在2022年11月,实现AI模拟人类笑声并获用户积极反馈 [10][13] - 语音转文本模型采用Transformer架构和Diffusion Models技术,最初聚焦影视配音但扩展至更广泛交互场景 [8][9] 产品应用场景 - 已应用于医疗领域帮助渐冻症患者重建声音,包括协助美国国会议员在失声后继续工作 [26] - 与游戏公司合作复刻角色语音(如Darth Vader),保持角色特质同时支持低延迟交互 [20] - 物流行业客户通过加入语气词使语音Agent通话完成率提升2个百分点 [19] 行业趋势 - 语音交互将向多模态发展,未来1-2年实现"语音版图灵测试"(无法区分AI与人类) [15][16] - 交互式媒体(如游戏NPC对话)和智能客服是下一个爆发场景,将重构传统客户支持流程 [21][22] - 语言壁垒将被打破,AI可实现跨语言语音转换并保留原说话者情感语调 [40][41] 商业模式 - 采用基础研究+产品开发双轨模式,既研发底层模型也构建终端应用 [30][31] - 典型客户落地周期为3个月完成概念验证,1年内正式上线 [24] - 企业应用分两类:效率优化(如客服自动化)和增长驱动(如交互式品牌体验) [23][25] 安全机制 - 采用内容溯源系统,所有生成语音可追踪至创建者身份 [34] - 开发公开分类器检测AI生成语音,未来计划通过设备端加密验证真人发声 [35][36] - 提出三层认证体系:真人验证、授权Agent水印、未认证内容默认标记为AI生成 [37] 企业文化 - 受Disney启发注重叙事能力,通过技术使用户融入产品故事线 [42][43] - 管理层定期参与客户支持,保持与终端用户的直接联系 [44] - 核心优势在于专注语音领域并整合研究与应用,形成技术壁垒 [30][44]
【深圳特区报】数字华夏创始人兼CEO沈健:用“有温度”的机器人开启人机交互新时代|创新创业深圳人
搜狐财经· 2025-06-03 07:40
人形机器人行业与数字华夏公司发展 行业趋势与公司定位 - 人形机器人被视为"硅基生命",未来有望像碳基人类一样无所不能,但目前技术相当于三四岁孩子的水平[8] - 行业正在解决"有无问题",商业化不必等待技术完美,可先专注单一品类再扩展[11] - 深圳的产业基础、创新基因和创业氛围成为吸引机器人企业的重要因素[9] 公司创始人与战略转型 - 创始人沈健拥有18年计算机行业经验,曾带领企业实现从1亿元到百亿元营收的跨越[9] - 2023年底决定转型人形机器人领域,认为机器人本质是"大号计算机",可复用算力、算法和数据积累[9] - 2024年3月成立数字华夏,定位通用人工智能机器人规模化商用,战略方向为"人形交互机器人"[10] 产品技术与创新 - 女性全脸人形机器人"夏澜"拥有29个电机,能模拟人类41块面部肌肉,表情通过算法实时生成而非预设[10] - 产品具备视觉识别、声源定位和情绪感知能力,可产生共情反馈,实现"有温度"的交互[10] - 产品线包括"夏澜"(全脸)、"夏起"(半脸头盔式)和"星行侠"(轮足可分离式),覆盖导购、陪护、政务等场景[10] 商业化进展与目标 - 成立5个月即发布产品,首年获超4亿元意向订单[11] - 2024年销售额突破数千万元,2025年目标为数亿元[11] - 短期聚焦细分领域专家角色(如银行引导员、养老陪护员),长期目标为家庭全能保姆[11] 市场反馈与行业影响 - "夏澜"在2024年世界机器人大会亮相后引发广泛关注[10] - 交互能力测试显示机器人可对答如流、即兴编笑话,获"出乎意料地好"评价[1] - 公司提出"人因设计"理念,从外形到交互逻辑均追求"有温度",引领交互机器人新模式[10][12]