小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现
量子位·2025-07-16 15:02
AI宠物技术实现 - 核心硬件采用3D打印底座和圆锥形头顶,悬挂一条触手结构,触手源自SpiRobs机器人,能抓取尺寸相差超两个数量级、重量达自身体重260倍的物体[8][10] - 视觉系统通过立体摄像头追踪触手末端,使用YOLO模型进行3D三角测量校准[12][31] - 触手控制采用2D映射简化操作,通过电脑触控板拖动光标即可调整触手动作[22][23] 控制系统架构 - 低级控制层结合开环预设动作(如点头)和闭环RL策略(如手指跟踪),立体视觉约束RL观察空间[25][26] - 高级控制层采用GPT-4o实时API处理语音与视觉事件,无需微调即可下达底层指令[26][27] - 为增强生命感,在待机状态加入轻微摇摆行为,并通过Prompt工程解决LLM调用问题[28][29] 强化学习与仿真优化 - 在MuJoCo中重建软体触手模型,设置目标跟踪环境,使用PPO策略梯度结合MLP和帧堆叠训练[33] - 添加动力学随机化(质量、阻尼、摩擦)以贴近真实环境,通过控制惩罚和指数移动平均解决抖动问题[36][37] - 最终实现仿真到真实环境的迁移,验证控制策略有效性[38] 开发者背景与灵感来源 - 开发者Matthieu Le Cauchois为ML工程师,研究方向包括强化学习、NLP,曾创立AI公司Typeless并被Doctolib收购[39][41][42] - 项目灵感源自皮克斯台灯机器人,强调通过动作和时机传递情绪意图,动物形态设计增强宠物陪伴感[48][49][53] - 工程文件开源,包含3D打印CAD数据和控制脚本,支持低成本复现[20][54]