文章核心观点 - 行业正从被动“预测下一个Token”的问答模式,向主动“预测下一个物理状态”的交互范式演进,AI需成为真实世界的主动参与者[6][8] - 京东开源全球首个全栈开源实时视觉语言交互模型JoyAI-VL-Interaction,旨在解决传统AI在快速变化或无声场景下“来不及提问”的局限性,通过视觉驱动实现自主判断与响应[4][6][10] - 视觉是AI感知物理世界不可替代的通道,视觉交互模型是连接物理与数字世界、实现具身智能的关键,其应用将重塑人机协同方式[17][20][37] 模型技术与能力总结 - 模型定位与能力:JoyAI-VL-Interaction是全球首个全栈开源实时视觉语言交互模型,能在连续视频流中自主判断何时回应、保持沉默或分发复杂任务[6][14] - 性能表现:在六个真实流式场景测试中,对阵国内头部模型胜率达77.6%,对阵国外模型胜率达87.9%,在监控预警场景胜率达100%[17] - 技术特点与设计:模型将语音作为可插拔I/O,视觉语言成为驱动决策的“一等驱动模态”[14] 模型被设计为8B参数的前置交互层,负责环境感知与即时沟通,复杂任务分发给后台Agent[23][24] 通过视频编码、长程记忆和上下文压缩等技术,实现亚秒级端到端延迟,支持在单张3090显卡上部署[23][24][27] - 开源生态:模型、推理系统及应用搭建路径全栈开源,已获得vLLM-Omni的day-0支持并合入主线,降低开发者部署门槛[23][26][28] 行业趋势与竞争格局 - 范式转变共识:行业共识认为AI正从“预测下一个Token”转向“预测下一个物理状态”,交互性作为模型自身能力来规模化是未来方向[6][13] - 先行者判断:京东与Thinking Machines Lab几乎同时提出交互模型概念,强调自主响应范式相较于传统问答具有更大的人机协同想象力空间[12][13] - 竞争差异点:相比多数聚焦语音交互的玩家,京东选择以视觉为核心切入,源于其更接近物理世界运营现场的战略位置和真实业务需求[20] 应用场景与市场潜力 - 核心应用场景:模型适用于老人儿童看护、盲人辅助、AI眼镜、赛事解说、门店巡检、仓储物流、机器人协作等无需用户主动提问的场景[15] - 具体应用想象:包括赛事直播自动解说、股票盯盘异常提醒、家庭安全预警、AI眼镜环境识别、服务盲人等[30] 长期看,模型将赋能机器人、无人车、仓储、门店等物理空间,使其成为“有分寸感”的智能助手[30][34] - 京东战略落地:京东物流计划五年内投入300万台机器人、100万台无人车、10万架无人机,这些硬件将成为模型的重要应用载体[36] 公司战略与数据壁垒 - 物理世界数据资产:京东拥有3000多个覆盖零售、物流、健康、工业的真实业务场景,是训练视觉交互与具身模型最稀缺的燃料[20][31][33] - 数据采集计划:公司宣布两年内积累1000万小时高质量真实场景视频数据,动员60万人参与采集,并已建成具身智能数据采集中心及全链路数据基础设施[33] - 多模态布局:一个月内连续开源专注于实时理解交互的JoyAI-VL-Interaction和擅长长视频实时生成的JoyAI-Echo,打通了视频多模态的输入与输出两端[34] - 长期愿景:京东旨在成为“全球最大物理世界运营中心”,通过开源推动主动交互从实验走向主流,让AI更深入地融入物理世界[35][37]
京东和Open AI前CTO Mira Murati,押注了同一个AI赛道