京东和Open AI前CTO Mira Murati，押注了同一个AI赛道

文章核心观点 - 行业正从被动“预测下一个Token”的问答模式，向主动“预测下一个物理状态”的交互范式演进，AI需成为真实世界的主动参与者[6][8] - 京东开源全球首个全栈开源实时视觉语言交互模型JoyAI-VL-Interaction，旨在解决传统AI在快速变化或无声场景下“来不及提问”的局限性，通过视觉驱动实现自主判断与响应[4][6][10] - 视觉是AI感知物理世界不可替代的通道，视觉交互模型是连接物理与数字世界、实现具身智能的关键，其应用将重塑人机协同方式[17][20][37] 模型技术与能力总结 - 模型定位与能力：JoyAI-VL-Interaction是全球首个全栈开源实时视觉语言交互模型，能在连续视频流中自主判断何时回应、保持沉默或分发复杂任务[6][14] - 性能表现：在六个真实流式场景测试中，对阵国内头部模型胜率达77.6%，对阵国外模型胜率达87.9%，在监控预警场景胜率达100%[17] - 技术特点与设计：模型将语音作为可插拔I/O，视觉语言成为驱动决策的“一等驱动模态”[14] 模型被设计为8B参数的前置交互层，负责环境感知与即时沟通，复杂任务分发给后台Agent[23][24] 通过视频编码、长程记忆和上下文压缩等技术，实现亚秒级端到端延迟，支持在单张3090显卡上部署[23][24][27] - 开源生态：模型、推理系统及应用搭建路径全栈开源，已获得vLLM-Omni的day-0支持并合入主线，降低开发者部署门槛[23][26][28] 行业趋势与竞争格局 - 范式转变共识：行业共识认为AI正从“预测下一个Token”转向“预测下一个物理状态”，交互性作为模型自身能力来规模化是未来方向[6][13] - 先行者判断：京东与Thinking Machines Lab几乎同时提出交互模型概念，强调自主响应范式相较于传统问答具有更大的人机协同想象力空间[12][13] - 竞争差异点：相比多数聚焦语音交互的玩家，京东选择以视觉为核心切入，源于其更接近物理世界运营现场的战略位置和真实业务需求[20] 应用场景与市场潜力 - 核心应用场景：模型适用于老人儿童看护、盲人辅助、AI眼镜、赛事解说、门店巡检、仓储物流、机器人协作等无需用户主动提问的场景[15] - 具体应用想象：包括赛事直播自动解说、股票盯盘异常提醒、家庭安全预警、AI眼镜环境识别、服务盲人等[30] 长期看，模型将赋能机器人、无人车、仓储、门店等物理空间，使其成为“有分寸感”的智能助手[30][34] - 京东战略落地：京东物流计划五年内投入300万台机器人、100万台无人车、10万架无人机，这些硬件将成为模型的重要应用载体[36] 公司战略与数据壁垒 - 物理世界数据资产：京东拥有3000多个覆盖零售、物流、健康、工业的真实业务场景，是训练视觉交互与具身模型最稀缺的燃料[20][31][33] - 数据采集计划：公司宣布两年内积累1000万小时高质量真实场景视频数据，动员60万人参与采集，并已建成具身智能数据采集中心及全链路数据基础设施[33] - 多模态布局：一个月内连续开源专注于实时理解交互的JoyAI-VL-Interaction和擅长长视频实时生成的JoyAI-Echo，打通了视频多模态的输入与输出两端[34] - 长期愿景：京东旨在成为“全球最大物理世界运营中心”，通过开源推动主动交互从实验走向主流，让AI更深入地融入物理世界[35][37]