用一个8B开源模型，京东把AI推向物理世界

文章核心观点 - AI交互模式正从被动的“回合制”问答，转向主动的、基于实时视觉感知的“在场”式交互，京东开源的JoyAI-VL-Interaction模型是这一转变的关键实践，其核心是解决“何时交互”而非“如何回答”的问题[2][3][5] - 该模型通过一个轻量化（8B参数）的前台模型持续观察视频流，判断环境变化的重要性并决定是否响应或委托后台处理，旨在以低延迟、低成本的方式将AI深度融入物理世界的运营场景[11][14] - 京东的战略是通过开源中等规模、高效率的模型系列（包括JoyAI-VL-Interaction, JoyAI-LLM Flash, JoyAI-Image, JoyAI-RA），构建一套连接感知、判断与行动的AI系统工程，以支撑其“全球最大物理世界运营中心”的愿景，将AI从屏幕内的工具转变为组织真实世界生产力的系统[15][16][17][18][21] AI交互范式的转变 - 当前多模态AI的交互模式主要是“回合制”，即用户提问、AI回答，这种模式不适合持续变化的真实世界，真正的需求在于AI能在变化发生、人未及反应时主动介入[2][3] - 理想的AI应具备“在场”能力，能够像现场同事一样，通过持续观察视觉等环境信号，自主判断何时该说话、何时该保持沉默、何时该将复杂任务委托给后台系统[5][7] - 交互的难点在于让AI学会人类的社交隐性能力——知道何时不打扰，JoyAI-VL-Interaction将“沉默”设计为一个需要学习的动作，以避免AI变得烦人[8] JoyAI-VL-Interaction模型的技术特点与优势 - 模型定位为实时视觉语言交互模型，核心目标是判断交互时机，而非单纯提升回答质量[5] - 采用轻量化设计，参数量为8B，目标是在单张RTX 3090级别显卡上即可部署，强调低延迟和低成本持续在线[11] - 采用前后台分工架构：前台轻量模型负责“看情况”，实时感知并判断是否响应；后台强大模型负责“想明白”，处理复杂推理和任务[11] - 采用了AdaCodec视频编码和长程记忆设计，能高效处理连续视频流，对稳定画面使用少量token表示，在变化发生时投入更多资源，实现低成本巡检与有事迅速聚焦[14] - 在人类评测中表现优异：在六个真实流式场景中，相比豆包内视频通话助手的整体胜率为77.6%，相比Gemini的整体胜率为87.9%，在监控预警场景中对两者的胜率均为100%，优势体现在更早、更准地判断该不该说[8][9] 京东的AI战略与业务协同 - 京东的业务涵盖仓储、配送、零售、健康、工业等密集连接线下流程的场景，其“全球最大物理世界运营中心”的愿景需要AI将真实世界的状态变化转化为可理解、可预测、可调度的数据和动作[15] - 京东的AI布局是一套系统工程：JoyAI-LLM Flash（中等规模高效模型）、JoyAI-Image（视觉理解与空间智能）、JoyAI-RA（具身智能）、JoyAI-VL-Interaction（现场交互），共同目标是让AI能在物理世界中持续观察、判断并触发行动[16][17] - 战略逻辑形成闭环：物理世界业务提供场景和数据，开源模型吸引开发者和生态，具身智能连接感知与行动，最终通过各类终端将AI能力带回现场，目标是提供一种高效组织真实世界的能力[20][21] 开源的意义与未来应用场景 - 开源8B轻量级模型具有现实意义，使得开发者能部署、企业能试点、硬件厂商能嵌入，从而有机会在大量真实场景中被反复打磨，让真实需求参与定义下一代交互[14][18] - 实时视觉交互让AI从“被召唤”变为“在现场”，其应用想象力在于琐碎但高价值的物理世界运营场景，如家庭看护、门店缺货与排队管理、工厂安全监控、机器人决策等，这些场景的及时性与低成本是AI转化为生产力的关键[18] - 模型的开源是寻找和验证场景的开始，标志着AI竞争正从屏幕内的问答走向屏幕外的运营[18]