文章核心观点 - AI交互模式正从被动的“回合制”问答,转向主动的、基于实时视觉感知的“在场”式交互,京东开源的JoyAI-VL-Interaction模型是这一转变的关键实践,其核心是解决“何时交互”而非“如何回答”的问题[2][3][5] - 该模型通过一个轻量化(8B参数)的前台模型持续观察视频流,判断环境变化的重要性并决定是否响应或委托后台处理,旨在以低延迟、低成本的方式将AI深度融入物理世界的运营场景[11][14] - 京东的战略是通过开源中等规模、高效率的模型系列(包括JoyAI-VL-Interaction, JoyAI-LLM Flash, JoyAI-Image, JoyAI-RA),构建一套连接感知、判断与行动的AI系统工程,以支撑其“全球最大物理世界运营中心”的愿景,将AI从屏幕内的工具转变为组织真实世界生产力的系统[15][16][17][18][21] AI交互范式的转变 - 当前多模态AI的交互模式主要是“回合制”,即用户提问、AI回答,这种模式不适合持续变化的真实世界,真正的需求在于AI能在变化发生、人未及反应时主动介入[2][3] - 理想的AI应具备“在场”能力,能够像现场同事一样,通过持续观察视觉等环境信号,自主判断何时该说话、何时该保持沉默、何时该将复杂任务委托给后台系统[5][7] - 交互的难点在于让AI学会人类的社交隐性能力——知道何时不打扰,JoyAI-VL-Interaction将“沉默”设计为一个需要学习的动作,以避免AI变得烦人[8] JoyAI-VL-Interaction模型的技术特点与优势 - 模型定位为实时视觉语言交互模型,核心目标是判断交互时机,而非单纯提升回答质量[5] - 采用轻量化设计,参数量为8B,目标是在单张RTX 3090级别显卡上即可部署,强调低延迟和低成本持续在线[11] - 采用前后台分工架构:前台轻量模型负责“看情况”,实时感知并判断是否响应;后台强大模型负责“想明白”,处理复杂推理和任务[11] - 采用了AdaCodec视频编码和长程记忆设计,能高效处理连续视频流,对稳定画面使用少量token表示,在变化发生时投入更多资源,实现低成本巡检与有事迅速聚焦[14] - 在人类评测中表现优异:在六个真实流式场景中,相比豆包内视频通话助手的整体胜率为77.6%,相比Gemini的整体胜率为87.9%,在监控预警场景中对两者的胜率均为100%,优势体现在更早、更准地判断该不该说[8][9] 京东的AI战略与业务协同 - 京东的业务涵盖仓储、配送、零售、健康、工业等密集连接线下流程的场景,其“全球最大物理世界运营中心”的愿景需要AI将真实世界的状态变化转化为可理解、可预测、可调度的数据和动作[15] - 京东的AI布局是一套系统工程:JoyAI-LLM Flash(中等规模高效模型)、JoyAI-Image(视觉理解与空间智能)、JoyAI-RA(具身智能)、JoyAI-VL-Interaction(现场交互),共同目标是让AI能在物理世界中持续观察、判断并触发行动[16][17] - 战略逻辑形成闭环:物理世界业务提供场景和数据,开源模型吸引开发者和生态,具身智能连接感知与行动,最终通过各类终端将AI能力带回现场,目标是提供一种高效组织真实世界的能力[20][21] 开源的意义与未来应用场景 - 开源8B轻量级模型具有现实意义,使得开发者能部署、企业能试点、硬件厂商能嵌入,从而有机会在大量真实场景中被反复打磨,让真实需求参与定义下一代交互[14][18] - 实时视觉交互让AI从“被召唤”变为“在现场”,其应用想象力在于琐碎但高价值的物理世界运营场景,如家庭看护、门店缺货与排队管理、工厂安全监控、机器人决策等,这些场景的及时性与低成本是AI转化为生产力的关键[18] - 模型的开源是寻找和验证场景的开始,标志着AI竞争正从屏幕内的问答走向屏幕外的运营[18]
用一个8B开源模型,京东把AI推向物理世界