想让AI进家门,不能靠手机
虎嗅APP·2026-03-12 18:24

AI行业发展趋势:从模型参数到物理世界应用 - 人工智能领域的焦点已从追求模型参数规模,转向如何让AI在现实物理世界中扎根并真正走进生活[2] - 多模态技术的快速发展,正推动大模型能力边界从语言智能向视觉智能延伸,使AI能够“看懂”画面,并构建对时空、物体关系、人物行为的完整理解,从而建立关于“正在发生什么”的情境认知[2] 物理世界AI入口的重新定义 - 多模态时代,家庭作为人们现实世界最密切的互动单元,是寻找AI第一入口的关键[3] - 手机作为过去十年的智能中心,存在根本性局限:其“注意力”属于用户而非环境,捕捉的是经过用户主观意图过滤的“第三人称快照”,无法提供连续、无感、全景客观的感知能力[6][7][8] - 在所有家庭设备中,摄像头是最接近“物理世界连续信息流”的终端,具备7×24小时在线、持续“看”和“听”的能力,能够为多模态大模型提供理解现实世界所需的“燃料”[8][10] - 多模态AI的第一入口不是手机,而是能够“思考”的摄像头[9] 家庭看护需求的升级与技术空白 - 家庭看护的核心需求已从“看见异常”升级为“理解风险”[12] - 传统摄像头依赖像素变动和简单规则设定进行异常判断,缺乏对看护对象、行为、场景、时序、因果的综合理解,导致用户被大量误报和无效预警淹没,形成“伪安全感”[12] - 多模态大模型具备填补此技术空白的能力,能够对正在发生的事件进行整体解读[13] 小度智能摄像头的产品范式跃迁 - 公司将自研的多模态大模型能力深度集成到智能摄像头硬件载体上,以应对技术拐点与需求迭代[13] - 新范式将看护体验从“像素检测”升级为“行为理解”,能够执行理解行为链的推理分析,本质是告诉用户“谁在做什么、判断可能的风险、主动洞察甚至干预”[16] - 支持用户通过自然语言设置任意看护事件(如“孩子靠近灶台”),AI会自动分析需求并拆解生成包含具体对象、行为的视觉行为模型,实现从用户意图到可执行任务的转化[17] - 重构录像检索逻辑,从时间轴查询升级为语义检索,用户可通过语音或App直接询问(如“宝宝今天上午哭了几次?”),AI将完成目标识别、行为识别、时空推理、频次分析、自动摘要的全链路分析,直接提供总结描述、对应画面及风险提示[18] - 具备实用的寻物功能,用户询问后,摄像头可实时环视检测并回溯24小时内视频画面,帮助定位物品最后出现位置[19] 从设备到家庭智能决策节点的跃迁 - 产品通过整合视觉感知、AI事件理解、语音交互、智能联动等能力,实现了从设备到“家庭Agent”的跃迁,将体验从“被动监控”升级为“主动看护”[20] - 在伴学场景中,可基于用户指令(如“帮我陪孩子写作业”)主动进行坐姿提醒、注意力分散预警,并生成陪学看护报告,记录学习过程与成果[20] - 产品正成为家庭智能系统的决策节点,可联动控制阅读灯光、卧室窗帘等其他设备[20] 对家庭AI入口及行业格局的战略影响 - 公司此次产品升级不仅是一次迭代,更是对整个家庭智能入口的一次提前下注[22] - 当摄像头能看、能听、能思考、还能联动全屋设备,它便从孤立的安防设备转变为家庭智能系统的“感知中枢”[22] - 未来的家庭智能将是多个感知节点组成的决策系统,而摄像头提供的视觉信息是串联各设备无缝协作的关键线索[24] - 基于时间周期的个性化挖掘分析(如分析老人起夜频率、孩子专注度变化)将赋予摄像头超越“家庭安防”的价值[25] - 在物理世界多模态入口的争夺中,公司选择了一条差异化路径:让AI主动走向物理世界,将入口“藏”进现实空间已有的设备里,而非延续将多模态能力塞进手机App的旧逻辑[27] - 公司的举措表面是产品升级,实则是赛道的重新定义,将家庭AI入口之争拉到了“谁的设备能让物理世界自身觉醒”的新维度[28][29] - 家庭AI入口的最终答案可能不是特定硬件,而是谁能最先跑通“感知-理解-决策-执行”的完整闭环[30]

想让AI进家门,不能靠手机 - Reportify