实时交互

搜索文档
 视频生成赛道竞争白热化 百度押注“实时交互”求破局
 每日经济新闻· 2025-10-16 20:53
 AI视频生成行业发展趋势 - 行业竞争焦点正从技术性能比拼转向降低用户门槛和丰富玩法的竞争[6] - 全球技术竞赛快速推进但底层架构和技术路径日益趋同创新和用户体验成为核心突破口[6] - 行业目标是通过降低门槛和丰富玩法吸引更多用户涌入最终让用户知道怎么玩并愿意玩[6]   百度“蒸汽机”模型技术架构 - 模型采用三层结构中底层是模型层中层是工具层上层是产品层承担着AI内容生态基础设施的角色[4] - 技术架构从窗口式扩散生成升级为自回归流式扩展架构以实现可打断和可修改的实时交互[2][3] - 通过采用历史帧和稳定锚点帧技术等优化手段解决自回归机制带来的累积误差和一致性挑战[3]   实时交互的价值与应用 - 实时交互能提升信息密度将单向内容消费转变为双向互动极大提升娱乐性[3] - 浅层应用可提升广告线索质量深层应用能完成如心理咨询等场景的深度交互服务[3] - 实时交互是AI视频竞争下半场的关键能让更多人低成本参与创作从而在生态中积累势能[1]   百度视频生成业务表现与战略 - 平台视频生成量级已从百万级提升到千万级通过升级流式架构提升了生成效率[6] - 当前最明显收益是C端用户留存和使用时长提升直接带来了原有商业化模式收入增长[7] - 营销相关和内容创作是调用量最大的两大落地场景其中营销相关调用量占到约一半[7] - 公司To B端满足内部技术业务库和外部客户定制化需求To C端侧重于结合百家号等生态做大创作者生态[7]
 迈向通用具身智能:具身智能的综述与发展路线
 具身智能之心· 2025-06-17 20:53
 具身AGI的定义   - 具身AGI被定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调其人类交互能力和任务执行能力 [3]     通用具身智能路线   - 论文提出从L1到L5的五级路线图,衡量和指导具身AGI的发展,每个级别基于四个核心维度:模态、类人认知能力、实时响应能力和泛化能力 [4]   - L1(单一任务完成):机器人能够可靠地完成单一、明确定义的任务,但功能局限于特定任务领域 [7]   - L2(组合任务完成):机器人能够处理组合任务,通过将高级人类指令分解为简单动作序列来执行,但能力仍限于预定义任务和技能库 [7]   - L3(有条件的一般任务完成):机器人能够处理多种任务类别,表现出对任务、环境和人类指令的有条件泛化能力,但对全新或开放式任务的可靠性不足 [7]   - L4(高度通用机器人):机器人展现出对广泛未见任务的稳健泛化能力,具备强大的多模态理解和推理能力 [7]   - L5(全功能机器人):机器人能够满足人类日常生活的广泛需求,展现出类似人类的认知行为 [7]     现状和挑战   - 当前具身AI的能力处于L1和L2之间 [7]   - 现有的具身AI模型大多仅支持视觉和语言输入,并且输出仅限于动作空间 [8]   - 现有的机器人主要专注于任务特定的操作,缺乏高级的推理和社交互动能力 [11]   - 大多数现有的具身AI系统以半双工方式运行,即在完全接收和处理指令后才开始行动,这使得它们在动态环境中表现不佳 [14]   - 具身AI需要在推理和对话智能方面表现出色,类似于复杂的聊天机器人,并展示与人类偏好和伦理价值观的一致性 [17]     L3∼L5核心能力组件   - 全模态能力:L3+机器人需处理超越视觉和文本的多模态输入(如听觉、触觉、热感等),并生成多模态响应(动作、语音、推理等) [18]   - 类人认知行为:包括自我意识、社会关联理解、程序性记忆和记忆重组 [18]   - 实时交互:现有模型因参数量限制难以支持全模态实时响应,且计算复杂度随序列长度平方增长 [19]   - 开放任务泛化:当前模型依赖任务特定数据,缺乏物理规律的内化 [19]     L3+机器人大脑框架   - 模型结构设计原则包括全模态流式处理和动态响应 [19]   - 训练范式包括全模态从头训练、终身学习集成和物理导向训练 [20]     总结与未来挑战   - 具身AGI的发展路线图具有长期相关性 [20]   - 未来挑战包括技术障碍以及伦理、安全和社会影响等方面的挑战 [20]

