Workflow
AI视频交互
icon
搜索文档
“AI,你帮我挑个木瓜?”实测豆包视频通话功能 一场AI“视觉交互”争夺战已打响
每日经济新闻· 2025-05-28 07:49
字节跳动AI视频交互功能升级 - 字节跳动旗下AI智能助手"豆包"App上线视频通话功能,基于视觉推理模型支持联网搜索[2] - 新功能展示出持续记忆和逻辑推理能力,在识别水果成熟度等日常场景表现突出[2] - 大模型算法工程师评价豆包视频理解与语音交互能力在中文语境处于第一梯队[2] 豆包视觉理解模型技术细节 - 火山引擎总裁谭待去年12月发布豆包视觉理解模型,具备内容识别、理解、推理等能力[3] - 新模型经过5个月开发实现实时视频通话功能[3] - 功能支持四大生活场景:花草识别、博物馆讲解、书籍推荐、食材搭配[5] 功能实测表现 - 在水果挑选测试中能通过表皮颜色、饱满程度等指标给出建议[5] - 展现出色记忆能力,能记住镜头一闪而过的书籍并准确回忆[6] - 结合实时搜索功能可对书籍内容、作者生平进行自然延伸讨论[6] 行业竞争格局 - 国内"智谱清言"App于2024年8月率先推出C端视频通话功能[7] - OpenAI的GPT-4o和谷歌Project Astra均具备实时语音视频交互能力[7] - Web端AI智能助手总访问量4月份首次出现下降,显示行业进入新阶段[9] 商业化前景 - 豆包通过抖音生态快速触达用户,3月接入抖音后关注度提升[9] - 可与抖音内容审核AI结合识别违规短视频内容[9] - AI视频交互在虚拟人直播、视频归纳总结等场景应用前景广阔[9] - AI眼镜等新硬件可能成为未来重要应用载体[9]