Workflow
豆包视频通话功能
icon
搜索文档
中信建投:多模态产品密集更新,关注WWDC及字节火山大会进展
快讯· 2025-06-09 08:27
多模态动态更新 - 谷歌在2025I/O大会上推出Veo3视频生成模型,实现AI视频音画同步 [1] - 豆包上线视频通话功能,支持实时视频交流及屏幕分享 [1] - 快手宣布可灵AI ARR在2025年3月突破1亿美金,4月和5月月度付费金额均突破1亿人民币 [1] 行业会议展望 - 苹果WWDC2025和字节Force2025原动力大会即将召开 [1] - 多模态模型和端侧AI产品有望加速落地 [1]
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
量子位· 2025-05-26 16:18
国产AI突破视觉理解能力 - 国产AI豆包成功解决大模型识别时钟难题,能通过视频实时准确报时,从4点14分到4点15分[1][2][3] - 豆包新增视频通话功能,实现边看边聊的交互方式,并接入联网搜索提升回答准确性和时效性[4][5][6] - 视频通话功能可实时总结微博热搜等网络热点新闻,增强互动趣味性和可靠性[7][8] 视频通话功能实测表现 - 豆包能作为看剧搭子,实时识别《甄嬛传》剧情并分析角色动机,如判断祺贵人企图借皇后之手扳倒甄嬛[15][16][17] - 在生活场景中,豆包可识别食材并详细讲解烹饪步骤,解决做菜难题[20][21][22] - 教育场景表现突出,能准确识别物理题、论文和代码,提供详细解题过程和答案[23] 核心技术能力解析 - 豆包·视觉理解模型具备强大内容识别能力,可精准识别物体类别、空间关系及文化知识,如识别猫的影子或丁达尔效应[24][25][26][27][30] - 模型拥有复杂逻辑计算能力,在教育场景中能理解微积分题目并进行推理计算[33][34] - 视觉描述和创作能力支撑视频通话功能实现又快又准的交互体验[35][36] 行业影响与趋势 - AI与人类交互方式正向更趣味化、实用化方向发展,视频通话功能体现技术落地价值[37] - 视觉理解技术的突破为AI在娱乐、教育、生活服务等场景的应用开辟新路径[15][20][23]