多模态交互
搜索文档
虎鲸文娱发布tudoo Tbox AI主机
财经网· 2025-12-15 18:22
12月15日,虎鲸文娱集团推出家庭娱乐AI硬件新品牌"tudoo",并发布首款家庭智能终端产品——tudoo Tbox AI主机,作为一款外接式AI主机,tudoo Tbox无需更换现有电视,即可将传统大屏升级为具备移 动端体验、AI能力与多种操控方式的智能终端。 有了tudoo Tbox AI主机,上千个移动端App可以深度适配大屏生态,不用投屏即可一家人刷短视频、玩 游戏、购物点外卖、视频通话,摆脱卡顿困扰;与通义千问AI能力的深度融合,搭配AI高清摄像头、 AI指向遥控器与AI远场语音,普通电视也将具备体感交互、AI语音控制、AI伴学、分屏双开等功能, 让电视从单一观影设备向家庭运动、多任务处理等多元场景延伸,成为家庭生活的智能交互中枢。 这款融合了AI智能与多模态交互的"新物种",不仅打破了传统电视只能"看"的功能局限,更标志着家庭 娱乐迈入"玩电视"的新时代。据了解,tudoo Tbox标准版定价1499元,将于12月18日20:00在全网各大电 商平台正式开售。 ...
快手可灵2.6模型上线 “音画同出”重构AI视频创作工作流
证券时报网· 2025-12-04 11:14
产品技术升级 - 快手旗下可灵AI正式推出视频生成2.6模型,核心能力为“音画同出”,改变了传统AI视频生成“先无声画面、后人工配音”的工作流程 [1] - 模型升级了文生音画、图生音画两大功能,能在单次生成中输出包含自然语言、动作音效及环境氛围音的完整视频,极大提升创作效率 [1] - 通过对物理世界声音与动态画面的深度语义对齐,该模型在音画协同、音频质量和语义理解上表现亮眼,中文语音生成效果全球领先,支持生成中英文视频,视频长度最长可达10秒 [1] - 可灵AI公布了多段涉及赛事解说、多人对白、音乐表演等场景的视频,展示其音画自然、同步且流畅的效果 [1] - 可灵AI自诞生以来经历多次重要迭代,今年9月底推出的2.5 Turbo模型在文本响应、动态效果、风格保持、美学质量等多个维度实现提升 [1] 商业化进展与战略规划 - 可灵AI在商业化营收上不断取得突破,预计2025年全年收入将达到1.4亿美元(约10亿元人民币),较年初制定的6000万美元(约4.3亿元人民币)目标提升超过100% [2] - 公司明确可灵AI的愿景为“让每个人都能用AI讲出好故事”,将聚焦于AI影视创作这一核心目标,聚合资源深入打磨技术与产品能力 [2] - 在具体迭代方向上,可灵将围绕技术领先性与产品想象力双线推进,结合多模态交互理念(如MVL)和用户需求洞察,持续升级基础模型与产品能力 [2] 资本开支与算力投入 - 在可灵收入增长与AI业务整体进展超预期的背景下,公司正不断追加算力投入 [3] - 鉴于用户对视频生成模型的需求持续增强,快手已多次扩充可灵在推理侧的算力,同时随着模型加速迭代,公司也开始提升训练算力以保持技术前沿性和竞争力 [3] - 除可灵本身外,公司在其他AI业务赋能方面也同步增加了相关资本开支,预计2025年集团整体Capex支出将较去年实现中高双位数的增长 [3]
第五届未来视听创新大赛“沉浸式交互视听赛道”复赛路演在京举办
新京报· 2025-11-20 21:42
大赛活动概况 - 第五届未来视听创新大赛“沉浸式交互视听赛道”复赛路演于11月19日在北京举办 [1] - 大赛由北京市广电局与北京市新闻工作者协会共同主办,主题为“视听无界 价值共融” [1] - 赛道重点聚焦沉浸式交互视听领域的前沿探索与产业融合,致力于推动虚拟与现实在视听体验中的深度结合 [1] 技术方向与项目征集 - 赛道围绕VR/AR/MR、多模态交互等前沿技术展开项目征集与评选 [1] - 共吸引来自全国20个省、自治区、直辖市的181组项目报名,25组优秀项目晋级复赛 [1] - 项目应用场景涵盖文旅文博、教育科普、线下娱乐等领域 [1] 评审机制与合作 - 评审团由来自国家广播电视总局广播电视科学研究院、中国信息通信研究院、中国传媒大学等机构的专家组成 [1] - 评审维度包括内容呈现效果、技术应用水平、作品创新亮点、商业价值、社会效益以及现场路演表现 [1] - 现场设置沉浸式设备体验区与项目对接洽谈区,邀请银行、投资机构及产业园区代表参与互动交流 [1] 未来发展规划 - 大赛将持续发挥平台聚合作用,深化“政、产、学、研、金”协同机制 [2] - 围绕技术研发、成果转化、市场应用等关键环节,为优秀项目提供政策指导、资本赋能与资源对接等“一站式”服务 [2]
小米生态老兵出手,咖啡机器人要白菜化了?
观察者网· 2025-11-19 18:05
公司战略合作 - 影智科技与绿联智能联手在松江投建咖啡机器人工厂,计划产能达万台,目标年营收突破15亿元[1] - 合作模式为“生态链操盘手+制造老兵”,绿联智能掌舵人李波手握追觅、石头、海尔等巨头的代工订单,是机器人制造领域的隐形冠军[1] 行业市场潜力 - 2023年全球消费级机器人市场规模达68亿美元,预计2028年将突破150亿美元,年复合增长率接近17%[4] - 中国咖啡市场规模近3000亿元,被视为机器人最好的试炼场[4] - 2023年全球消费级机器人市场增速超27%,但自动咖啡机的家庭渗透率仍徘徊在1%以下,商用市场发展缓慢[3] 产品技术优势 - XBOT咖啡机器人通过算法重构咖啡标准线,控制0.1克咖啡粉、1毫升奶泡的误差[1] - 采用多模态交互技术,压力传感系统可实时调整萃取参数,视觉识别模块自动适配不同杯型,并能通过用户扫码反馈记住个性化需求[5] - 与英伟达生成式AI技术合作,允许消费者自定义咖啡印花[5] - 建立全链路管控体系,对物料来源进行严格限定,配比精度锁定在0.1克级,并通过内置近红外光谱传感器实时检测咖啡豆新鲜度与研磨度[8] - 设备自带温湿度监控和清洁度感应模块,对存储环境和机器状态进行双重预警,确保风味标准化[8] 成本与供应链 - 通过核心部件国产化替代与规模化生产,松江工厂投产后XBOT定价为18.9万元,比同类产品低30%以上[7] - 极低的运维成本使商家回本周期可控制在12个月内[7] - 绿联智能每年为追觅、石头、海尔代工数百万台智能设备,具备强大的成本控制与供应链韧性[4] 行业痛点与解决方案 - 行业存在“伪智能”陷阱,市面上80%的产品只是按预设程序完成磨粉萃取,无法读懂杯型差异或调整风味[5] - XBOT通过技术升级解决了风味标准化问题,确保不同地点的设备制作出的同一杯拿铁味道分毫不差[8] - 当前咖啡自动售货机赛道因核心部件依赖进口,同类产品单价多在30万元以上,制约市场渗透[7] - 行业存在风味失控和食品安全问题,如使用劣质咖啡豆、牛奶存储温度超标、设备清洁不到位等乱象[7]
小度宣布全系产品升级“超能小度” AI助手迈入“多模态”时代
中国经济网· 2025-11-13 19:36
产品发布与升级 - 小度科技在2025百度世界大会上正式发布全新升级的多模态AI智能助手“超能小度”并宣布全系、全量、全生态上线 [1] - 公司宣布将推动数千万台已售小度设备免费升级至超能小度 [1] - 搭载超能小度的硬件新品同步亮相,包括小度AI眼镜Pro、小度智能摄像机C1200三摄版和C800视频通话版、小度智能音箱Fun [1] 技术能力与交互体验 - 超能小度实现了从“语音”到“多模态”的感知交互能力进化,基于AI原生操作系统,具备更强大的视觉理解和推理思考能力 [1] - 依托自研的极速架构,超能小度的响应速度得到大幅优化 [1] - 在家庭看护场景中,公司首创“AI随心看护”功能,可对人、宠特定行为进行自定义看护提醒,并通过语音播报和全屋设备联动进行主动干预 [2] 市场拓展与生态合作 - 基于超能小度的能力加持,公司全面进军家庭摄像机领域 [2] - 超能小度已全面应用于智慧酒店、智慧养老、智能家电、智能汽车、AI玩具等行业,赋能千行百业 [2] - 公司秉持开放态度,将超能小度的能力赋能给更多行业伙伴,共同为用户创造智能、便捷、人性化的体验 [2]
从“给答案”到“教动脑”:这届小学生被AI教会主动思考
量子位· 2025-11-11 12:24
行业现状与痛点 - AI+教育浪潮汹涌,ChatGPT、谷歌等巨头纷纷推出相关产品,有学校要求学生每天花两小时与AI助手学习[2] - 当前多数AI教育产品本质是效率工具,追求快速响应、批改和给出答案,停留在授人以鱼层面[2] - 直接给出答案的模式掩盖了学生思维过程缺失,导致一听就会、一做就废和盲目刷题的循环[2] 产品核心功能与特点 - 小思AI1对1从被动应答工具进化为能主动引导、完成教学闭环的师者[4] - 基于多模态感知能力,可同时看懂纸上笔迹、听懂学生表达,并以自然语言实时讲解引导[5] - 通过拍头唤醒,支持语音或手指题目方式启动讲解,精准识别题目[8] - 讲解过程采用纸屏互动,引导孩子将解题步骤亲手写在纸上,并实时识别批改每一步[10][11][12] - 实现一题多解,根据学段选用相应解题方法,并圈划题目关键信息[12] - 讲解完成后进行整体回顾与重点总结,帮助理解同类题型解题思路[14] - 具备个性化教学方案,在孩子持续出错时灵活转换思路和提问角度,并判断认知负荷调整节奏[21] - 通过情绪感知技术捕捉孩子情绪变化,给予鼓励或祝贺,并生成情绪总结报告推送家长[21][22] - 自动构建动态学情图谱,基于行为模型生成个性化学习规划,实现千人千面教学[22] - 支持拍照上传学校习题试卷,持续跟踪学情进行动态诊断与精准反馈[23] - 备考时可自动筛选薄弱环节,优先呈现易错题型与未掌握题型[25] 技术路径与核心能力 - 公司采用软硬一体与自研主导的AI原生派技术路径,难以被快速复制[30][31] - 为实现低延迟、多模态、沉浸式交互和深度个性化教学,软硬一体化是必然选择[31] - 自研T系列学习机作为AI老师物理载体,前置高清摄像头和内置传感器算法实现低延迟纸屏同步[32] - AI老师能力包含解题准确性和讲题能力两个维度,前者客观讲求逻辑正确,后者主观体现教学设计水平[32] - 解题环节依托自研九章大模型(MathGPT),承担全学科解题、批改、分步讲解任务,获教育大模型5级与教育智能体4+级双项最高认证[34] - 采用双模型架构,引入通用大模型DeepSeek增强开放对话与逻辑推理能力[34] - 将二十余年教研团队授课经验、解题策略与课堂互动逻辑数据注入大模型,使AI掌握教学思维而不仅是答题能力[34] - 全链路自研体系保障安全,题目经过真人审核甚至三轮审核机制,数据隐私有防控管理机制[37] - 自研意图理解模块搭配可插拔调度大模型保障专业准确,安全机制覆盖全流程[37] 行业演进与未来展望 - AI教学系统正经历从答题工具到AI学伴再到AI老师的演进过程[38] - 公司CTO提出AI老师L1-L5分级,核心标准是AI在多大程度上替代传统课外辅导角色[40][41] - 学而思AI老师能力目前已一只脚迈入L3阶段,在题目讲解场景实现多模态交互+个性化引导+实时批改与自适应讲解的系统化学习链[44] - 小思学习机可自由调度的AI能力有七十多种,涵盖精准学、批改、弱项练习、口语训练等多方面[45][46] - 未来AI老师需在教學能力、认知理解能力、交互能力三方面持续推进,学习机有望向具备教育感知与情感交互的陪伴式机器人演进[47]
科大讯飞推出全新多模态数字人
36氪· 2025-11-06 12:00
公司产品发布 - 科大讯飞在11月6日1024开发者节上正式推出数字人导览产品“小飞” [1] - “小飞”具备高度多模态交互能力并已实际上岗 [1] - 产品突破简单问答局限,能够实现多人自由对话和多语种交流 [1] - 产品具备个性化记忆能力,可记住访客历史信息并进行贴心提醒 [1]
前小米 OS 高管创业:你的下一部「手机」未必是手机
Founder Park· 2025-11-05 18:54
AI时代交互变革 - AI将重塑消费电子行业,从交互、软件到硬件都将发生根本性变化 [12][13] - 未来交互将从“指令式”转变为“需求式”,AI能理解模糊需求并完成中间决策和执行 [18][19] - 多模态交互成为核心,需要语音、视觉等多种传感器支持 [19][22][23] 硬件形态演进 - 穿戴类设备可能成为AI交互变革的第一步,因其具备“永远在线”特性 [21] - 未来硬件将呈现多设备协同趋势,由云端AI大脑统一调度 [21][30][31] - 手机作为个人计算中心的地位将瓦解,退化为发挥大屏幕优势的设备之一 [27][28][30] 传感器重要性 - 新型硬件需要增加传感器数量,以支持AI对环境和用户状态的感知 [22][23][37] - 摄像头核心价值在于“识别”和“感知”,而非传统拍照录像功能 [38][39] - 传感器使用需平衡功耗,通过优化使用方式降低能耗 [38][39] 操作系统生态 - AI时代需要全新操作系统架构,现有图形化交互系统无法满足需求 [49] - 新操作系统应支持端云协同,实现多设备统一调度 [52] - 应用生态将发生变革,传统App形态可能消亡,转向Agent模式 [50][51] 创业公司策略 - 通用硬件价值大于专用硬件,需解决用户佩戴成本与价值感平衡问题 [45][46] - 操作系统成功关键在于找到最佳软硬件范式,而非公司规模大小 [50] - 新产品从传统品类切入但重新定义,增加传感器并探索多设备联动 [33][36][37]
十五五聚焦科技,AI进入交互发展期
东吴证券· 2025-10-27 17:51
核心观点 - AI产业正进入"模型+硬件+交互"的融合周期,重点关注具身智能、多模态交互及算力基础设施的中长期投资机会[5] - 政策焦点从"化解风险"转向"高质量发展",科技类产业有望在产业结构与资本市场中占据更核心地位[2] 周度观点与AI产业动态 - AI产业迎来多线共振:应用层、硬件层、具身智能全面推进,市场情绪延续温和复苏态势[2] - OpenAI推出AI浏览器"ChatGPT Atlas",正式切入浏览器生态,标志着AI从内容生成迈向信息入口层的竞争新阶段[2] - 三星发布混合现实设备Galaxy XR,定位"释放多模态AI潜力",代表AI与XR的融合进入实用化阶段,消费级智能硬件有望再掀创新浪潮[2] - 中国模型Qwen与DeepSeek在"六大AI模型实盘厮杀"中以37%和24%收益率领跑,标志着人工智能从文本生成迈入决策智能,赋能量化投资等智能商业化层面[3] - 宇树科技发布人形机器人Unitree H2,性能和拟人化程度显著提升,成为"具身智能"落地的主要载体[4] - 亚马逊推出"三合一"仓库机器人,摩根士丹利分析师估计到2027年可能为亚马逊节省高达40亿美元,代表雇主企业从"人工"转向"人工智能"的新风向[3] 市场表现与数据跟踪 - 美国主要科技股周度表现:英伟达市值45,261亿美元,周涨跌幅1.66%;微软市值38,920亿美元,周涨跌幅1.95%;苹果市值39,004亿美元,周涨跌幅4.17%;谷歌市值31,467亿美元,周涨跌幅2.61%;亚马逊市值23,912亿美元,周涨跌幅5.24%;Meta市值18,549亿美元,周涨跌幅2.99%;特斯拉市值14,425亿美元,周涨跌幅-1.27%[8] - AI板块走势延续结构性分化,硬件链条如算力芯片、光模块、电源管理等维持高景气[3] 行业研究与推荐方向 - 智慧交通领域政策推动建设加速,数据赋能价值释放,AI推动安防市场持续提升[15] - AI漫剧供需两旺,规模高速增长,工具升级带动产能提速,效率指数级提升[15] - AI算力需求释放,驱动核心业务量价齐升,盈利能力显著提升[15]
智元推出“灵创”平台:0代码创作,人形机器人内容生态迎来新变革
凤凰网· 2025-10-24 21:50
公司产品发布 - 智元机器人正式推出内容创作平台“灵创”,旨在向普通用户开放人形机器人复杂的内容开发流程 [1] - “灵创”平台最大特点是实现“0代码、0门槛”,用户无需专业编程或机器人控制知识即可参与创作 [1] - 平台核心功能包括强大的动作模仿能力,用户通过手机拍摄人物动作视频上传,AI即可自动化生成控制策略,使机器人精准复现动作 [1] - 动作模仿功能未来将支持手指级别的精细动作模仿 [1] - 平台整合多模态交互能力,“语音演绎”功能可通过上传文本或音频,智能生成匹配的机器人肢体语言和面部表情 [1] - 平台提供可定制化的音色与情绪选项,以增强机器人表达的真实感与沉浸感 [1] - 平台提供类似视频剪辑软件的时间轴编排工具,满足商业表演、导购等场景对长序列复杂任务的需求 [2] - 用户可将不同动作、语音和表情片段自由组合剪辑,精确控制每一帧节奏,创作连贯的“机器人故事片” [2] - 平台支持一键群控多台机器人协同表演,可为不同机器人分配差异化角色和任务 [2] - 平台内置覆盖11类场景的超过180套动作与140套表情模板,用户作品可分享至创意广场 [2] - “灵创”平台已首先适配智元旗下灵犀X2人形机器人 [2] - 公司预告将于下个月上线定义机器人个性的新平台“灵心” [2] 产品商业化进展 - 灵犀X2人形机器人现已进入量产交付阶段 [2] - 预计2025年交付量可达数千台 [2] - 机器人已开始在文娱商演、门店接待等场景落地 [2] - 平台的推出将进一步推动人形机器人从技术展示走向更广泛的规模化应用 [2]