多模态交互
搜索文档
客易云数字人接入Banana API:以无缝融合开启智能交互新维度的“技术桥梁”
搜狐财经· 2026-01-11 01:04
核心观点 - 客易云数字人接入Banana API,旨在通过构建标准化、高兼容的“技术桥梁”,解决传统数字人开发中技术栈割裂、接口兼容性差的问题,为企业提供“一次接入、全域调用”的集成解决方案,重新定义数字人与业务系统的协同模式 [1] 技术架构与集成方案 - Banana API通过统一的技术架构与协议标准,消除了数字人接入第三方系统时因接口协议不匹配、数据格式不兼容导致的技术壁垒 [2] - 企业无需针对不同系统调整底层代码,只需通过Banana API的“适配器层”将数字人能力映射为标准化的服务接口(如RESTful API、WebSocket),即可快速接入现有系统 [2] - 该方案支持“一次开发、多端复用”,例如某零售企业可将数字人客服嵌入自有APP、小程序与线下智能终端,数字人能自动识别调用场景并保持交互逻辑一致性,显著降低企业集成成本并提升服务覆盖范围 [2] 动态扩展与业务适配 - Banana API通过“低代码配置引擎”解决业务需求快速迭代的难题,企业无需修改代码,仅需通过可视化界面调整接口参数(如修改语音语调、更新知识库),即可让数字人快速适应新业务场景 [5] - 例如,某教育机构在开学季需将数字人从“日常答疑”模式切换为“课程推荐”模式,通过上传新课程资料、设置推荐规则,数字人即可自动生成个性化推荐话术,实现“配置即生效”的灵活性 [5] 多模态交互能力 - Banana API通过“多模态感知融合层”,实现对用户输入的“全维度解析”,例如识别语音内容时分析语调情绪,结合图像识别技术理解图片需求,通过计算机视觉捕捉表情与肢体动作以优化回应策略 [6] - API支持多模态输出的协同生成,数字人的语音、表情、手势会根据内容情感自动匹配,例如讲解严肃话题时保持端正坐姿与平稳语调,分享趣闻时配合微笑与手势,提供更自然、人性化的服务体验 [6] 安全与可控性 - 在数据安全方面,采用“端到端加密+本地化部署”方案,企业可选择将数据存储于自有服务器或授权云平台,确保交互数据不留存于外部系统 [7] - 在隐私保护方面,严格遵循最小化数据收集原则,仅获取业务必需信息(如语音内容、商品ID),并通过匿名化处理防止用户身份泄露 [7] - 在内容合规方面,企业可通过“敏感词过滤+回复审核”功能,对数字人的输出内容进行实时监控,确保符合行业规范 [7] - API提供详细的调用日志与权限管理系统,企业可精细控制接口的访问权限,并追溯每一次交互的详细记录,为风险管理提供依据 [7] 开放生态与协同创新 - Banana API不仅向企业开放,还为开发者、研究机构提供“轻量级”接入方案,开发者可通过SDK快速集成数字人能力构建创新应用,研究机构可使用测试接口进行学术研究并将成果反哺至接口优化 [9] - 例如,某高校团队基于Banana API开发了“数字人心理测评”应用,通过分析用户语音中的情感特征与回答逻辑评估心理状态,该研究已应用于企业员工心理健康管理 [9] - 某独立开发者利用Banana API的“形象生成+动作控制”接口,创建了“数字人虚拟主播”工具,用户上传脚本即可生成带表情、手势的直播视频,获得大量内容创作者使用 [9] - 这种开放生态加速了数字人技术的迭代,并通过产业链协同降低了企业的创新成本 [9] 行业影响与价值 - 该解决方案以无缝融合为纽带,以动态扩展为支撑,以多模态交互为桥梁,以安全可控为保障,构建起“技术共享、场景共创、价值共生”的数字人集成新范式 [10] - 从降低企业集成门槛到推动行业协同创新,从保障数据安全到支持灵活扩展,该方案为企业提供了“即插即用”的数字人能力,助力更多行业拥抱AI时代 [10]
美股盘前要点 | 特朗普拟猛增军费预算,商务部回应审查Meta收购Manus
格隆汇· 2026-01-08 20:37
全球股指期货与市场情绪 - 美国三大股指期货齐跌,纳指期货跌0.25%,标普500指数期货跌0.17%,道指期货跌0.34% [1] - 欧股主要指数集体下跌,德国DAX指数跌0.08%,英国富时100指数跌0.31%,法国CAC指数跌0.25%,欧洲斯托克50指数跌0.32% [2] 美国政策与地缘政治动态 - 美国总统特朗普表示将把2027年军费预算增加到1.5万亿美元,并要求国防企业加大生产和研发投入、停止股票回购和派息 [3] - 美国副总统万斯称,委内瑞拉只有在“符合美国利益”的情况下才能出售其石油 [4] - 雪佛龙据报与美国政府磋商扩大委内瑞拉运营许可,以增加原油出口 [7] 科技与半导体行业 - 3nm制程供不应求,台积电调高报价并已暂停新案启动 [6] - 阿里云发布多模态交互开发套件,可应用于AI眼镜、机器人等 [15] - 京东成立“变色龙业务部”,第二批自研AI玩具将于1月中旬全面上线 [16] - 小鹏开年发布四款新车,并计划今年规模量产人形机器人和飞行汽车 [17] 能源与大宗商品 - 埃克森美孚预计因油价下跌导致第四季利润减少8亿至12亿美元 [8] 国防与航空航天 - 洛克希德马丁去年向美国及其盟国交付191架F-35战斗机,创下该项目交付纪录 [9] 金融与支付业务 - 摩根大通将取代高盛,成为苹果信用卡业务的合作伙伴 [10] - 特朗普旗下加密企业World Liberty申请银行牌照,拟拓展30亿美元稳定币业务 [13] 汽车与自动驾驶 - 福特拟于2028年将L3级驾驶辅助系统推向市场,允许驾驶员解放眼睛和双手 [11] 娱乐与媒体 - 2025年好莱坞五大厂票房榜出炉,迪士尼以65.8亿美元全球票房遥遥领先 [12] 企业并购与商业动态 - 商务部回应审查Meta收购Manus时表示,企业从事对外投资等活动须符合中国法律法规 [5] - 艾伯维否认洽购癌症药物开发商Revolution Medicines [14] - 霸王茶姬回应赴港上市传闻称暂无计划 [18] 企业战略与展望 - FF宣布FX Super One三阶段交付并发布机器人战略,预计三年内现金流为正 [19]
阿里云发布全新多模态交互开发套件 可应用于AI眼镜、机器人等
智通财经· 2026-01-08 14:22
产品发布与核心功能 - 阿里云全新发布集成通义千问、万相、百聆三款基础大模型的多模态交互开发套件 [1] - 该套件能听、会看、能思考并与物理世界交互,可应用于AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备 [1] - 套件预置了十多款覆盖生活休闲、工作效率等领域的Agent和MCP工具 [1] 技术适配与性能优化 - 套件在芯片层面适配了30多款主流ARM、RISC-V和MIPS架构终端芯片平台,满足绝大多数硬件设备的快速接入需求 [1] - 未来通义大模型将与玄铁RISC-V实现软硬全链路协同优化,以实现大模型在RISC-V架构上的极致高效部署和推理性能 [1] - 阿里云针对多模态交互场景推出专有模型,全面支持全双工语音、视频、图文交互,端到端语音交互时延低至1秒,视频交互时延低至1.5秒 [1] 应用场景与解决方案 - 套件预置的MCP工具和Agent覆盖生活、工作、娱乐、教育等多个场景,例如出行规划Agent可调用路线规划、旅行攻略等能力 [1] - 在AI眼镜领域,基于千问VL、百聆CosyVoice等模型打造了完整交互链路,可实现同声传译、拍照翻译、多模态备忘录、录音转写功能 [2] - 面向家庭陪伴机器人场景,解决方案可实时监测异常状况并告警,支持用户基于关键词查找视频、与机器人对话及控制设备 [2] 生态扩展与平台能力 - 该套件接入了阿里云百炼平台生态,用户可添加其他开发者提供的MCP和Agent模板 [2] - 套件通过A2A协议兼容三方Agent,极大程度扩展了应用能力边界,帮助企业灵活搭建业务场景 [2]
联想发布Yoga Mini i迷你主机:小巧便携,性能强劲
新浪财经· 2026-01-08 09:30
产品发布与规格 - 联想于2026年1月7日在国际消费类电子产品展览会期间推出全新Yoga Mini i迷你主机 [2][3] - 该设备重量为600克,机箱体积为0.65升,采用铝合金材质圆柱形设计,兼顾便携性与结构强度 [2][3] - 产品集成了扬声器与麦克风模块,支持多模态交互体验,并内置加速度计与触摸感应功能 [2][3] - 设备搭载指纹识别模块,旨在提升安全性与使用便捷性 [2][3] 硬件与连接配置 - 硬件最高可选配英特尔Core Ultra X7系列358H处理器,搭配最高32GB的LPDDR5X内存和2TB PCIe 4.0固态硬盘 [2][3] - 无线连接支持Wi-Fi 7与蓝牙6.0标准,具备基于Wi-Fi信号变化感知用户存在的功能,可实现自动唤醒 [2][3] - 接口提供两个雷电4接口和两个全功能USB-C Gen 2接口,同时保留USB-A及HDMI接口 [2][3] - 设备最高支持四台显示器同步输出,满足多种外设连接需求 [2][3] 定价与上市计划 - 该机型预计起售价为699.99美元 [2][3] - 产品计划于2026年6月正式上市 [2][3]
30亿美元天价收购以色列公司,英伟达在下一盘怎样的大棋?
中国汽车报网· 2026-01-04 16:51
文章核心观点 - 英伟达正加速布局汽车智能化与电动化赛道,其战略正从硬件供应商向“算力平台+智能解决方案”的AI生态构建者转变,近期拟以高达30亿美元收购以色列AI初创公司AI21 Labs是此战略的关键举措 [2][5][6] 英伟达收购AI21 Labs的动因 - 收购目标公司AI21 Labs是一家专注于自然语言处理和生成式AI的以色列初创公司,在**多模态交互**和**数据高效处理**方面有突破性进展 [3] - AI21 Labs的多模态技术能融合文本、图像、语音等信息,实现更自然智能的车载人机交互,提升驾驶便捷性与安全性 [3] - 其数据高效处理算法能快速清洗、分析海量数据,缩短模型训练时间,提高准确性,该优势在需要实时处理大量数据的车路协同场景中尤为突出 [3] - 收购不仅看重技术成果,更看重其顶尖AI研发团队及其未来潜力,该团队能为英伟达在车载AI模型训练、车路协同数据处理等关键领域注入技术活力 [4] 英伟达的战略转型与业务布局 - 公司正从以GPU硬件著称的芯片巨头,向汽车领域大力拓展,加速从单一芯片供应商向“算力平台+智能解决方案”供应商的角色转变 [5][6] - 通过整合AI21 Labs的资源,英伟达未来可能为汽车智能化提供全方位解决方案,例如利用其NLP技术实现更智能的语音交互,或结合其数据处理技术提升自动驾驶系统的决策准确性与安全性 [6] - 在汽车芯片市场,英伟达的业务布局迅速扩张,其技术能融合多种传感器数据提供更全面的环境感知,并提供涵盖自动驾驶和智能座舱的综合解决方案,这与一些侧重纯视觉方案或仅定位座舱芯片的供应商形成差异 [7] - 英伟达下一代Thor平台算力达**2000TOPS**,将推动车企从分布式电子架构向集中式架构加速转型,这对芯片算力要求日益提升,可能挤压传统芯片巨头的市场份额 [7] 行业竞争格局与发展趋势 - 汽车智能化竞争已从单一芯片性能比拼,升级为“算力硬件+算法模型+数据生态+场景服务”的全栈战争 [8] - 市场竞争激烈,新兴势力如特斯拉带来巨大挑战,其自研的FSD芯片和神经网络架构将在自动驾驶计算能力上与英伟达直接竞争 [8] - 为巩固技术优势,英伟达需持续保持高研发投入,其**2024年研发费用达60亿美元**,反映了对技术创新的高度重视 [8] - 未来五年,汽车智能化发展的核心命题将是垄断与创新的博弈、开放与封闭的竞争,构建开放的产业生态系统能促进技术共享与创新 [9] - 算力已成为汽车智能化新的“石油”,行业竞争刚刚拉开序幕,车企和芯片企业需不断提升技术实力与创新能力以应对挑战 [9]
海尔消费金融公布11周年成绩单:服务新市民近2000万
证券日报之声· 2025-12-26 19:37
公司成立11周年业绩概览 - 公司服务实名新市民用户达1945万人,累计放款额约1724亿元 [1] - 公司依托AI驱动的技术体系,拥有超70%的科技风控人才团队 [1] - 公司累计提交专利申请超730项,拥有600余个在线运营系统,其中95%以上为自主研发 [1] 核心业务与产品创新 - 公司创新推出“智家分期”服务,通过产业贴息实现0利息分期模式 [1] - “智家分期”业务已覆盖全国2000余家海尔专卖店,累计分期金额达1.3亿元 [1] - 在“国补+企补”双惠政策中,公司率先接入银联云闪付分期服务,实现国家补贴与金融机构免息优惠全流程衔接,消费者从申请到支付成功不足1分钟 [1] - 单场专项活动可推动合作门店零售额提升30%以上 [1] 技术研发与前沿应用 - 公司技术研发重点聚焦AI、多模态交互、大模型应用等前沿领域 [1] - 公司600多个在线运营应用中95%以上为自主研发 [1] 融资结构与资金支持 - 2025年,公司落地行业首单“科技金融+绿色金融”(ESG)可持续发展挂钩银团贷款,金额为9亿元 [1] - 公司累计发行资产支持证券(ABS)近112亿元,融资成本持续优化 [2] - 多元且低成本的融资优化了公司资产负债期限结构,并为普惠金融场景创新、AI技术研发提供了资金支持 [2]
海尔消金发布11周年成绩单:发行ABS总规模112亿元,累计为新市民放款约1724亿元
经济观察网· 2025-12-26 17:31
公司融资表现与市场认可 - 公司资产证券化累计发行规模已接近112亿元,成为其多元化融资矩阵中的关键组成部分 [1] - 2025年内,公司在公开市场成功发行两期ABS产品,累计规模达30亿元 [1] - 其中第二期ABS的优先A档票面利率低至1.80%,创下当年消费金融行业同类产品利率新低,凸显资本市场对其资产质量与经营能力的充分认可 [1] - 低成本、高效率的ABS发行持续优化了公司的资产负债期限结构,降低了综合融资成本,为核心业务发展注入充沛动能 [1] - 公司已构建起涵盖股东资金、同业拆借、金融债、ABS、银团贷款等在内的多元化融资矩阵,彰显了强劲的融资能力与市场认可度 [2] 业务规模与用户数据 - 公司服务实名新市民用户1945万人,累计放款额约1724亿元 [2] - 智家分期业务已覆盖全国2000余家海尔专卖店,累计分期金额1.3亿元 [2] - 单场专项活动可推动合作门店零售额提升30%以上,其中80%的服务对象为年轻奋斗者 [2] 科技能力与研发投入 - 公司依托AI驱动的技术体系,拥有超70%的科技风控人才团队 [2] - 公司累计提交专利申请超730项,拥有600余个在线运营系统 [2] - 在600多个在线运营应用中,95%以上为自主研发,重点聚焦AI、多模态交互、大模型应用等前沿领域 [2]
从“抖音同款”到“豆包同款”:视频云正在进入 Agent 时代
搜狐财经· 2025-12-25 01:22
火山引擎视频云的战略进化:从“抖音同款”到“豆包同款” - 公司音视频技术战略发生根本性转变,从提供移动互联网时代“看得清、看得爽”的经典能力,进化为AI时代打造“豆包同款”的生成式智能 [1][2][17] - 此次进化旨在满足用户对音视频能力的新要求,即视频不仅能“看”,还要能“听”、“理解”并与人“对话” [2] - 技术升级覆盖从底层传输、核心引擎到顶层应用的全栈重构,旨在为下一个十年的交互方式做准备 [14][17] 底层技术支撑:AIGC传输系统 - 推出支撑豆包等大规模AI应用的AIGC传输系统,以处理视频、音频、图像、文字等多模态信息,满足AI理解与互动需求 [4] - 该系统支持实时、长连接的多模态数据传输,覆盖从实时音视频到Push-to-Talk半实时语音等多种交互场景 [4] - 内置弱网对抗机制,以保障复杂网络环境下用户与智能体互动的流畅性 [4] - 该系统能支撑大规模、高并发和突发业务场景下的AIGC多模态数据实时传输,提供稳定、实时、可扩展的能力 [5] 核心引擎升级:AI MediaKit与MIPP - 将传统媒体工具套件升级为AI MediaKit,作为面向AI云原生时代的效率工具 [6] - AI MediaKit将抖音、豆包业务中打磨成熟的媒体处理技术,封装成更细粒度的原子能力,并引入大模型的多模态理解与AIGC生成能力 [6] - 该引擎能提升内容生产效率和体验,通过预设可配置的AI工作流,优化数据预处理、后处理及并发任务,降低延时 [9] - 结合分布式多媒体智能处理平台MIPP,实现对底层原子能力的统一编排与调用 [5] - 以“声影智译”为例,结合豆包大模型与视频云能力,实现包括文本、声音、面容翻译在内的视频多模态翻译,达到业务生产水平 [9] 顶层应用:音视频互动智能体 - 提供完整的音视频互动智能体解决方案,降低企业构建门槛,企业可直接调用以快速搭建 [10] - 智能体关键升级在于感官体验更接近真人,并拥有特定场景的知识和技能 [10] - 通过模型精调,使智能体回复更口语化,覆盖20多种情绪状态及多种表达方式,并能根据上下文动态调整语速、音调甚至方言 [10] - 强化长期记忆功能,通过持续记录历史交流内容,使交互个性化,智能体可主动提供信息与建议 [11] - 在教育场景,通过声音复刻等技术,AI老师能与线上真人老师高度一致 [11] - 在游戏场景,如TapTap游戏陪玩Agent,能感知游戏进程并提供专业攻略指导 [12] - 在创作场景,能通过多轮对话理解用户意图,提升视频生成等创作的可控性与效率 [13] 智能硬件与未来趋势 - 联合乐鑫推出“喵伴”硬件开发套件,支持开箱即用,5分钟跑通业务链路,并兼容多硬件设备以降低适配成本 [13] - 未来趋势包括多智能体协作的多人群聊,为视频会议、AI教学、游戏等带来更复杂的互动体验 [13] 服务侧拓展:助力中国AI应用出海 - 国产AI应用出海已成浪潮,2025年Q1中国AI应用全球市场份额跃升至7.9%且持续增长 [14] - 公司通过体系化出海解决方案,帮助企业解决体验差、不稳定、成本高等挑战 [15] - 推出智能全球加速方案,优化大模型请求、训练数据传输等场景的全球访问速度与稳定性 [15] - 推出支持超100种语言的Conversational AI解决方案,支持音视频、图像等多模态交互 [15] - 已助力多个中国AI应用出海,例如麦芽短剧依托“声影智译”实现高效AI视频翻译与无障碍全球化传播 [15] - 从内容生产、分发到变现,公司构建了完整的出海价值链条,将技术优势转化为可规模化的业务价值 [16]
QuestMobile:豆包、DeepSeek、元宝周活跃用户位居前三
凤凰网· 2025-12-23 13:17
AI原生应用市场格局 - 截至最新统计周期(12月08日至12月14日),AI原生APP周活跃用户前三名为豆包(1.55亿)、DeepSeek(8156万)、元宝(2084万)[1] - 蚂蚁阿福(1025万)、千问(872万)、豆包爱学(722万)构成周活跃用户第二梯队[1] - 从2025年7月到11月,超过200款AI应用面世,其中AI应用插件、PC网页端、AI原生APP的占比分别为81.5%、10.7%、7.8%[2] AI大模型发展现状 - 截至2025年11月,8个主流厂商合计推出409个大模型[1] - 这些大模型中,单模态、多模态和全模态的占比分别为61.4%、36.7%、1.9%[1] - 多模态交互成为主流,其中“多模态输入”到“单模态输出”的占比高达73.3%[1] 产业投融资与垂直应用 - 2025年7月至11月,产业链共完成186起投融资,总金额达336.7亿元人民币,较上半年增长20.8%[1] - 应用方向上,深度洞察用户需求的垂直应用成为突破口[2] - 具体垂直应用中,AI图像处理、AI专业顾问、AI效率办公、AI社交互动、AI文案写作的占比分别为24.9%、18.5%、6.8%、5.9%、5.9%[2]
虎鲸文娱发布tudoo Tbox AI主机
财经网· 2025-12-15 18:22
公司动态 - 虎鲸文娱集团于12月15日推出全新家庭娱乐AI硬件品牌“tudoo”并发布首款产品tudoo Tbox AI主机 [1] - tudoo Tbox是一款外接式AI主机,无需更换现有电视即可将传统大屏升级为智能终端 [1] - 产品深度融合通义千问AI能力,并搭配AI高清摄像头、AI指向遥控器与AI远场语音等配件 [1] - tudoo Tbox标准版定价为1499元人民币,计划于12月18日20:00在全网各大电商平台开售 [1] 产品功能与定位 - 产品核心功能是让上千个移动端App深度适配大屏生态,无需投屏即可实现刷短视频、玩游戏、购物点外卖、视频通话等操作 [1] - 通过AI能力赋能,使普通电视具备体感交互、AI语音控制、AI伴学、分屏双开等功能 [1] - 产品旨在将电视从单一观影设备转变为覆盖家庭运动、多任务处理等多元场景的家庭智能交互中枢 [1] - 该产品被描述为融合AI智能与多模态交互的“新物种”,标志着家庭娱乐进入“玩电视”的新时代 [1]