Workflow
数字人技术
icon
搜索文档
历时五年耗资21亿美元!百度收购YY直播终落幕,1000余员工融入体系
搜狐财经· 2025-09-11 11:41
收购交易与整合进展 - 百度以21亿美元完成对YY直播的收购 交易金额较最初36亿美元报价缩水42% [1][3] - YY直播1000余名员工正式融入百度职级体系 薪酬与考核机制与百度同步 [1][4] - 人力管理系统和行政流程等关键领域整合耗时近五年 [4] 公司历史与行业地位 - YY直播2008年以游戏语音工具起家 2011年推出虚拟礼物系统开辟商业化路径 [3] - 2014年直播业务营收突破20亿元 占据网络秀场市场40%份额 [3] - 移动端月度活跃用户曾达3000万 付费用户增长为核心驱动力 [3] 行业变革与挑战 - 2018年短视频平台爆发式增长 碎片化内容和强社交属性吞噬用户时长 [3] - 直播行业面临估值逻辑变迁 百度收购价格调整反映行业红利消退 [3] - 企业文化融合与跨部门协作成为整合过程中的主要挑战 [4] 技术创新与协同效应 - YY直播推出AI伴播数字人"灵儿" 覆盖6000余个直播间 日均服务超百万用户 [6] - 数字人技术使直播间互动量提升30% [6] - 百度数字人直播创纪录 罗永浩数字人直播6.5小时调用知识库1.3万次 生成9.7万字讲解内容 [6] 商业化成果与前景 - 罗永浩百度电商首秀GMV超5000万元 [6] - 数字人分身与助播配合完成8300余个动作 创下带货新标杆 [6] - 技术协同显现商业价值 部分商品带货量超越真人首秀 [6] - 百度电商重构期与YY直播运营经验形成互补 或实现商业化突破 [6]
2025年ai数字人API接口哪家强?深度解析
搜狐财经· 2025-09-04 23:23
数字人API服务商技术特点 - 拟娲数智云提供文本生成与数字人模式功能 以无人直播为主推产品 支持低延迟 高性能 高并发的数字人流媒体服务 适用于在线直播 助理播报 视频内容制作等场景 具有功能全面 兼容性强 高稳定性特点 支持高并发且性价比较好[1] - 拟娲数智云数字人API接口提供丰富自定义选项 用户可根据品牌调性调整数字人外观 声音和行为模式 实现品牌数字化形象一致性[1] - 客栈云拥有3D高斯溅射引擎 声纹-肌肉直驱编码器等自研技术 支持4K画质实时切换 端到端延迟低于120毫秒 在直播电商 虚拟客服等高并发场景表现突出[3] - 客栈云具备自主研发程度高 低成本优势 声称同等效果下成本为大厂三分之一 高并发处理能力强 对画面质量和实时性要求高的场景提供竞争力解决方案[3] - 即梦AI与火山引擎合作提供数字人OmniHuman模型 支持单图加音频生成数字人视频 动作模仿DreamActor M1模型支持图片加模板视频驱动 适用于宣传带货 影视游戏创作 互动表演 专业解说 虚拟人创作 内容营销等领域[3] - 即梦AI背靠字节跳动技术实力 数字人API技术底蕴深厚 模型经过大规模产品验证 提供丰富前沿模型 为开发者创造更多创新可能性[3] - 腾讯云提供稳定高效数字人API服务 在数字人形象定制和声音复刻方面经验丰富 交互数智人API支持多种驱动方式 适用于智能客服 虚拟主播 教育培训等行业场景[3] - 华为云MetaStudio数字人口型精准 动作自然 支持文字 语音 视频驱动 依托海量算力资源满足批量生成及高并发场景需求 特别适合教育培训 智能客服等领域[4] - 拟娲开发平台V2版本优化口型匹配精准度 具备智能情感感知功能 拥有数字人训练 克隆分身 对口型 口播视频等多种API接口 适用于在线客服 智能导览 教育培训 直播带货等多领域[4] 数字人技术行业应用 - 数字人技术应用场景不断扩展 涵盖虚拟主播 智能客服 企业培训 直播带货等领域[1] - 直播带货场景需要数字人强调表现力和互动性 智能客服场景更注重准确性和稳定性[5] 企业选择数字人API的核心考量维度 - 需明确应用场景需求 不同场景对数字人要求各异[5] - 技术能力评估包括数字人真实感 口型同步准确度 动作自然度 语音质量等技术指标 实时交互场景中延迟是关键指标[5] - 成本效益分析需了解服务商计价方式 包括按调用次数 按生成时长 包月包年 并发通道数等 并根据业务预计使用量估算成本[5] - 集成与技术支持需查看API文档清晰完整性 了解服务商技术支持能力 代码示例和最佳实践丰富度[5] - 数据安全与合规性对金融 医疗 政务等敏感领域至关重要 需重点关注服务商数据安全策略和合规能力[5] 数字人技术发展前景 - 数字人技术正重塑人机交互体验 为企业数字化转型提供新动能[5] - 随着人工智能技术进步 数字人API接口将变得更加智能 自然和易用 为企业创造更多价值[6] - 数字人未来将在更多领域发挥重要作用 成为连接虚拟与现实的重要桥梁[6]
凌云光202509004
2025-09-04 22:36
公司业务与业绩表现 * 公司2025年上半年主营收入和利润增长超过25% 归母净利润增长10%[3] * 视觉系统业务环比增长37% 同比增长43% 其中消费电子行业占比达50%[3] * 印刷包装业务同比增长16% 原客业务同比增长28%[3] * 国际印刷包装业务2024年收入6000万元 2025年预计突破1亿元[5] * 光学动捕收入同比增长接近两倍[10] 技术创新与研发进展 * 立体视觉运动捕捉技术应用于必森智能机器人运动轨迹捕捉[4] * 多相机形象系统实现数字人技术突破 与央视合作灯塔项目[4] * AI大模型与恩捷合作实现12000多个缺陷归类 质量管理水平提升两个数量级[4] * 拥有200多个算法工具 其中60%完成智能化升级 新增100多个3D算法工具[16] * 发布光学动捕2.6版本 3.0版本正在研发中[21] * 研发重点集中在软算 光学成像及自动化领域[14] 战略布局与业务拓展 * 确定以FC Motion光学动捕为主航道 服务影视 文娱 无人系统和军人智能领域[9] * 在新能源领域围绕光伏和锂电展开 服务新汽车外观机等产品[11] * 拓展汽车 新能源汽车行业应用 包括动力总成整线制作系统 热成型切割及车辆底盘检测[17] * 元科事业部基于FC Motion光学动捕技术为全身智能提供服务[18] * 与国际领先企业合作 在国内建立智能机器人中心和人机协作中试基地[32] 光通信与数据中心业务 * 探索光交换到光计算新方向 投资服务器内光连接技术[7] * 构建400G 800G 1.6T 3.2T等光通信产品[22] * 全光互联技术用光纤替代铜缆 提升服务器间通信速率至200G 400G 800G[23] * 服务约10个国际共建数据中心 更多项目在北京 杭州 苏州 深圳洽谈中[21] * 光交换技术全透明 灵活可重构 支持多代平滑升级 具备保护倒换功能[26] 市场竞争与客户合作 * 与宇树英驰 傅里叶 尤尔曼 众擎 58智能等机器人公司合作[33] * 与小米等互联网大厂合作 参与北京石景山 苏州巨神智能机器人中心建设[33] * 通过AI算法获得苹果认可 从康泰士和金士力手中抢占市场份额[36] * 在宁德时代等新能源企业取得显著突破[36] * 英伟达采购普拉提斯交换机用于数据中心网络保护倒换 处于试点阶段[39] 行业趋势与宏观影响 * AI技术推动网络架构和流量需求变化 数据中心互联流量为前端网络1/10 横向扩展网络流量达前端网络一百倍[24][25] * 谷歌全面采用全光开关替代电开关 实现3DTorus架构[27][43] * 美国AI公司快速发展 数据中心大规模部署 没有GPU TPU XPU NPU供应瓶颈限制[40][41][42] * 压电技术相比MEMS技术优势明显 可实现768×768端口 结构简单可靠[44] * 数据中心未来方向包括扩大矩阵端口至1024×1024 降低损耗 提高良率[45] 成本与产业化挑战 * 光器件成本受高密通道封装和芯片耦合难度影响[30] * 芯片封装工艺成本占总成本70%以上[31] * 通过3D光刻工艺制备聚合物光波导 降低耦合封装偏差至正负几十纳米[31] * 自动化设备实现精密对准自动化 本地化生产降本[46] * 公司探索通过合作降低成本 中国具备完整产业链支持[48] 未来展望与发展战略 * 2026年苹果推出折叠屏新产品 预计带来新增长机会[38] * 推动传统自动化设备向智能化设备转型 视觉系统成为关键传感检测手段[36] * 计划通过合资企业 联合研发及自主研发方式推进光通信产品发展[37] * 持续寻找投资机会 在机器视觉 光通信等前沿领域实现自主创新[50] * 关注下一代技术和应用 如CPU OCS等 随网络变化涌现新机会[50]
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
机器之心· 2025-08-30 12:12
数字人视频生成技术现状与挑战 - 当前语音驱动人类视频生成技术仅能合成时长不足15秒的短视频,超过此时长会出现明显的身体变形与外观不一致现象[2] - 现有方法如利用运动帧或滑动窗口机制只能有限提升长视频平滑性,无法从根本上解决无限时长视频的质量退化问题[2] - 将长音频切分为片段分别处理再拼接的方案会在衔接处引入不一致和突兀的过渡,端到端的无限时长高保真视频生成仍是重大挑战[3] StableAvatar框架核心技术 - 该框架基于Wan2.1-1.3B基座模型开发,通过Wav2Vec模型提取音频嵌入,并采用新型Timestep-aware Audio Adapter优化以减少潜变量分布误差累积[7][11] - 提出Audio Native Guidance机制替代传统CFG,通过修改去噪得分函数引导生成过程朝向音频同步性与自然性,强化音频与潜变量的联合分布[9][15] - 引入动态加权滑动窗口去噪策略,在相邻窗口重叠潜变量上采用对数插值分布进行融合,保证视频生成的平滑性[17] 技术应用前景 - 语音驱动人类视频生成技术在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景[2] - StableAvatar框架实现了无限时长音频驱动的高保真人类视频生成,其代码已开源,包括推理和训练代码[5]
邦彦技术2025年中报简析:净利润同比下降255.34%,三费占比上升明显
证券之星· 2025-08-30 06:42
财务表现 - 营业总收入6943.05万元,同比下降68.01% [1] - 归母净利润-5967.38万元,同比下降255.34% [1] - 第二季度营业总收入4172.47万元,同比下降53.07%,归母净利润-3246.83万元,同比下降1149.95% [1] - 毛利率64.37%,同比增6.96%,净利率-86.81%,同比减595.99% [1] - 每股收益-0.39元,同比减256.0%,每股净资产9.18元,同比减9.32% [1] 成本与现金流 - 三费(销售费用、管理费用、财务费用)总计5216.1万元,占营收比75.13%,同比增255.99% [1] - 每股经营性现金流-0.48元,同比减3503.21% [1] - 货币资金1.73亿元,同比下降31.71%,有息负债5803.4万元,同比增59.11% [1] 资产与负债 - 应收账款2.96亿元,同比下降19.71% [1] - 公司现金资产非常健康 [3] 业务发展 - 公司参展2025年世界人工智能大会并推出Nuwaai智能体数字人平台,实现从数字展示到智能落地的跨越式体验 [3] - Nuwaai平台定位为零门槛个性化数字IP创作平台,帮助个人和企业打造专属营销搭档和内容创作伙伴 [4] 历史业绩评价 - 公司上市以来中位数ROIC为0.99%,投资回报一般,最差年份2017年ROIC为-75.63% [2] - 公司上市后已有4次亏损年份 [2]
元宇宙时代,高校数字人实训室:如何重塑教学与产业融合新生态?
搜狐财经· 2025-08-28 08:04
行业战略意义 - 虚拟现实与数字经济深度融合成为国家发展重要战略 [1] - 数字人技术作为元宇宙关键支撑技术 正渗透至内容创作 电商直播 品牌营销等多个领域 [1] - 高校需构建数字人新媒体实训室以促进技术 产业与教育深度融合 为文化产业数字化培养复合型人才 [1] 解决方案核心架构 - 方案专为高校设计 具备系统化 模块化和跨专业特点 [1] - 覆盖数字媒体艺术 新媒体 动画制作 虚拟现实 元宇宙 新闻传媒 电子商务 游戏制作等多个专业领域 [1] - 构建涵盖数字人建模 驱动 内容生成与运营推广的全链路实训体系 [1] 动捕技术系统 - 高精度惯性动捕技术为核心 支持学生体验从动作捕捉到数字人内容输出的完整流程 [2] - 通过穿戴惯性动作捕捉套装实现实时动作表情映射 支持主流直播平台虚拟互动实践 [2] - 无穿戴视觉动捕系统采用视觉识别技术 通过摄像头捕捉人体关键节点和面部表情 [2] - 无线面捕头盔实现高自由度 高表现力的数字人驱动 提升实训灵活性和沉浸感 [2] 辅助实训设备 - 3D人脸扫描设备支持写实数字人开发生命周期 贯通动画 元宇宙 新媒体等专业实践 [3] - AIGC 3D数字人视频生成平台通过AI生成数字人讲解视频 无需真人出镜或复杂制作流程 [3] 跨学科应用价值 - 实训室作为跨学科融合与创新内容孵化器 支持展陈设计 游戏开发等创新应用探索 [6] - 通过跨学科项目实践培养学生跨界整合与项目协作能力 [6] - 为元宇宙内容生产与数字经济发展储备实战能力与创新思维 [6]
数字人直播软件:客易云重塑全球交互方式的智能革命
搜狐财经· 2025-08-12 10:03
公司产品与技术优势 - 全球多模态数字人直播一体机集成生物级细节处理、全链路智能交互、全球化生态适配三大特性[1] - 产品具备生物级形态克隆与动态语境理解核心优势,实现毛孔级细节渲染与唇齿运动100%匹配语音内容[1] - AI波形频谱混淆芯片通过物理层信号重构技术实现音视频信号物理级加密,金融领域微表情同步率达98.7%[6] - 技术支持128种语言和10种方言实时交互,相较竞品在方言覆盖与文化适配方面形成独特优势[8] 商业应用与市场表现 - 国际美妆品牌在抖音部署数字人主播,单场直播销售额突破800万元,较传统直播提升600%[1] - 某银行引入技术后客户平均等待时间从15分钟缩短至5分钟,理财产品签约率提升41%,客户满意度达98%[6] - 某3C品牌通过数字人多语种直播单场GMV达800万元,东南亚市场贡献率45%[8] - 某文创品牌接入DaaS服务后3天内完成虚拟代言人创建,海外社交媒体粉丝量突破800万,文化认同度92%[8] 医疗领域应用成效 - 三甲医院AI数字接待员实现毫米级面部细节还原,导诊效率提升40%,患者平均等待时间从15分钟缩短至5分钟[2] - 远程手术示教系统通过4K超高清画面使基层医生技能掌握时间缩短60%[2] - 康复中心通过数字人教练与可穿戴设备结合,实现患者动作捕捉与指导同步训练,康复效率提升3倍[2] 教育领域应用成效 - 数字教学助手实现沉浸式教学,学生知识获取时间成本缩短40%,课堂互动率提升65%[5] - 高校采用真人+AI数字人混合教学模式,单教师服务学生数从30人扩展至200人,教学效率提升500%[5] - 在线教育平台通过数字人矩阵实现1个真人教师+5个数字助教配置,课程完课率从62%跃升至89%[5] - 汽车维修培训学校采用实操画面与数字人讲解同步直播,学员技能掌握速度提升3倍[5] 政务与公共服务应用 - 政务抖音号通过AI数字人直播解读政策,首秀获超1000人观看,曝光量突破5000人,群众办事效率提升75%[6] - 数字人政策助手整合20万+政策文件,实现98%咨询自动化应答[6] - AI应急发言人在台风期间将公众信息获取时效从2小时缩短至8分钟,误信谣言比例从31%降至4%[6] 行业地位与生态建设 - 2025年中国AI数字人市场规模达59.1亿元,公司以18.7%市占率持续领跑[8] - 在全球480亿元市场规模中,公司凭借生物级还原精度和128种语言能力成为唯一进入前三的中国企业[8] - 数字人API全球联盟已吸引1.2万家技术服务商,与50余家科技巨头共建生态,预计2026年覆盖300个细分行业[8]
邦彦技术发布数字人平台Nuwaai
中证网· 2025-07-30 23:10
产品发布 - 邦彦技术在世界人工智能大会上发布Nuwaai智能体数字人平台 [1] - 平台支持3分钟快速生成专属智能体 可自定义语气风格和性格参数 [1] - 具备记忆用户个性化特征功能 内置营销话术与直播控场等专业技能模块 [1] 技术特性 - 通过形象塑造、才艺赋能与个性养成三大模块构建完整数字人创作体系 [1] - 支持古风穿搭、职业装、赛博风等多种风格 微表情与唇动细节高度还原 [1] - 加载营销、直播、客服、医疗等专业技能 支持唱歌、作诗、舞蹈等才艺展现 [1] 商业化进展 - 公司AI Agent产品2024年在心理健康领域实现商业化落地并确认部分收入 [2] - 2025年正式切入个人用户市场 推动数字人技术向C端市场渗透 [2] - 通过创新商业模式与创作体验设计 商业化落地进程全面提速 [2]
能发福袋、能玩梗、能分析用户历史行为 百度发布新一代数字人技术
中国青年报· 2025-07-26 18:52
技术发布 - 百度在WAIC大会上发布新一代数字人技术NOVA,宣告超级头部主播能力复刻进入规模化量产时代 [1] - NOVA技术曾支撑罗永浩数字人直播间创下5500万GMV,预计10月向全行业开放 [1] - 普通用户未来可获得媲美头部主播的专业带货能力 [1] 技术升级 - NOVA技术实现六大能力升级,涵盖剧本模式、动作生成、语音克隆、脚本撰写、问答能力与互动玩法 [2] - 新技术实现"双数字人主播"的丝滑配合,是数字人技术首次实现该功能 [2] - 在百度文心4.5T技术加持下,数字人可以做到"懂创作"、"有个性"甚至能"玩梗" [2] 用户体验 - 数字人可以主动邀评、与用户高频互动,实现和真人直播间一样的互动玩法如抽奖、发福袋等 [5] - AI大脑能根据用户需求调度视频呈现画面,主播可根据用户历史行为主动发起提问 [5] - 技术生成符合人设的双人剧本并直接由数字人"演出" [5]
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
机器之心· 2025-06-25 08:46
技术概述 - TaoAvatar是阿里巴巴淘宝Meta技术团队研发的3D真人数字人技术,支持手机和XR设备上的实时渲染与AI对话[1] - 该技术基于3D高斯泼溅技术,能通过多视角视频输入快速生成高逼真度数字人形象,精准捕捉面部表情、手势动作及衣物细节[8] - 已在中国三维视觉大会上入选"最佳演示Demo候选",并宣布开源3D数字人应用MNN-TaoAvatar[2][9] 核心技术 - 采用3D高斯泼溅技术实现全身互动式数字人解决方案,显著降低建模成本并提高效率[8][9] - 集成语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)和数字人渲染(NNR)等核心模块[11] - 支持端侧实时对话与渲染,ASR模型RTF优化至0.18,TTS模型RTF优化至0.58,A2BS模型RTF优化至0.34[16][17][18] - 自主研发NNR渲染器实现25万点云模型60FPS流畅渲染[18] 性能优势 - 在骁龙8 Elite芯片手机上实现端侧运行,ASR模型281.65M,LLM模型838.74M,TTS模型1.34GB[16] - MNN-LLM在骁龙8 Gen3芯片上预填充速度达165 tokens/s,解码速度41.16 tokens/s[16] - 相比云端方案,可在手机端完成所有算法处理,无需高端显卡支持[13][14] 架构优化 - 采用StyleUnet+MLP混合建模降低计算成本,动态高斯点云技术提升渲染稳定性[50] - 数据同步优化实现GPU内存直接读取,免去数据拷贝时间[40] - 调度优化引入"Dirty机制",仅处理变化数据,将部分模型运行频率降至20fps[41] - 模型量化技术将Qwen2.5-1.5B模型从5.58GB压缩至1.2GB[31] 应用部署 - 推荐配置为骁龙8 Gen3或同级CPU,8GB内存,5GB存储空间[51] - 单个数字人ID存储空间控制在100-200MB,25万高斯点云为最佳平衡点[46] - 支持Android和iOS平台,已开源在GitHub供开发者体验[2][52]