数字人技术

搜索文档
能发福袋、能玩梗、能分析用户历史行为 百度发布新一代数字人技术
中国青年报· 2025-07-26 18:52
技术发布 - 百度在WAIC大会上发布新一代数字人技术NOVA,宣告超级头部主播能力复刻进入规模化量产时代 [1] - NOVA技术曾支撑罗永浩数字人直播间创下5500万GMV,预计10月向全行业开放 [1] - 普通用户未来可获得媲美头部主播的专业带货能力 [1] 技术升级 - NOVA技术实现六大能力升级,涵盖剧本模式、动作生成、语音克隆、脚本撰写、问答能力与互动玩法 [2] - 新技术实现"双数字人主播"的丝滑配合,是数字人技术首次实现该功能 [2] - 在百度文心4.5T技术加持下,数字人可以做到"懂创作"、"有个性"甚至能"玩梗" [2] 用户体验 - 数字人可以主动邀评、与用户高频互动,实现和真人直播间一样的互动玩法如抽奖、发福袋等 [5] - AI大脑能根据用户需求调度视频呈现画面,主播可根据用户历史行为主动发起提问 [5] - 技术生成符合人设的双人剧本并直接由数字人"演出" [5]
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
机器之心· 2025-06-25 08:46
技术概述 - TaoAvatar是阿里巴巴淘宝Meta技术团队研发的3D真人数字人技术,支持手机和XR设备上的实时渲染与AI对话[1] - 该技术基于3D高斯泼溅技术,能通过多视角视频输入快速生成高逼真度数字人形象,精准捕捉面部表情、手势动作及衣物细节[8] - 已在中国三维视觉大会上入选"最佳演示Demo候选",并宣布开源3D数字人应用MNN-TaoAvatar[2][9] 核心技术 - 采用3D高斯泼溅技术实现全身互动式数字人解决方案,显著降低建模成本并提高效率[8][9] - 集成语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)和数字人渲染(NNR)等核心模块[11] - 支持端侧实时对话与渲染,ASR模型RTF优化至0.18,TTS模型RTF优化至0.58,A2BS模型RTF优化至0.34[16][17][18] - 自主研发NNR渲染器实现25万点云模型60FPS流畅渲染[18] 性能优势 - 在骁龙8 Elite芯片手机上实现端侧运行,ASR模型281.65M,LLM模型838.74M,TTS模型1.34GB[16] - MNN-LLM在骁龙8 Gen3芯片上预填充速度达165 tokens/s,解码速度41.16 tokens/s[16] - 相比云端方案,可在手机端完成所有算法处理,无需高端显卡支持[13][14] 架构优化 - 采用StyleUnet+MLP混合建模降低计算成本,动态高斯点云技术提升渲染稳定性[50] - 数据同步优化实现GPU内存直接读取,免去数据拷贝时间[40] - 调度优化引入"Dirty机制",仅处理变化数据,将部分模型运行频率降至20fps[41] - 模型量化技术将Qwen2.5-1.5B模型从5.58GB压缩至1.2GB[31] 应用部署 - 推荐配置为骁龙8 Gen3或同级CPU,8GB内存,5GB存储空间[51] - 单个数字人ID存储空间控制在100-200MB,25万高斯点云为最佳平衡点[46] - 支持Android和iOS平台,已开源在GitHub供开发者体验[2][52]
真·罗永浩直播干不过假·罗永浩?网友:不是老罗在演AI吧?
量子位· 2025-06-18 15:49
数字人直播表现 - 罗永浩数字人在618大促中带货单量超过5月真人直播首秀同期数据 [1] - 直播吸引超1300万人次观看 GMV突破5500万元 [7] - 用户平均观看时长超过5月真人首秀 部分核心品类带货单量超越真人 [7] - 数字人成功复刻罗永浩特色直播风格 包括自嘲式幽默回复 [4][5][6] - 双数字人互动效果自然 观众难以分辨真假 [2][3][15] 技术突破 - 百度慧播星打造高说服力数字人 具备形象+感知决策+行动的智能体 [11] - 实现四大突破:双数字人互动 大师级剧本 多模融合 AI控场升级 [12][13][19][26] - 采用以语言模型为核心的多模协同技术方案 [30][31] - 文心大模型4.5 Turbo加持 实现人格化表达和风格复刻 [17][18][38] - 语音合成支持双音轨自然对话 视频生成实现小时级一致性 [44][47][48] 行业应用 - 10万商家使用数字人直播 覆盖电商/教育/医疗/法律等数十行业 [58] - 商家GMV平均提升62% 运营成本降低80% [58] - 三农创作者东北翠花订单量实现10倍增长 [52][53][54] - 新会陈皮商家广芸堂GMV增长160% [55][56] - 百度推出梦蝶计划和繁星计划 追加10万个数字人及1亿元补贴 [59][60]
罗永浩数字人直播背后,也许是一种新商业模式的开始
搜狐财经· 2025-06-18 15:45
数字人技术进展 - 百度数字人技术在罗永浩直播中展现显著进步 包括物理规律模拟如眼镜雾气渲染和标志性动作复刻 [4] - 相较2023年数字人直播 技术突破体现在动作多样性提升 恐怖谷效应减弱 面部遮挡渲染能力增强 [3] - 直播效果引发行业关注 罗永浩本人对技术突破表示惊讶 [4] 商业模式演变 - 类比软件行业从On-Premises到SaaS的转型 提出IPaaS(IP as a Service)概念 [5][13] - 数字人技术可能解决真人IP三大痛点:地理限制 健康风险 时间占用 [16][17][18] - 虚拟IP(如唐老鸭)的商业优势在于可复制性和零边际成本 数字人技术有望使真人IP获得同等特性 [19][20][21] IP运营新范式 - IP核心三要素为内容 人格 账号 其中内容创作是根基 [23] - 数字人或将分离IP的商业活动与内容创作 使创作者专注作品产出 [24] - 技术成熟后 AI数字人可高度还原真人特征 实现"比吴彦祖更像吴彦祖"的拟真度 [24] 技术挑战与风险 - 数字人信任度存疑 长期使用可能面临受众接受度下降 [27][28] - 技术滥用风险包括伪造身份 传播虚假信息 法律追责困难 [30] - 真人直播或因稀缺性形成新型竞争壁垒 [30] 行业历史参照 - 软件行业早期依赖物理介质(软盘 手册)销售 互联网普及推动SaaS模式诞生 [8][9][11][12] - 带宽提升使云端服务成为可能 类比数字人技术需基础设施支持 [13]
解密数字老罗带货“账本”
北京商报· 2025-06-17 22:34
直播表现与数据 - 罗永浩数字人直播GMV超5500万元,用户观看量超1300万,互动量达真人直播3倍 [2][3] - 数字人直播用户观播时长较真人直播提升30%,订单量高出150%,下单用户多230% [3] - 数字人完成9.7万字产品讲解和8300个动作,实现双人剧本互动和实时热点回应 [2][4] 技术突破 - 百度高说服力数字人实现形神音容高度协调,支持动态决策和实时交互,基于文心4.5T多模态技术 [4][6] - 行业首创双数字人配合技术,通过海量数据训练还原主播惯性动作和表情,复刻个人风格 [5] - 慧播星产品实现AI多智能体调度,支持多种直播玩法,提升用户转化效率 [5] 行业应用与成本 - 数字人直播月成本约1000元,未来规模化后仍有降本空间 [8] - 数字人可应用于视频制作和多平台直播,预计2026年市场规模突破百亿 [9] - 快手等平台将数字人用于知识密集型领域,与真人主播分工提升运营效率 [9] 发展阶段 - 数字人技术从1.0机械阶段发展到3.0高说服力阶段,4.0目标为超越真人效果 [5][7] - 3.0阶段实现全模态统一和自然交互,支持超长待机和千人千面直播 [7] 战略合作 - 百度优选与交个朋友达成战略合作,罗永浩将以真人+数字人形式不定期直播 [2] - 数字人技术帮助主播减轻工作量,加速直播间复制和出海进程 [2]
闪电快讯|官宣罗永浩为首席体验官,百度电商官宣两大计划培育数字主播生态
新浪财经· 2025-06-17 17:46
数字人直播技术应用 - 罗永浩启用数字人直播并与数字人朱萧木共同讲解商品 首场直播GMV突破5000万 [1] - 数字人罗永浩由百度电商慧播星团队打造 采用多模协同数字人技术 为业界首个双数字人互动直播间 [1] - 直播总时长7小时 其中真人直播2小时 数字人直播5小时 吸引超130万人次观看 [1] - 技术基于文心4.5T实现剧本生成与多模协同 数字人"神、形、音、容、话"高度统一 [1] - 百度称其为业内首个多模态高度融合数字人 带货效果媲美真人 支持24小时不间断直播 [1] 战略合作与人事任命 - 罗永浩担任百度慧播星首席体验官 入驻百度优选平台 将进行"真人+数字人"不定期直播 [2] - 百度优选与"交个朋友"达成战略合作 [2] 未来发展规划 - 百度电商推出梦蝶计划 通过超头主播数字人打造与流量扶持实现超头主播数量倍增 [4] - 繁星计划将追加10万个慧播星免费数字人 投入1亿元消费补贴与千万级运营扶持 [4]
硅基智能砸1000万美元换DUIX域名,贵且难记或注定翻车?
36氪· 2025-05-12 12:54
公司战略与品牌建设 - 硅基智能以1000万美元高价收购四字母域名DUIXcom并同步上线同名数字人交互平台 此举被视为品牌战略的大胆创新 但市场对其域名选择的有效性存疑 [1][3] - 公司成立于2017年 专注数字人技术研发 核心能力包括NLP 多模态交互和情感计算 已在智能客服 虚拟助手领域取得市场份额 [4][6] - DUIX平台定位为下一代数字人交互基础设施 支持文本 语音 图像等多模态输入 覆盖教育 医疗 游戏等场景 技术亮点为超低延迟和高度拟真表现 [6] 域名价值评估 - DUIXcom作为四字母com域名具有稀缺性 全球仅约45万个 1000万美元收购价显示公司将其视为长期数字资产 [7] - 域名存在明显记忆与发音障碍 英语母语者发音不直观 中文用户难以转化为有意义词汇 增加口头传播和搜索难度 [8] - 品牌名DUIX未直接传递"数字人"或"交互"等业务概念 需额外用户教育 竞品如Xiaoice Siri等命名更易传递业务价值 [9][10] 投资回报争议 - 千万美元支出对AI初创公司属巨额投入 回报需衡量域名资产升值与品牌实际引流效果 目前后者存在明显短板 [11][12] - 专家指出拗口域名可能导致搜索流量流失 抵消稀缺性优势 更易记的域名可能以更低成本实现更好传播效果 [12] - 市场质疑公司决策逻辑 认为对"稀缺性"的盲目崇拜忽视品牌建设规律 缺乏支撑"战略远见"的实质性论据 [13][16] 全球化与产品力挑战 - 公司可能试图以DUIX实现全球化布局 但该名称在英文语境同样存在传播障碍 且牺牲本土用户体验得不偿失 [14] - "空白画布"品牌策略需超凡产品力支撑 当前DUIX平台未展现足够颠覆性特质以弥补名称缺陷 [16] - 决策被部分观点视为漠视市场规律 若后续运营未能扭转局面 可能成为科技行业品牌建设反面案例 [17]
短视频时代,如何让数字人脱颖而出?专业团队揭秘核心拍摄法则
搜狐财经· 2025-05-09 11:39
数字人技术应用 - 数字人技术成为品牌营销新蓝海 短视频流量红利持续释放背景下 铭顺科技公开核心拍摄方法论为行业提供解决方案 [1] 场景选择方法论 - 公园实景拍摄的数字人短视频完播率比绿幕棚拍高出42% 外景动态光影和空间层次能赋予数字人生活气息 [3] - 真实场景细节如咖啡厅书架光影 公园树影等 可在3秒内建立观众情感连接 [3] 设备技术优化 - 后置镜头拍摄使面部微表情细腻度提升38% 机位控制在腰部高度可使人物姿态更舒展自然 [5] - 知识博主调整机位后 视频评论区"亲切真实"反馈量激增3倍 [5] 动态捕捉技术 - 讲师数字人加入手势互动 眼神交流等自然动作后 课程转化率提升27% [7] - 自主研发动作捕捉系统可精准还原15种微表情 配合AI算法实现神态自适应调整 [7] 商业模式创新 - 铭顺科技采用"技术交付+运营赋能"双轨模式 提供4K级数字人短视频系统及运营方法论 [7] - 运营赋能包含短视频起号方法 爆款选题 拍摄技巧等策略分享 [7] 行业发展启示 - 数字人从技术概念转化为商业利器 需通过真实场景细节和情感连接提升内容感染力 [7] - 技术应用需回归内容创作本质 用真实感动人心 实现虚拟形象与观众的情感共鸣 [7]
2025年客易云数字人技术革新与生态赋能,重塑行业TOP标准
搜狐财经· 2025-04-13 14:48
文章核心观点 - 2025年客易云凭借生物级细节还原能力、全链路智能工具及全球化生态布局稳居行业头部阵营,重新定义数字人服务行业标准,引领行业迈向新时代 [1][11] 核心技术 - 唇齿联动引擎基于解剖学原理构建唇部运动模型,支持68种细微动作与牙齿咬合状态实时联动,唇部运动与真实演员吻合度达99.3% [3] - 动态光照补偿通过环境光智能分析,自动调整唇部高光与牙齿反光效果,确保不同光照条件下视觉一致性 [3] - 牙齿形态库建立12种标准牙齿模型库,支持个性化调整,牙齿还原度较行业平均水平提升40% [3] 功能延展 - AI口播生成基于“数字分身”技术,用户录制3 - 5分钟真人视频可克隆高保真数字人形象,支持一键生成口播视频,60秒完成脚本撰写、配音、剪辑全流程 [5] - 智能剪辑系统集成AI热点分析、多语言智能字幕等功能,支持100 + 国家语言的短视频自动化生产,“悬浮窗 + 特效 + 智能组件”编辑模块可将素材制作效率提升300% [5] - 数字人具备实时语音应答、微表情反馈能力,结合自然语言处理技术,实现跨语言场景下的精准互动 [5] 生态优势 - 系统支持APP、小程序、H5等多终端运行,实现多国语言一键切换,助力企业拓展全球市场 [7] - 用户可无限克隆数字人形象,开通子账号实现团队协作,支持按需充值算力,灵活匹配业务需求 [7] - 开放代理招募计划,通过云服务订阅制提供基础版至旗舰版梯度选择,企业定制成本压缩至行业均价的40%,支持按路包年付费模式 [7] 行业趋势与公司未来角色 - 数字人技术从“工具”向“基础设施”演进,客易云通过API技术开放与行业解决方案定制推动技术普惠 [9] - 客易云私有化部署能力与模块化设计可满足金融、政务等高合规场景需求,“数字人 + AI大模型”融合为创新奠定基础 [9] - 客易云“无限克隆 + 无限算力”商业模式或将加速行业从“高成本定制”向“工业化生产”转型 [9]