Workflow
数字人技术
icon
搜索文档
2026数字人觉醒:从“形似”到“共情”的技术革命
搜狐财经· 2025-12-15 18:29
文章核心观点 - 到2026年,数字人技术将实现从“形似”到“神似”的深刻变革,从执行命令的工具进化为能共情、会成长的“数字伙伴”,并渗透至工作与生活的各个领域,重塑服务业形态、就业结构和家庭关系 [3] 技术突破:情感智能与交互 - 技术重点从追求外观逼真转向内在智能和情感交互能力,多模态情感计算模型使数字人能实时分析用户的语音语调、微表情和肢体语言,并做出恰当的情绪反应 [4] - 情感交互能力提升源于语音识别、计算机视觉和自然语言处理等技术的进步,使数字人能判断情绪状态、识别微表情并生成带有情感色彩的回应,从而跨越“恐怖谷”陷阱 [5] - 数字人系统通过构建“性格记忆库”,在与用户的长期互动中形成个性化的交互模式,基于对用户行为模式的深度学习和理解来沉淀沟通偏好 [3][4] 行业应用:垂直领域专家型数字人 - 在医疗领域,24小时在线的“虚拟护士”能监测患者生命体征、提供个性化康复指导,并理解患者心理状态以给予情感支持,尤其利于慢性病患者和老年人 [3][6] - 在教育行业,“AI教师”能根据学生的认知特点、学习方式和节奏调整教学策略,提供定制化教学内容和辅导,作为教育资源的重要补充 [3][8] - 在金融领域,精通全球法规的虚拟合规官能帮助企业监控法规变化、分析业务风险点并提供合规建议,同时处理大量文书工作以减轻人工负担 [8] - 在创作领域,数字人通过深度学习海量艺术作品能融合不同风格,主导创作短片和音乐专辑,人机协同创作成为常态,人类提供核心创意,数字人负责高效执行与形式创新 [8][9] 新兴趋势:数字分身与伦理挑战 - 创建高度还原的个人“数字双胞胎”成为可能,可代理部分社交、工作及创意活动,基于特定个体的数据,具有其外貌、语言风格和行为模式 [9] - 数字分身可应用于工作场合代表本人参加常规会议,或在社交领域于本人无法到场时参与互动,扩展了个人的时间与空间存在 [10] - 数字分身技术引发伦理争议,包括其独立决策时的责任归属问题,以及“数字永生”技术带来的情感慰藉与伦理困扰 [12] - “AI人格权”概念被广泛讨论,涉及数字人是否应享有权利、其创作收益如何分配,以及是否应被当作纯粹工具对待等法律与伦理问题 [12] 产业转变:成本、设备与评估体系 - 成本门槛大幅降低,技术的开源和云服务普及使中小企业及个人创作者能以合理成本定制专属数字人 [13] - 交互设备多元化,AR眼镜和全息投影等技术使数字人能“走出屏幕”,更自然地融入物理空间,增强互动临场感 [13][14] - 评估体系专业化,行业建立从形象拟真度、交互自然度到任务完成效率的多维评价体系,并需评估情感理解、个性化及长期学习能力 [14] 社会影响与未来展望 - 就业结构将发生变化,重复性、标准化工作可能被取代,同时产生数字人训练师、人机协作协调员等新岗位 [15] - 服务业形态重塑,数字人能提供24小时不间断且品质一致的服务,如在零售、餐饮、旅游行业进行信息咨询与产品推荐 [15] - 在家庭生活中,数字人可能成为提供情感支持与日常陪伴的成员,尤其对于独居老人或需特殊照顾的人群,但无法完全替代人类亲情 [16] - 技术发展面临挑战,包括数字人与人类情感理解深度的差距、隐私与数据安全问题、伦理法律规范缺失以及社会接受度与经济影响等 [16][17]
诸葛亮飙英文、唐僧反内耗……AI“魔改”的边界在哪?
央视新闻· 2025-12-15 04:49
AI“魔改”视频的行业现状 - AI“魔改”视频在短视频平台广泛传播,通过AI技术修改经典影视剧人物台词,例如让诸葛亮说英文、唐僧谈反内耗,人物口型精准对齐,效果逼真[1] - 此类视频制作门槛低,博主发布教程称“人人可上手”,利用AI工具只需上传原始音频、选择情绪风格并输入文本,几分钟即可生成以假乱真的明星声线[6][10] - 相关视频拥有可观流量,例如某平台相关话题视频获得超过45.6万点赞[4] 技术与应用场景 - AI配音技术主要应用于两大场景:一是文字转语音,将编辑好的文字通过软件处理成目标声音;二是原始语音AI变声,常用于社交平台博主保护个人声纹[8][9] - 声音克隆技术门槛低,仅需约10秒的个人讲话音频,软件即可数字化其频率和节奏,通过大模型学习后克隆声音至声音库,随后可生成任意文案的音频[10] - 角色克隆技术需要清晰的面部影像视频,AI模型通过分析面部点位,可实现“换嘴”等操作,使口型与生成的新台词匹配[10] 法律与侵权认定 - 国家广电总局网络视听司曾发布管理提示,认为部分AI“魔改”视频为博流量亵渎经典IP,冲击传统文化,且涉嫌构成侵权[3] - 2023年,北京互联网法院对全国首例“AI声音侵权案”一审宣判,认定被告使用原告声音开发AI文本转语音产品未获授权构成侵权,判决被告书面赔礼道歉并赔偿原告25万元[11] - 法律专家指出,影视剧作为视听作品受著作权法保护,利用其画面配音需经著作权人许可,但符合“合理使用”条款的情形除外,例如为介绍、评论或说明问题而适当引用[15] - 多数以娱乐为目的的“魔改”视频构成“合理使用”的可能性较小,若为批判或讽刺原作且引用比例适当,则可能适用相关条款[16] 行业影响与争议 - AI“魔改”行为对经典影视作品的原著精神内核造成冲击,被指掏空了原作的角色人设、剧情逻辑和演员声线[14] - 行业从业者如配音演员是声音被盗采的受害者,其声音可能被用于未经授权的“二创”甚至商业用途,维权过程艰难[14] - 尽管存在管理规定,通过修改台词进行“二创”的影视作品在各大短视频平台仍具有一定规模[3]
百度慧播星数字人现场演示失败,李彦宏表示“有些遗憾”
搜狐财经· 2025-11-13 19:14
公司动态 - 2025百度世界大会于11月13日在北京开幕,百度创始人李彦宏在大会主论坛上深入阐释了内化AI能力的核心价值和关键路径 [1] - 慧播星数字人技术是大会重点介绍的首个产品,并安排了现场演示环节 [1] - 在演示环节中,“数字人罗永浩”的实时互动出现黑屏故障,几经尝试未能成功 [3] - 公司创始人坦言演示“有些遗憾”,但表示在之前演练过程中效果“非常令人惊艳” [3] 产品与技术 - 百度发布的慧播星是“实时互动型数字人”,能深度理解真实世界并做出即时反馈 [3] - 该技术能在互动中流露自然情绪,实现全模态精准匹配,将数字人互动性提升至新高度 [3] 市场表现与商业化 - 在今年“双11”期间,83%的开播主播使用过慧播星数字人 [3] - 使用慧播星数字人的开播直播间数同比增长119% [3] - 使用慧播星数字人的直播间GMV同比提升91% [3] 市场拓展 - 慧播星数字人目前已落地巴西市场 [3] - 后续将发力东南亚、美国等重点国家和区域市场 [3] - 计划拓展Shopee、Lazada等电商平台 [3]
百度开放罗永浩同款数字人技术,助力代购主播克隆数字分身
新浪科技· 2025-11-13 10:40
公司技术发布 - 百度在2025百度世界大会上宣布将“罗永浩”同款高说服力数字人技术平台化并向全行业开放 [1] - 该标准化服务旨在帮助代购主播克隆自己的数字人 目标是让人人都能成为超级主播 [1] 技术商业表现 - 百度慧播星数字人在618和双11电商大促中表现亮眼 [1] - 双11期间83%的开播主播曾使用数字人直播 [1] - 开播直播间数同比增长119% [1]
百度向全球开放慧播星数字人技术
证券时报网· 2025-11-13 10:05
公司动态 - 公司在百度世界大会上宣布慧播星数字人技术向全球开放 [1] - 公司创始人表示数字人本质上是基础性技术,是AI时代的全新通用交互界面 [1] 业务表现 - 今年双11期间,慧播星数字人带货GMV同比提升91% [1] - 使用该技术的开播直播间数同比增长119% [1] - 83%的开播主播使用过数字人 [1]
会写剧本、能凹人设,还顺带站上领奖台,这数字人包“会”的
量子位· 2025-11-07 12:10
文章核心观点 - 百度“剧本驱动多模协同”高拟真数字人技术通过整合语言、动作、表情与反应,显著提升了数字人的拟人化程度和商业应用价值 [6] - 该技术已从演示阶段进入大规模商业应用,在电商、教育、政务等多个行业实现降本增效,并成为百度电商生态的重要基础设施 [22][28][34] - 技术核心在于使数字人具备自主生成剧本、实时互动决策及保持长时间一致性的能力,从而在直播等场景中达到甚至超越真人主播的效果 [8][13][20] 技术原理与创新 - 技术体系包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新 [4] - 基于文心大模型,数字人能自主生成包含说话内容、语气、动作及互动节点的全流程直播剧本,例如在罗永浩直播中调用知识库超1.3万次,生成9.7万字内容 [8][12] - 通过文本自控语音合成大模型和上下文编码器,数字人可实现带情绪语调的语音输出及自然对话衔接,使交互更具“人味” [15][16] 应用成效与数据 - 已孵化超10万个数字人,应用于电商、教育、法律、政务等几十个行业,助力商家开播成本降低80%,转化率提升31% [22][24] - 在罗永浩6小时直播中,数字人吸引观众超1300万,GMV达5500万+;知识博主艾弥儿数字人将用户停留时长提升101%;蒙牛悠瑞数字人转化率提高33% [12][25] - 在山东夏津县,数字人“慧播星”助农直播1个月卖出3.3万斤农产品,总销售超15万元,账号订单量近万单 [25] 行业影响与趋势 - 数字人技术提供了一种更稳定、可控的内容生产力路径,实现24小时不间断直播,显著提升商品曝光和转化机会 [29][35] - 技术推动“绿色降本逻辑”,通过算法驱动减少碳排和资源投入,并带动产业链协同创新 [26] - 数字人正从实验室演示转变为能“拉业绩、带节奏、撬增长”的商业工具,成为内容产业的新型基础设施 [32][34]
百度数字人技术获2025世界互联网大会领先科技奖
新华财经· 2025-11-06 19:08
公司技术成就 - 百度“剧本驱动多模协同的高拟真数字人技术”荣获2025世界互联网大会领先科技奖 [2] - 该奖项为面向全球互联网领域的国际性科技奖项 本届大会收到来自34个国家和地区的424项科技成果申报 最终评选出17项年度领先科技奖 [2] - 百度首席技术官王海峰介绍 该技术包含融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成等创新 [2] 技术优势与特点 - 技术突破了多模态实时协同、复杂动态交互等技术难题 实现了数字人语言、声音和形象的协调一致 [2] - 技术提升了数字人直播内容的质量和交互能力 具有高情商、强互动、长续航、更专业的特色 效果超过真人 [2] 应用成果与效益 - 基于百度数字人技术已生产超过10万个数字人 应用于电商、教育、法律等各行各业 [2] - 该技术帮助降低开播成本达80% 提升直播转化率31% [2] - 技术已在百度电商场景的明星、图书和健康直播上落地应用 [2]
1024程序员节:京东“零帧起手”数字人让全民“零门槛”创作
中国质量新闻网· 2025-10-24 22:33
人工智能技术应用 - 人工智能技术已全面融入公司11.11的各个环节,包括营销推广、客户服务、直播带货和智能硬件 [1] - 公司通过“零帧起手”数字人小程序将AI数字人技术开放给商家和普通用户,实现全民零门槛创作 [1] - 该技术能稳定生成分钟级长视频,将手部幻觉问题压降到接近零,并对真人、动漫、动物等多种形象实现良好驱动 [3] 产品性能与优势 - 用户和商家仅需一张图片搭配音频或文本,即可快速生成电影级1080P高清数字人视频 [1][3] - 该技术解决了传统数字人长视频的误差累积和拼接伪影问题,支持作品直接下载并一键转发至社交平台 [1][3] - 公司相关技术项目“多模态交互式数字人关键技术及产业应用”曾获得吴文俊人工智能科学技术奖特等奖 [3] 市场反响与用户案例 - 11.11以来,“零帧起手”小程序的用户规模较此前提升111% [3] - 普通用户案例包括宝妈生成温馨短片、国风博主讲解汉服、银发族记录家族故事以及历史爱好者进行科普 [3] - 对商家而言,该小程序成为11.11的轻量化营销工具,可用于快速产出营销视频以助力销售 [3] 战略价值与行业影响 - 技术的价值被证明在于走进日常、赋能产业,降低了创作门槛和经营成本 [4] - 代码消解了创作门槛,使创新红利惠及每一个人,成为1024程序员节的献礼 [4] - 公司通过数字人技术助力商家在市场竞争中赢战11.11,同时让消费者享受到更智能便捷的购物体验 [1][4]
可灵AI推出全新数字人功能
环球网· 2025-09-19 14:40
产品核心功能 - 通过上传一张角色图片并输入文字或音频,即可一键生成最长1分钟、最高1080p分辨率、48FPS高帧率的数字人视频 [1][3] - 产品支持生成写实人物、动漫、动物等多种角色,并支持中英日韩多语种,结合会员优惠最低价格为0.12元每秒 [1][3] - 提供一站式解决方案,支持用户上传自有素材或使用内置官方形象库、AI生图功能及近百种TTS音色,完成从角色创建到配音的全流程 [3] 技术能力与表现力 - 在口型精准度上达到业界领先水平,唇形能与快速变化的歌词音节完美贴合,即使面对多语种、歌唱或极快语速的台词也能保证同步 [1][4][7] - 可通过提示词精细化控制角色情绪与肢体语言,实现从听声音到懂意图的跨越,将抽象情绪转化为具体面部微表情和动作 [5][6] - 展现出优秀的跨风格泛化性能,无论是写实人物、动漫卡通或动物形象均可生成高质量视频,例如生成随节奏说唱摇摆的卡通猫 [4] 技术架构与行业地位 - 技术依托多模态理解大模型与视频生成模型的深度融合,采用音画高度对齐的交叉注意力机制和关键帧控制架构,实现身份一致前提下的无限长度视频生成 [6][7] - 在专业测试中,与行业产品Heygen及即梦数字人对比,整体GSB得分分别达到1.37和2.39,在整体效果及多个细分维度上表现优异 [7] 公司背景与市场影响 - 可灵AI作为全球领先的视频生成大模型,自2024年6月发布以来已完成超30次迭代,用户规模突破4500万,生成视频数量超2亿 [8] - 公司为超过2万家企业提供API服务,覆盖广告、影视、游戏等多个领域,新产品旨在降低行业创作门槛,推动在短视频、电商直播、在线教育等领域的规模化应用 [1][8]
可灵AI推出全新数字人功能;微盟集团获国际长线投资2亿美元|未来商业早参
每日经济新闻· 2025-09-19 07:14
快递行业运行情况 - 8月快递业务收入完成1189.6亿元 同比增长4.2% [1] - 8月快递业务量完成161.5亿件 同比增长12.3% [1] - 1至8月快递业务收入累计完成9583.7亿元 同比增长9.2% [1] - 1至8月快递业务量累计完成1282.0亿件 同比增长17.8% [1] - 快递市场保持稳健增长态势 反映电商和线上消费市场活跃 [1] 微盟集团融资动态 - 与国际长线投资机构无极资本Infini Capital订立认购协议 成功融资2亿美元 [2] - 所得资金主要用于AI投入和研发以及国际化布局 [2] - 引入国际长线资本为发展注入资金并优化股东结构 [2] 可灵AI产品更新 - 推出全新数字人功能 通过角色图片加文字或音频生成1080p/48FPS最长1分钟视频 [3] - 数字人依托多模态理解与视频生成模型深度融合 实现口型同步与情绪动作控制 [3] - 产品公测陆续开放 应用前景涵盖娱乐、教育、客服及企业营销解决方案 [3]