Workflow
Vidu模型
icon
搜索文档
AIGC如何“破界”?看行业大咖拆解,从模型能力到商业增长的全球落地法则
搜狐财经· 2025-10-28 19:06
AI技术重塑全球产业格局 - AI技术从辅助工具进化为驱动业务增长的核心引擎,AIGC的崛起打破了传统出海业务中语言、文化和媒介形式的限制,重新定义了全球化的边界 [2] - 多模态生成大模型迎来系统性可用窗口,视频生成技术发展尤为迅速,以Sora 2为代表的模型突破为视频社交玩法带来颠覆性创新 [4] - AI技术深刻改变工作方式,其价值实现关键在于明确人机协作的边界,当前AI的应用更多是辅助人力实现半自动化生产,而非直接产出精品内容 [13] 视频生成技术进展与应用 - 生数科技的Vidu模型支持文生视频、图生视频、参考生视频等多模态生成,具备语义理解镜头规划、音视频直出等核心技术,一致性能力全球领先 [6] - Vidu模型在Q2版本中实现重大突破,包括视频延长、大幅度动作模拟、情绪精准渲染等能力,支持1-8秒任意时长视频生成,并实现音视频同步输出 [6] - 视频生成技术在实际应用中展现出强大潜力,可在真人社交场景实现实时互动,在潮玩手办领域赋予静态产品生命力,并支持多主体生成动态头像和表情包 [9] - 通过参考视频生成技术,用户上传多张图片即可生成包含特定角色、场景和物品的连贯视频,极大降低了内容创作门槛 [9] - 全球约10家头部公司在视频生成领域持续迭代模型,技术门槛主要体现在过亿级训练成本、人才储备和工程能力三个方面 [11] - 随着模型生成速度提升至5-10秒内产出低分辨率视频,实时互动应用成为可能,为游戏、虚拟陪伴等场景开辟新空间 [11] AI在商业场景的具体价值 - 在IAA游戏领域,AI应用通过Imagen 4快速生成创意广告素材实现8倍效率提升,通过个性化推荐算法增加用户粘性,通过Veo 3生成口播广告替代传统KOL模式 [16] - 在AI+社交场景,AI Agent通过多轮对话将用户画像准确率从60%提升至90%以上,付费转化率提升6倍 [18] - Gemini 2.5 Pro能提升训练数据质量,通过预处理为自研模型提供高质量标注,在算力不变基础上提升效果30%以上 [18] - AI赋能使得零基础人员也能快速上手动画制作,大幅降低了入门门槛和制作成本,让初级人员快速达标,同时帮助资深专家突破业务上限,实现规模化生产 [13] 跨境支付的挑战与解决方案 - 跨境支付面临三大核心挑战:支付体验本地化差异导致转化率骤降、风险控制与欺诈防范不足造成营收损失、支付授权成功率低影响收入 [23] - 全球已有80多个国家对数字商品征收VAT或GST,各国申报门槛、频率、语言和表格格式各不相同,税务合规风险可能导致补税、滞纳金、高达2倍的罚款等严重后果 [25] - 支付平台可分为三大类别:三方支付提供支付通道但风险与合规由商户自行承担、四方支付整合多个PSP提供技术灵活性但合规仍由商户负责、记录商户模式代表商户完成销售并承担所有税务风控和合规责任 [28] - FastSpring作为记录商户,通过预建的全球支付体系实现本地化收单提升支付成功率,提供包括订阅管理、专业风控和全球自动报税在内的托管服务 [30]
重磅!清华×生数发布机器人通用大模型Vidar,高效泛化复杂物理操作达SOTA水平
具身智能之心· 2025-07-27 17:37
核心观点 - Vidar模型是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型,通过少样本泛化能力实现从虚拟到真实世界的关键跨越[2][4] - 该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,仅需20分钟机器人真机数据即可快速泛化到新机器人本体,数据需求仅为行业领先方法的1/80至1/1200[4] - Vidar通过解构具身任务执行范式,利用"海量通用视频-中等规模具身视频-少量机器人特定数据"的三级数据金字塔,实现了视觉-语言模态和动作模态的完全解耦[8] 技术突破 跨本体泛化 - 突破传统VLA模型需要海量多模态数据的限制,解决动作数据稀缺和机器人本体不统一两大难题[7] - 通过统一观测空间、75万条双臂机器人数据预训练和20分钟目标机器人微调的三阶段方法,实现少样本泛化[14] - 具身预训练使Vidu2.0在主体一致性(0.565→0.855)、背景一致性(0.800→0.909)和图像质量(0.345→0.667)三个维度显著提升[13] 逆动力学模型 - 提出任务无关动作(Task-Agnostic Action)概念,实现三大优势:数据易采集、跨任务泛化、无需人类监督[15] - 开发ATARA方法实现10小时自动化采集即可解决跨本体问题,AnyPos模型使动作预测准确率提升51%,任务重放成功率接近100%[16][18] - 掩码逆动力学模型架构能自动捕捉机械臂相关像素,实现跨背景高效泛化[24] 性能表现 - 在16种常见机器人操作任务上成功率远超基线方法,尤其在未见任务和背景上展现突出泛化能力[27] - 视频预测与真机执行结果高度一致,能准确完成语义理解、双臂协作等复杂任务[29] - 测试时扩展(Test-Time Scaling)技术提升模型在实际应用中的视频预测表现和可靠性[13] 技术背景 - 基于生数科技视频大模型Vidu的技术同源创新,延续雷达感知隐喻突出虚实结合能力[31] - 采用多模态生成模型架构达到SOTA水平,强化对物理世界认知反哺数字内容创作[31] - 团队核心来自清华大学TSAIL实验室,在ICML、IJCAI等顶会发表多篇论文,获多项国家级荣誉[33][36] 应用前景 - 突破多任务操作和环境变化应对能力瓶颈,为服务机器人在居家、医院、工厂等复杂环境应用奠定基础[29] - 架起虚拟算法演练到真实自主行动的关键桥梁,推动AI在物理世界的实际服务能力[29] - 通过具身视频基座模型实现虚拟与现实的深度交互,提升人类与机器人的协同生产力[31]
训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平
量子位· 2025-07-25 13:38
技术突破 - 清华大学与生数科技联合研发的Vidar模型首次实现通用视频大模型与物理执行的结合,通过少样本泛化能力完成从虚拟到真实世界的跨越 [3] - 模型仅需20分钟真机数据即可泛化到新机器人本体,数据需求仅为行业领先RDT的1/80、π0.5的1/1200 [4] - 采用"预训练+微调"架构:基于Vidu2.0基座模型,通过75万条双臂机器人数据预训练+20分钟目标机器人微调实现精准控制 [10] 技术架构 - 上游视频预测:通过统一观测空间实现多视角融合,将本体信息/摄像头数据/任务标注打包整合 [10] - 下游动作执行:逆动力学模型(IDM)将视频翻译为机械臂动作,实现视觉-语言与动作模态解耦 [6] - 测试时扩展(Test-Time Scaling)技术提升视频预测可靠性,VBench测试显示主体一致性从0.565提升至0.855 [11][12] 数据创新 - 提出任务无关动作(Task-Agnostic Action)概念,解决传统VLA模型数据过度捆绑问题 [13] - 开发ATARA自动化数据采集系统:10小时无干预采集即可实现全动作空间泛化,准确率超基线51% [15][18] - 掩码逆动力学模型架构可自动捕捉机械臂相关像素,实现跨背景泛化 [22] 性能表现 - 真实世界任务轨迹重放成功率接近100%,较基线提升33-44% [18] - 在16种常见操作任务中展现卓越泛化能力,尤其擅长未见过的任务/背景场景 [25] - 实现双臂协作抓取等复杂操作,预测视频与实际执行高度吻合 [25] 战略意义 - 突破多任务操作与环境适应性瓶颈,为服务机器人落地居家/医院/工厂场景奠定基础 [27] - 全球首个多模态生成模型架构达到SOTA水平的机器人大模型,实现数字-物理世界双向反哺 [28][29] - 延续Vidu技术路线,通过统一基座架构强化时空信息理解与生成能力 [28] 团队背景 - 核心成员来自清华大学TSAIL实验室,含两位博士生冯耀(具身智能方向)和谭恒楷(具身大模型方向) [29][30] - 技术成果发表于ICML/OOPSLA/IJCAI等顶会,获国家奖学金/NOI银牌等荣誉 [29][30] - 指导老师朱军教授提出"通过多模态大模型推动数字与物理世界深度融合"的愿景 [29]