Sora

搜索文档
理论热点面对面·2025 | 如何看待人工智能对经济社会带来的影响?
新华社· 2025-09-15 10:31
0:00 2025 年春节前后,DeepSeek横空出世并迅速爆火,在全球人工智能领域掀起创新和应用热潮。从 ChatGPT到Sora,再到DeepSeek,人工智能已悄然渗透进社会生产与生活的每个角落,激发了人们对未 来的无限遐想和热切期待。与此同时,人工智能的迅猛发展也带来了职业替代、信息安全、认知伦理等 诸多令人忧虑的问题。 《理论热点面对面·2025》慕课第一集,邀请北京大学王选计算机研究所博士生导师连宙辉教授为大家 一一解惑。 我们究竟该如何全面深入地认识人工智能的巨大潜力?又该如何以理性且客观的视角去审视它对人类社 会产生的深远影响?它是否会如科幻电影中所描绘的那样在未来的某一天"取人类而代之"呢? ...
硅谷大换血,从小镇做题家到顶级AI研究员,华人为什么统治了AGI?
36氪· 2025-09-04 19:44
硅谷AI人才格局变化 - 生成式AI崛起导致硅谷人才格局向华人倾斜 华人成为AGI赛道最重要人才来源[2] - 过去二十年硅谷互联网由印度人主导 以勤奋高效执行力支撑软件产业[1] 华人AI人才占比数据 - 美国顶级AI机构中中国研究人员占比38% 超过美国本土的37%[5] - Meta超级智能实验室初始团队11人中7位华人 占比64%[6] - OpenAI的ChatGPT主创团队87人中9位华人 占比10.34%[9] - xAI创始团队12人中5位华人 占比超过40%[12] 核心团队华人成员贡献 - Meta为抢人提供四年3亿美元薪酬方案 首年可兑现超1亿美元[7] - OpenAI的GPT-4有30余位华人参与 GPT-4o关键团队17人中6位华人[10] - xAI的Tony Wu是联合创始人 Jimmy Ba提出AdamW优化算法论文引用超21万次[12] 人才输送路径模式 - 清北等顶尖院校本科+美国博士模式形成稳定高效人才输送渠道[5][14] - 30位华人核心研究者中22人遵循该路径 本科多来自清华北大中科大浙大[15] - 典型代表包括Meta赵晟佳(本科清华/博士斯坦福) 毕树超(本科浙大/博士伯克利)[16] 中国AI人才储备优势 - 中国每年计算机及相关专业毕业生超500万 是全球最大STEM人才输出国[18] - 中国活跃AI研究人员超3万名 博士博士后总数相当于美国AI研究人员两倍[18] - 美国AI研究人员约1万名 欧盟27国约2万名 英国约3000名[18] 教育体系适配性分析 - 中国基础教育强调数理基础与解题能力 培养结构化思维和耐心韧性[18][19] - 强化学习需要试错迭代特性 与中国学生熟悉的奥数解题逻辑高度契合[22] - 华人学者在NeurIPS 2020强化学习论文中占比30% 谷歌RL团队1/4-1/3毕业于中国高校[23]
从百万预算到几分钟成片:百度蒸汽机为品牌视频开了挂
搜狐财经· 2025-08-25 19:39
行业痛点分析 - 传统视频广告制作周期冗长 从创意到成片需数周至数月 常错过节日热点等营销节点 [4][5] - 制作成本高昂 一条TVC广告成本动辄数十万至上百万元 多版本适配进一步推高费用 [4][7] - 个性化内容生产难度大 传统制作模式难以实现千人千面定制 创意受现实条件制约 [8] 技术解决方案 - 百度蒸汽机实现多人有声音视频一体化生成 输入脚本后数分钟即可输出完整视频 [3] - 创新音画对齐技术确保口型与语音毫秒级同步 即使侧脸或被遮挡仍保持稳定 [11][12] - 潜在空间多模态规划技术保障多角色互动连贯性 使剧情发展合乎逻辑 [13] - 深度适配中文场景 语音合成达到98%以上真人还原度 情感表达细腻入微 [13] - 支持1080p高清输出 内置数十种专业运镜手法 可自动匹配镜头运动 [14][15] 商业应用案例 - 一汽-大众揽境SUV七夕营销案例 通过AI生成《揽境天阶·七夕重逢》短片 实现零成本奇幻场景呈现 [16][17] - 伊利倍畅奶粉制作《漂"羊"过海来看你》宣传片 将产品卖点转化为视觉语言 避免跨国取景成本 [17][18] - 模型推出两周内注册用户超30万 任务提交量达每小时1.8万次 累计生成200多万条内容 [21] 产业影响分析 - 大幅降低制作门槛 使单台电脑加文字图片即可产出专业级视频 引发创意生产平权革命 [22] - 制作成本锐减 使品牌可尝试更多创意版本 实现内容供给规模化 [23][28] - 推动视频素材资产化 虚拟IP形象可持续复用 形成品牌数字资产积累 [26] - 消费者对AIGC内容接受度提升 更关注内容质量而非制作方式 [24][25] 竞争格局 - OpenAI的Sora模型侧重画面生成 尚未整合语音对白功能 且仅限小范围测试 [20][21] - 百度蒸汽机聚焦中文商业场景 通过百度APP等渠道向百万级创作者开放 走务实应用路线 [20][21] - 中美AI视频发展路径分化 百度选择应用驱动模型研发 直接解决企业营销需求 [21]
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 09:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]
Meta Teams Up With Midjourney for Future Creative AI Models
CNET· 2025-08-23 07:02
战略合作 - Meta与Midjourney AI建立合作伙伴关系并授权其AI视频生成模型 旨在加强AI视频生成能力[1] - 该合作由Meta首席AI官Alexandr Wang在X平台上公布 但具体模型推出时间尚未明确[1] - 此次合作是Meta新AI团队重组后的首批重大举措之一 可能预示其未来创新方向[5] 产品技术 - Meta曾展示视频生成工具MovieGen 但当前功能仅限于上传现有文件/图像或对视频进行"重样式"处理[2] - 与OpenAI的Sora和Google的Veo 3相比 Meta缺乏直接通过文本/图像提示生成视频的端到端创作工具[2] - Midjourney在AI图像生成领域具有市场知名度 其新AI视频模型在测试中表现令人印象深刻[4] 行业竞争 - Runway Luma和Pika等创意软件公司均在强化产品功能 推动过去一年AI产品新浪潮[3] - AI视频生成已成为吸引用户的高级AI产品竞争中的关键组成部分[3] - Meta的Llama模型持续与OpenAI的GPT-5及Google的Gemini展开竞争[5] 资源投入 - 公司今年夏季加大AI领域投入 斥资数十亿美元招募顶级AI人才并重组内部团队结构[5] - Meta将AI聊天机器人整合至Instagram和Facebook等社交媒体平台作为当前发展重点[5] 法律风险 - Midjourney正面临迪士尼和环球影业的大规模版权侵权诉讼 被指控允许用户生成尤达和史莱克等受保护角色图像[4] - Meta此前同样遭遇作者团体起诉 称其未经许可使用受版权保护内容训练AI 但法院裁定其行为属于合理使用[4]
好莱坞特效师花300多块钱,用AI做了一部科幻短片
第一财经· 2025-08-21 20:57
AI视频生成技术发展 - AI视频生成技术取得显著进展 视觉效果可媲美实拍 如科幻短片《归途》中异形生物追击和巨型蜘蛛爬楼场景栩栩如生[1] - 技术实现重大突破 视频生成告别"默片"时代 实现多角色语音和环境音效一体化生成 百度蒸汽机模型实现多人有声视频一体化生成[4][5] - 当前技术存在明显局限 AI生成人类"AI味儿"浓 演技生硬 声画口型不同步 视频时长仅达5-10秒[4][5] AI视频生成成本效益 - 成本优势极其显著 传统实拍或CG制作需几百万元成本 复杂镜头单个成本达几十万至上百万元 而AI生成同等内容成本仅约330.6元人民币[3][4] - 成本结构呈现指数级增长特征 视频时长从10秒延长到20秒甚至100秒 成本可能增加100倍[6] - 百度采取价格竞争策略 打出"对标行业七折"价格标签冲击市场[6] 视频生成市场竞争格局 - 市场竞争激烈 参与者包括科技巨头和创业公司 快手可灵AI营业收入超过2.5亿元 字节、阿里、腾讯等巨头以及MiniMax、生数科技、爱诗科技等创业公司均布局该赛道[5] - 技术迭代快速 谷歌Veo3模型能生成环境音和人物对话 百度蒸汽机模型实现多人有声视频一体化生成[4][5] - 行业处于起始阶段 各厂商通过竞争互相启发技术上限[6] 商业化应用驱动因素 - 市场需求变化推动技术发展 2024年底短剧投流市场爆发 传统剪辑和AI生图无法满足创意需求 广告主直接提出科幻场景生成需求[4] - 百度转变战略布局 从最初不碰Sora类生成到因商业体系具体需求启动自研 项目代号"MuseSteamer"[4] - 当前主要用户包括内部业务部门、专业领域创作者和企业客户 上线50天最大用户来自百度内部包括搜索业务和移动生态创作者[5]
从“内部世界”到虚拟造物:世界模型的前世今生
经济观察报· 2025-08-21 20:29
核心观点 - Genie 3模型通过实时生成可交互的3D虚拟环境 展现了世界模型在实现通用人工智能路径上的潜力 其核心能力包括动态响应指令 保持记忆连贯性以及模拟物理规律 [4][5] - 世界模型模仿人脑构建内部世界的机制 通过表征学习 动态建模 控制规划及结果输出等环节 使AI具备预测和模拟未来场景的能力 从而在多个领域产生变革性应用 [8][9][15][16][17][18] - 尽管世界模型被视为通向AGI的可能路径 但学术界对其必要性存在分歧 主要围绕显式建模与隐式建模的效能对比 以及AGI定义差异展开争论 [28][29][30][31] 世界模型简史 - 世界模型的灵感源于对人脑内部世界构建机制的模仿 早期理论可追溯至18世纪康德的先验框架理论和20世纪皮亚杰的心理模型理论 [8][9] - 人工智能领域自创立初期便开始探索环境内部表示 20世纪80年代统计学习方法引入概率模型 但受限于高维数据计算瓶颈 1989年Dyna架构首次结合强化学习与内部世界模拟 [10][11] - 世界模型概念由施密德胡伯于1990年正式提出 但受限于当时技术条件未受关注 直至2018年其论文因深度学习革命和性能提升引发广泛关注 [11][12] - 谷歌DeepMind自2019年起持续推动世界模型发展 PlaNet模型仅用5帧预测50步后续发展 Dreamer模型引入RSSM技术提升预测性能 Genie系列在此基础上专注于交互式视频生成 [13] 世界模型的技术实现 - 表征学习环节通过VAE或自监督视觉模型将多模态输入数据压缩为机器可处理的内部语言 为模拟提供基础 [15] - 动态建模环节需准确刻画物理规律 通过嵌入物理约束或多样化数据训练避免错误关联 例如抛掷物体需涵盖羽毛与铅球不同场景 [16] - 控制与规划环节基于模型强化学习在潜变量空间进行多步规划 早期使用蒙特卡洛树搜索 PlaNet等模型实现策略与内部世界双向优化 [17] - 结果输出环节通过潜在空间渲染技术将内部表征解码为像素 效率远高于直接像素生成 支持多模态输出如音频与触觉 [18] 世界模型的应用领域 - 为具身智能提供安全训练场 AI可通过虚拟试错积累经验 显著降低现实操作成本与风险 例如机器人避障训练 [20][21] - 提升数字孪生应用效能 从被动模型升级为主动预测系统 可预警设备故障 优化流程并实现感知预测决策一体化 [21] - 推动教育与科研变革 虚拟实验室支持精确预测物理化学反应 交互式课堂增强学生探索体验 优化知识产业链 [22] - 重塑游戏娱乐行业 实时生成可玩世界与高智能NPC 提升沉浸感 未来或成为虚拟社会的基础设施 [22] 世界模型的争议与挑战 - 技术路径分歧:杨立坤等学者认为世界模型是AGI必经之路 因大语言模型缺乏物理一致性推理能力 而哈萨比斯等指出无模型方法如AlphaGo已在复杂任务中超越人类 [28][29] - 隐式建模可能性:部分学者主张通过海量数据训练隐含世界知识 例如GPT模型可推演事件逻辑 显式物理建模非唯一途径 [30] - AGI定义差异:若目标为机器模拟人类思维则需世界模型 若仅追求任务表现则可不依赖 需根据任务性质选择技术路径 [31] 伦理与社会风险 - 可能模糊真实与虚拟边界 生成内容交互性强于当前AI 易被用于诈骗或政治操纵 颠覆有图有真相时代 [24] - 成为行为操控工具 通过环境设计潜移默化影响用户选择 挑战商业诱导与意识形态渗透的防御机制 [24] - 加剧虚拟沉迷与现实疏离 智能乌托邦提供完美体验 可能削弱现实生存技能 [25] - 复制并放大现实偏见 训练数据中的歧视性内容被强化并通过互动传播 [25] - 责任归属不明确 虚拟伤害或不良策略重现时 开发者 平台与用户责任划分存治理缺口 [26]
亏钱的AI大厂们,养肥了吃播
虎嗅APP· 2025-08-21 18:08
AI吃播内容趋势 - AI吃播通过合成视频展示非常规食物如手办loopy、钻石披萨和水晶鸡腿 创造沉浸式ASMR体验 [6] - 此类内容在国内外平台迅速走红 小红书AI ASMR话题超5000条笔记 相关话题浏览超100万 [11] - 视频呈现强成瘾性 满足用户放松解压需求 通过慢节奏和清晰声音助眠或缓解社交疲劳 [25] 流量与粉丝增长 - 博主@慢一点AI在抖音两个月涨粉6.5万 单条吃红宝石和钻石视频点赞超3万 [13] - 海外博主leilanikovac在Tiktok获81.7万点赞 另有博主3天发11条切水果视频后粉丝突破8万 [14] - 账号几天内可获得十几万粉丝 创造流量奇迹 [7] 变现模式 - 通过平台流量激励和商品橱窗实现基础变现 更高效方式为售卖提示词和教学课程 [16] - 提示词成为硬通货 TikTok博主以9.9美元售四句话提示词 用户可替换内容生成视频 [17] - 国内博主橱窗售卖提示词合集 例如2.7万粉丝博主橱窗跟卖人数达112人 [18] - 专业平台PromptBase以1.99美元售提示词 抽成20%服务费 [21] - 教学社区Interlink收费220元 提供包括提示词优化和工具使用指南等内容 [22] 平台与模型商业化 - 快手可灵AI一季度收入超1.5亿元 推动港股高开6.46% 后续涨幅超30% [28] - 可灵用户规模超4500万 对比腾讯元宝上半年月活仅2480万 [29] - 收入70%来自P端用户如专业视频创作者和广告营销从业者 会员分三级:黄金396元/年、铂金1596元/年、钻石3996元/年 [29] - 平台通过会员订阅和功能付费收割收益 与创作者变现能力直接挂钩 [29] 内容创新与用户需求 - AI吃播突破现实食材限制 覆盖火山熔浆、奢侈品牌包和流行IP等想象性内容 [24] - 与真人吃播不同 核心满足放松需求 不刺激不吵闹 提供独特松弛感 [25] - 类似短剧的模版化剧情和魔幻设置 虽看完即忘但令人欲罢不能 [25]
从“内部世界”到虚拟造物:世界模型的前世今生
经济观察报· 2025-08-21 16:25
谷歌DeepMind Genie 3模型 - 谷歌DeepMind发布Genie 3模型 能够根据文本或图像提示实时生成可交互的3D虚拟环境 例如输入"月球上的火山边"可生成相应场景并允许用户探索 [2] - Genie 3在实时交互能力上显著提升 支持记忆连贯性 如用户涂鸦后离开再返回 涂鸦仍保留 并引入"可提示的世界事件"功能 允许通过新指令动态改变环境 [2] - 该模型被视为通向通用人工智能(AGI)的"世界模型"路径 刷新AI生成内容边界 引发行业对"世界模型"技术路线的广泛讨论 [2][21] 世界模型技术发展史 - 世界模型灵感源自人脑构建"内部世界"的能力 早期AI研究如维纳的反馈控制理论和符号主义知识图谱已尝试模仿该机制 [6] - 1989年理查德·萨顿提出Dyna架构 结合强化学习与内部世界模拟 1990年施密德胡伯首次用RNN实现"世界模型"概念 但受限于当时技术条件未受重视 [6][7] - 2018年施密德胡伯团队发表《世界模型》论文 借助深度学习革命浪潮 该概念重新引发关注 谷歌DeepMind随后推出PlaNet(2019)和Dreamer(2020)等迭代产品 [7][8][9] 世界模型技术实现路径 - 核心技术包括表征学习(如VAE压缩多模态数据)、动态建模(嵌入物理规律避免模拟偏差)、控制规划(蒙特卡洛树搜索或强化学习)及结果输出(潜在空间渲染) [11][12][13][14] - 动态建模需解决因果关系学习难题 通过嵌入物理定律或多样化数据训练确保模拟准确性 例如抛掷物体需涵盖羽毛与铅球不同场景 [12] - 输出环节采用潜在空间生成再解码为像素 效率高于直接像素生成 多模态输出需结合声音、触觉等渲染技术 [14] 世界模型行业应用前景 - 具身智能领域:为机器人提供安全虚拟训练场 通过"做梦"式模拟降低试错成本 避免现实环境中的事故风险 [15][16] - 数字孪生领域:从被动模型升级为主动预测系统 实现设备故障预警、流程优化等"感知-预测-决策"闭环 [16] - 游戏娱乐领域:实时生成动态虚拟世界 提升NPC交互智能 未来或成为"虚拟社会"基础设施 支持大规模数字生活 [17] 行业技术路线争议 - Meta杨立坤认为世界模型是AGI必经之路 因其模拟人类"离线思考"能力 而大语言模型缺乏物理一致性推理 [21] - DeepMind哈萨比斯等学者持反对意见 指出AlphaGoZero等无模型方法已超越人类 显式物理建模可能受误差累积限制 [22] - 中间路线派主张隐式建模 如大语言模型通过参数隐含世界知识 虽可解释性差但能完成逻辑推演 技术路径应依任务需求选择 [23][24]
亏钱的AI大厂们,养肥了吃播
创业邦· 2025-08-20 18:12
AI吃播内容趋势 - AI吃播通过合成视频展示非常规食物如手办、钻石披萨和水晶鸡腿 创造沉浸式ASMR体验[6] - 此类内容在国内外短视频平台迅速流行 小红书AI ASMR话题有5000多条笔记 AI生成视频等话题浏览量超100万[11] - 视频互动量达上万级别 成为流量增长新热点[11] 创作者流量与变现 - 博主通过AI吃播实现快速涨粉 抖音博主@慢一点AI两个月涨粉6.5万 单条视频点赞量突破3万[15] - 海外TikTok博主leilanikovac单条视频获81.7万点赞 另一博主三天发11条视频后粉丝突破8万[16] - 变现模式包括平台流量激励和售卖提示词 海外市场单份提示词售价9.9美元 国内博主橱窗售卖提示词合集[19] - 专业平台PromptBase以1.99美元单价出售提示词并抽成20%服务费 形成成熟交易生态[22][23] 用户心理与内容特性 - AI吃播满足用户放松解压需求 提供不刺激、慢节奏的清晰音效 成为低能量人群恢复精力的方式[27] - 内容突破现实限制 展示火山熔浆、奢侈品包等想象性场景 直击人性成瘾机制[26] - 与短剧逻辑相似 通过模式化剧情和魔幻设置创造欲罢不能的观看体验[29] 平台商业模式与工具生态 - 快手旗下可灵AI单季度收入超1.5亿元 推动港股单日高开6.46% 后续涨幅超30%[31] - 可灵用户规模达4500万 超越腾讯元宝的2480万月活 显示工具端优势[32] - 收入70%来自P端用户(专业创作者和广告从业者) 会员分三级:黄金396元/年、铂金1596元/年、钻石3996元/年[32] - 平台通过会员订阅和功能付费收割收益 创作者变现能力与工具付费意愿形成正向循环[32]