Transformer
搜索文档
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 17:22
自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域,并主要用于闭环仿真[2] - 行业正经历风格转换,因处理Corner Case成本过高,需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章,从概述、背景知识到专题应用,系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈,包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型,解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型,涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等,并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型,涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题,分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平,能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学,配备VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 课程自1月1日开课,预计两个半月结课,各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]
谷歌创始人罕见反思:低估 Transformer,也低估了 AI 编程的风险,“代码错了,代价更高”
AI前线· 2025-12-21 13:32
文章核心观点 - 谷歌联合创始人Sergey Brin认为,当前AI在代码生成等关键任务上存在严重错误风险,可能更适合创意类、文字类等容错率较高的工作 [2] - 谷歌在生成式AI路线上曾因对技术浪潮的低估、算力投入不足以及对产品化风险的过度担忧而出现迟疑,让竞争对手抢占了先机 [2] - 真正的AI竞赛核心并非简单的“砸钱堆算力”,过去十年算法进步的速度远超规模扩张,算力是“甜点”,而算法与工程才是“主菜和蔬菜” [3][55] - 大学和工程教育在AI时代面临根本性挑战,需要重新思考其知识创造、传播以及人才聚集的物理形态在未来百年的角色 [41][42][43] 谷歌的创业历史与文化基因 - 谷歌起源于斯坦福博士阶段的自由研究环境,早期尝试过多种项目,包括失败的在线订披萨网站 [6][7][8] - 公司创立是技术授权失败后的“最后一个选项”,曾尝试以160万美元将技术授权给Excite但未成功 [10] - 公司创立之初就确立了宏大的使命(“整合全球信息”)和重视基础研发的学术精神,这深刻影响了其文化 [12][13] - 早期招聘大量博士,并基于对深技术的信任招揽顶尖人才(如Jeff Dean),奠定了其创新基础 [14][24] 对AI发展的观察与反思 - 谷歌低估了Transformer论文之后的技术浪潮,在扩大量级算力上投入不足,且因害怕聊天机器人“说蠢话”而过于谨慎,延迟了产品化 [22][23] - 谷歌的长期积累(如Google Brain、自研TPU芯片、大规模数据中心)使其仍能站在AI前沿 [24][25] - AI发展速度极快,竞争激烈,其最终能力上限和走向(包括超级智能)仍是未知数 [26][27][28] - AI目前更多是增强人类能力的工具,能提供各领域80%-90%的概览知识,让个体更有能力 [30][31][33] 对人才、教育与创业的建议 - 不建议因AI会写代码而放弃学习计算机科学,编码能力对AI发展本身至关重要,且AI生成的代码可能存在严重错误 [35][36][38] - 给创业者的建议是避免过早商业化,需将产品打磨成熟后再推向市场,以免被外部期待绑架,并以Google Glass为例说明了抢跑的教训 [50][51][52] - 在AI时代,大学需重新定义自身价值,在线教育和AI助手使知识获取民主化,但高密度人才物理聚集的“生态”价值仍需思考 [41][42][43] - 学术界到产业界的创新管道价值面临挑战,因产业界研发和规模化速度加快,但某些需要长期“发酵”的激进探索(如量子计算新路径)可能仍需学术界 [46][48][49] 未来技术趋势判断 - 材料科学是被严重低估的新兴技术方向,其突破对AI、量子计算等领域有巨大潜在影响 [56] - 生物与健康领域的分子科学、合成生物学同样充满机会,不应被AI完全掩盖光芒 [56][57] - 解决AI发展瓶颈的关键在于算法、新模型架构(如Transformer的替代者)和训练方法的进步,这些比单纯扩大算力和数据规模更重要 [53][54][55]
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 19:43
文章核心观点 文章核心观点认为,通用人工智能(AGI)的实现面临一系列根本性的物理和工程约束,而非单纯的理论或算法问题。当前AI行业的发展,特别是依赖模型规模扩展和硬件性能提升的路径,正在快速逼近其物理极限,预示着AGI可能不会以市场普遍预期的乐观方式到来 [1][4][9]。 被物理极限“锁死”的AGI - 计算是受物理规律约束的,信息移动的成本远高于计算本身,且成本随距离呈平方级增长,这构成了智能提升的根本限制 [5] - 芯片设计中,用于存储、互连和数据通路的面积远大于计算单元,更大的缓存必然更慢,制程进步使内存和带宽成本相对上升 [6] - Transformer架构的成功是在当前物理约束下接近最优的工程选择,其核心计算模式(局部MLP和受限的全局注意力)对应了硬件条件下最划算的操作,因此通过架构改进获得的边际收益正在快速下降 [4][7] 低垂果实已摘完 - 在成熟领域,获得线性改进往往需要付出指数级的资源投入,因为随着系统规模扩大,资源在时空和能量上的竞争导致协同效率下降 [10][16] - 绝大多数AI领域的“创新”是建立在已有框架上的渐进式改进,即使看似不同的方法(如状态空间模型与Transformer)也在解决同一核心问题,难以带来结构性跃迁 [4][11][12] - 这种约束在物理学中表现明显,验证更深层规律需要建造耗资数十亿美元的复杂装置,但带来的新答案有限,表明某些问题被资源和复杂度锁在现有能力之外 [15][17] GPU性能红利接近尾声 - AI过去的关键跃迁(如AlexNet、Transformer规模化)依赖GPU单卡性能提升和数量增加,但GPU性能的快速提升阶段大约在2018年已结束 [19][21][22] - 之后的“进步”依赖于一系列一次性、不可重复的工程红利,如采用FP16、Tensor Core、HBM高带宽内存、更低比特宽度(INT8/INT4)等,本质是用精度换吞吐,压榨物理边界 [23][24] - 这些“可压榨的空间”已基本用完,继续前进只能在计算效率与内存效率间权衡,无法带来数量级提升,硬件不再是能持续兜底问题的变量 [25][26][27][32] 规模化扩展面临成本拐点 - 过去模型规模的持续推进,依赖GPU指数级性能提升抵消了扩展所需的指数级资源投入,但现在变为指数级成本仅带来勉强的线性回报 [35][36] - 单纯靠规模扩展带来的提升窗口可能只剩一到两年,预计到2025年收益将非常有限,2026或2027年若无新研究路径或软件突破,扩展在物理上将不可持续 [36] - 当扩展的边际收益低于研究和软件创新时,硬件会从资产变成负担,一些小团队(如MoonshotAI, Z.ai)已证明无需天量算力也能接近前沿模型能力 [37][38][39] 基础设施护城河可能消失 - 大模型推理效率高度依赖规模本身,需要巨大用户规模来摊薄部署成本,这是当前开放权重模型未在成本上改写格局的原因 [41][42] - 一旦出现更适合中等规模的推理栈,能让大型模型(如3000亿参数)在较小规模下实现接近前沿实验室的推理效率,那么后者在基础设施上的护城河可能迅速消失 [44] - 小模型能力持续提升(如GLM 4.6)、AI应用垂直专业化降低对通用前沿模型的依赖、部署复杂度下降及硬件选择多样化,将共同使系统逼近物理最优解,规模优势的溢价会快速蒸发 [45] 缺乏物理载体的AGI是伪命题 - 真正的AGI需具备在现实世界中执行具有经济意义的体力劳动的能力,而这部分是人类经济活动中最受物理约束的领域 [4][48][49] - 机器人技术并未走向通用化,在受控环境(如工厂)中专用自动化系统已极其成熟且高效,而在非受控环境中,许多任务虽技术可行但经济上不成立,因为数据采集成本高而人类完成成本低 [50][51][52][54] - 机器人学习的扩展规律与大语言模型相似,但面临更严苛的现实约束(数据采集昂贵、反馈稀疏、状态空间巨大),其扩展速度远慢于纯数字环境 [53] “超级智能”叙事存在根本缺陷 - “超级智能”能自我改进并形成失控式跃迁的假设,忽略了智能是嵌入在物理系统中的能力,任何系统改进都需要资源,且线性改进往往需要指数级投入 [56] - 超级智能无法绕过GPU核心性能提升已近尾声、Transformer架构接近物理最优、大规模推理部署属成熟工程问题等基本物理和工程约束 [58] - 限制AI经济价值释放的关键是落地、部署与应用结构,而非能力上限,因此专注于降低部署门槛、推动经济普及的参与者更可能在长期胜出 [58][59]
布林坦承谷歌低估Transformer,“还被OpenAI挖走了Ilya”
36氪· 2025-12-15 19:02
谷歌的创业起源与发展 - 谷歌的创立源于1995年斯坦福大学拉里·佩奇与谢尔盖·布林的合作,他们最初共同开发了名为BackRub的搜索算法,该算法通过链接分析确定网页重要性,成为谷歌的前身[7][11] - 创始人最初试图将BackRub技术授权给互联网公司但未能成功,因此被迫选择自行创业,并获得了天使投资,布林为此中断了博士学业[11] - 公司名称“Google”源自代表数字1后面带100个零的数学表达式,体现了其整合全球信息的宏大野心[12][14] 公司的文化与早期创新 - 早期谷歌积极营造学术氛围,注重基础研发投入,并吸纳了许多博士生,形成了创新与打破常规的文化[14] - 公司早期具有鲜明的实验精神,例如第一台服务器机箱由乐高积木搭建,浏览器首个涂鸦暗示员工参加火人节,甚至为公司养的狗撰写员工观察日志[14][15] - 随着技术复杂度提升,公司着重聘请数学、计算机科学人才以及具备计算技能的物理学家,为其技术领先奠定了基础[18] 在人工智能领域的领先与失误 - 谷歌曾是AI领域的先驱:2012年发表Cat paper证明了无监督学习的可行性,并是最早将深度学习大规模工程化的公司之一,当时汇聚了Hinton、吴恩达、Ilya Sutskever、Demis Hassabis等顶尖专家[18] - 然而,公司在Transformer论文发表后犯下重大战略错误,内部未给予足够重视,也未加大计算资源投入,因担心聊天AI“会说蠢话”而不敢轻易推向市场,从而将机会拱手让给了OpenAI[4][18] - OpenAI抓住了此次机会,甚至从谷歌挖走了包括Ilya Sutskever在内的人才[18] 公司的技术优势与当前AI布局 - 得益于长期的研发历史,包括谷歌大脑团队和对早期神经网络的投入,公司在AI领域仍保持技术优势[20] - 谷歌很早就为AI开发了专用TPU芯片,也是最早使用GPU的公司之一,拥有大规模数据中心、自研半导体、深度学习算法等全栈技术,这使其在快速变化的AI竞争中能保持领先[20] - 创始人布林在“退休”后重新回归公司,将大量精力投入Gemini的研发,参与技术讨论、代码审查和训练细节,推动核心AI产品发展[27] 对人工智能未来的看法与建议 - 布林认为AI技术将赋予人们更多能力,在工作、创业、健康和生活方面拥有巨大潜力,但其智能发展的最终程度尚不确定[20] - 他建议大学生积极利用AI作为工具,例如用于挑选礼物、构思产品想法或艺术创作,通常做法是让AI生成多个想法以供启发和完善[21] - 他认为AI在比较文学等创造性工作上可能更擅长,因此不推荐该专业,同时指出量子计算和材料科学可能是被低估的、具有长期影响的未来技术,并建议关注AI和量子计算在材料科学中的应用[4][23] 对创业与产品开发的反思 - 布林以谷歌眼镜的失败为例,告诫创业者不要过早将不成熟的想法商业化,而应在成本控制和消费者体验上做好充足准备[4][25] - 他反思自己在推出谷歌眼镜时过于自信,但认识到史蒂夫·乔布斯的成功独一无二,总结出当想法被外界期待、成本增加、交付期限临近时,必须充分打磨产品,避免陷入被期望裹挟的恶性循环[25] 对教育及个人工作的思考 - 布林认为,随着在线平台和AI的普及,知识的传播正变得普遍化,大学应重新思考其定位,未来可能更侧重于跨地域远程教育,其意义在未来一百年可能发生根本改变[23] - 他透露自己保持思维敏锐的方法之一是经常在驾车时与Gemini对话,询问如建设数据中心所需电力兆瓦数与成本等实际问题[28] - 布林回顾其“退休”决定,认为离开工作后状态变差,现在视其为一个大错误,并强调生命的意义在于找到热情并不懈奋斗[6][27][29]
重磅!8 年后回到斯坦福,谷歌创始人谢尔盖·布林复盘:AI为什么落后,又如何实现绝地反击?(附视频)
美股IPO· 2025-12-15 08:24
谷歌的成功经验与早期决策 - 公司早期确立了整合全球信息的宏大使命,并建立了学术化的公司文化,重视基础研发投入 [11][12] - 公司通过敢于尝试技术深度高、具有挑战性的难题来培育创新文化,例如在AI领域早期就确定了方向 [12][13] - 公司过去25年的重大创新决策包括收购YouTube、DoubleClick,发展Waymo以及自主研发芯片 [12] 谷歌在AI领域的得失与核心优势 - 公司在约8年前发布Transformer论文后出现决策失误,因担心聊天机器人说蠢话而未足够重视及快速推广技术,导致在AI商业化部署上失去先机 [3][10][15] - 公司在AI领域的持续竞争力源于对深层基础技术的长期投入,包括十多年前开始开发AI专用芯片TPU以及建设大规模数据中心 [4][16] - 公司拥有从算法、半导体到计算设施的全栈基础设施掌控能力,使其能够站在现代AI的前沿竞争 [4][16] 对未来AI技术发展的看法 - AI未来的突破将更多地依赖于算法进步和潜在的新架构,而非仅仅扩大数据和计算规模 [5][29] - 过去十年中,算法进步的速度实际上已经超过了计算能力的增长速度 [5][29] - 在算力受限的背景下,学界的研究方向可以聚焦于如何用更少的资源做更多的事 [30] 对教育、专业选择与学术界的看法 - 大学未来的形态可能不应再局限于地理位置,信息传播和远程协作将改变其概念 [20] - 学生应将AI作为增强个人能力的工具,用于头脑风暴和获取专业知识概览 [7] - 在AI擅长编程的背景下,学习计算机科学依然有价值,因为编程有巨大市场价值且能推动AI进步,而AI在处理如比较文学等创造性任务时可能更容易 [6][18] - 学术界在需要十年甚至更久、以纯探索为主的长周期基础研究上仍具有不可替代的价值,产业界往往不愿承担此类长跨度项目 [22][24] - 从学术到产业的路径时间已被大幅压缩,学术界在部分快速落地领域的“先行期”优势可能减弱,但在如量子计算等激进、底层的创新探索上仍适合 [22][23] 对创业者与其他技术领域的建议 - 创业者应避免在想法未完全成熟前过快商业化,需给予产品足够的发展时间,避免陷入外部期望滚雪球的困境 [26] - 材料科学是一个被严重低估的技术方向,其在AI和量子计算等领域的应用潜力巨大 [33][34] - 生物与健康领域,特别是分子科学和合成生物学,正在发生革命但获得的关注度明显不如AI [34]
AI医疗影像:在数据“围城”中如何突围
经济观察报· 2025-12-10 18:39
文章核心观点 - 医疗影像AI已创造巨大价值并实现规模化落地,但行业陷入“叫好不叫座”的商业化困境,企业捕获价值远低于创造价值 [2][5][6][8] - 商业化困境源于技术门槛低导致同质化竞争激烈,以及医院支付能力有限 [9][10] - 突破困境的关键在于技术范式从CNN转向Transformer,以提升AI的诊断能力和向多模态综合诊疗模型发展,从而创造更大价值 [12][13][14] - 实现技术跃迁的最大挑战与机遇在于数据,包括数据规模、质量、多模态对齐及隐私法规限制,解决数据问题是构建下一代医疗AI护城河的关键 [16][17][18][19] AI医疗影像的现状与价值 - 政策推动行业快速发展,目标到2030年二级以上医院普遍开展医学影像智能辅助诊断 [2] - AI医疗影像辅助诊断技术已成熟并步入实际落地阶段,头部三甲医院几乎都已引入相关产品 [3] - AI显著提升医生工作效率,将传统近30分钟的诊断流程缩短至5-10分钟 [5] - AI识别准确率普遍高达95%以上,在肺结节、骨折检测、骨龄分析、乳腺病灶检测及放疗、手术规划等多个场景得到应用 [6] - 全国三级医院约14万名影像科医生,平均工资约19万元,假设AI为其节约一半工作时间,理论上每年可创造高达130多亿元的价值 [6] 行业商业化困境 - 2020年至2024年整个行业累计商业收入不足30亿元 [8] - 平均每家医院终身使用一款AI医疗影像产品仅需40万元,且多为一次性软件买断模式,后续服务收费乏力 [8] - 同质化竞争激烈,截至2025年已有100余款AI医疗影像产品获批三类医疗器械注册证,仅胸肺场景就有十余家企业竞争 [9] - 竞争导致“免费试用”策略盛行,医院习惯免费模式后,厂商收费困难 [9] - 医院支付能力有限,许多三乙和二级医院全年检查收入在百万量级,影像科自身可能亏损,难以负担数十万元的软件费用 [10] - 企业盈利困难,以鹰瞳科技为例,2024年全年收入1.5亿元,销售费用占近一半,全年亏损2.6亿元,大部分非头部企业年收入仅在千万元量级 [10] 技术发展的潜力与方向 - 当前AI主要提供辅助诊断价值,在“找出病灶”方面表现出色,但在“判断疾病良恶性质”上误诊率高于优秀医生,治疗辅助仍需医生复核 [12] - 现有主流CNN模型缺乏全局视野,对复杂疾病易误判,且对三维影像理解能力较弱 [13] - 引入Transformer架构可弥补CNN短板,其自注意力机制擅长全局和长距离依赖分析,有望让AI从“辅助诊断”向“独立诊断”迈进 [13] - 基于Transformer的多模态能力,可整合处理影像、文本、检查、时序、组学等多维度医疗数据,构建覆盖全流程的综合性临床诊疗大模型 [14] 数据:核心挑战与机遇 - 基于Transformer的模型需要百万到千万级的图像数据进行训练,微调也需要十万到百万级的标注数据,规模远超当前主流商用模型 [18] - 医疗数据受严格法规保护,共享流通受限,获取大规模高质量标注数据困难 [18] - 疾病数据量差异大,如葡萄膜黑色素瘤全球每年仅几万例,罕见病仅几百上千例,即便大病种如肺癌,获取高质量数据也非易事 [18] - 数据混乱问题突出,包括不同设备参数差异、医生标注质量参差不齐等 [18] - 多模态数据融合进一步增加难度,需要对齐来自不同时间和来源的多种数据,是一项浩大的数据工程 [19] - 能够在数据收集、治理、标准化、标注、隐私保护和高效利用方面建立核心能力的企业,将构建深厚护城河 [19] - 解决数据问题需技术和机制双轮驱动,技术途径包括发展自监督学习、联邦学习、合成数据等 [19] - 非技术层面需设计有效协调机制,中国可能在自上而下的制度设计方面具有优势,以促进数据流动 [20]
北京大学:AI视频生成技术原理与行业应用 2025
搜狐财经· 2025-12-09 14:48
AI视频技术概览 - AI视频属于狭义AI范畴内基于学习的生成式AI,是AIGC的重要分支,核心任务包括视频生成、编辑与理解,典型生成方式为文生视频、图生视频、视频到视频 [1] - 技术演进从2016年前的GANs探索阶段,到2020-2024年扩散模型实现商业化突破,再到2024年Sora发布开启“AI视频元年”,行业进入分钟级高清视频量产阶段 [1] - 国内外主流工具平台包括OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika等,各平台在时长、画质、风格上各具特色 [2] 技术原理与架构 - 扩散模型因训练稳定、生成多样性强成为主流技术范式,其架构分为U-Net和DiT两类,U-Net易训练但一致性弱,DiT成本高但长视频一致性强 [3] - 关键技术组件包括:Transformer的自注意力机制保障时空一致性,VAE实现像素空间与潜空间的压缩转换,CLIP完成文本与视觉的语义对齐,时空补丁统一数据格式降低计算成本 [3] - 训练数据的规模、质量和多样性决定模型上限,主流数据集包括WebVid-10M等文本-视频对数据集,以及UCF-101等类别级数据集 [4] 技术能力发展与突破 - 主流模型已实现1080p/4K分辨率、最长2分钟时长的生成,部分模型支持原生音画同步,国产模型在中文语义理解和可控性上优势显著 [5] - 现存核心瓶颈包括时序一致性、物理逻辑合理性、细节情感表达,且算力成本制约技术普及 [5] - 已形成VBench、SuperCLUE等评估体系,VBench2.0更聚焦“内在真实性”,谷歌Veo 3、快手可灵AI等模型在榜单中表现突出 [5] 行业应用案例与价值 - 在影视娱乐领域,AI实现从前期概念设计、中期虚拟制片到后期智能剪辑的全流程介入,催生了AI短剧、AI重制长片等新业态,大幅降本增效 [6] - 在短视频与营销领域,AI视频成为应用最广泛领域,可快速生成品牌广告、UGC创意内容、虚拟主播带货视频,实现低成本规模化内容量产 [6] - 在文旅行业,AI用于制作城市宣传片、打造AI文旅推荐官、结合VR/AR实现沉浸式体验,助力文化IP传播与旅游营销 [7] - 在教育培训领域,AI用于批量生成微课视频、打造AI虚拟教师、定制个性化学习内容,解决教育资源不均问题 [8] - 在新闻媒体领域,AI虚拟主播实现24小时播报,AI生成沉浸式新闻叙事,但面临内容真实性、版权合规等伦理挑战 [9] 工具选用建议 - 建议根据场景化选型:专业影视选Runway或可灵AI,短视频运营选即梦AI或Pika,动漫动态化选海螺AI或Pixverse,国风内容选Vidu等国产工具 [10] - 使用门槛分级:国内工具零门槛直连,海外工具需科学上网和外币支付,Sora/Veo等生态绑定工具门槛最高 [11] - 核心原则是采用多工具协作工作流,以“导演思维”驾驭工具,而非依赖单一平台 [12] 市场格局与厂商动态 - 代表性厂商及产品包括:OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika Labs、生数科技Vidu、Luma AI、阿里通义万相等 [49] - 可灵AI支持生成长达2分钟、1080p、30fps的视频,其Kling 2.5 Turbo版本成本降低30%,全球用户已突破4500万 [49] - 即梦AI背靠抖音与剪映生态,打通从“AI生成”到“剪辑发布”全链路,月活5400万,2025年10月网站访问量达1000万 [49] - 通用大模型通过集成顶尖视频模型获得强大视频生成能力,例如ChatGPT集成Sora,Gemini生态集成Veo,Meta AI集成Emu Video,通义千问集成通义万相,豆包与抖音/TikTok和剪映形成闭环 [51] 发展前景与核心观点 - AI视频最终将走向“人机共创”范式,成为像互联网一样的基础设施,人类需聚焦创意与判断力,实现与AI的协同进化 [13] - AI视频正从实验性“技术炫技”阶段迅速发展为影视预演、广告创意、短视频制作和在线教育的实用工具,行业变革的临界点已清晰可见 [37] - 2024年初Sora模型凭借一分钟长度、高清画质及物理世界连贯性理解,重新定义了AI视频生成能力 [37]
Roblox CEO感叹AI研究进展:曾博览群书的自己都快看不懂了
搜狐财经· 2025-12-08 19:28
行业研究动态 - AI研究更新速度飞快,新论文几乎每天出现,技术概念复杂,Roblox CEO认为想真正看懂所有论文极其困难[1] - AI研究浪潮规模巨大、速度惊人,从Transformer到扩散模型再到世界模型,内容多到难以完全掌握[3] - 随着AI从学界扩展到国家战略高度,Meta、微软等公司纷纷建立自己的研究部门,并以极高薪资吸引顶尖人才[3] - AI研究变得更封闭,2023年谷歌决定减少公开发表的AI论文,公司进入要靠内部知识竞争的阶段[3] - OpenAI联合创始人认为,真正决定AI走向的仍是研究本身,现在重新回到研究时代,只不过用的是更大的计算机[3] 公司观点与战略 - Roblox CEO在创业初期几乎读遍从物理模拟到图形渲染的各类研究且都能理解,但AI时代的到来改变了一切[3] - Roblox CEO的结论是,AI在三维世界里仍然处于非常初期的阶段[3] - AI依赖的是人类制造出来的文本和图像,是用自己创造的内容训练AI,而不是用真实世界的三维原始数据[3]
AI医疗影像:在数据“围城”中如何突围
经济观察网· 2025-12-08 15:06
政策目标与行业现状 - 国家五部门发布《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》,提出到2030年基层诊疗智能辅助应用基本实现全覆盖,二级以上医院普遍开展医学影像智能辅助诊断等应用 [2] - 医疗影像因数据结构标准化,是AI技术在各行业中最早实现规模化落地的场景之一,目前头部三甲医院几乎都引入了AI医疗影像产品 [3] - 中国影像科医师严重短缺,三级医院每位影像科医生日均需出具80-100份CT报告、60-80份磁共振报告或120-150个超声检查,超负荷工作现象普遍 [4] AI医疗影像的已实现价值 - AI辅助可将传统耗时近30分钟的诊断流程缩短至5-10分钟,显著提升医生工作效率 [5] - AI在影像检查中识别准确率普遍高达95%以上,在放疗计划制定中可将几小时的工作压缩至几分钟 [5] - 全国三级医院约有14万名影像科医生,平均工资约19万元,保守假设AI能为其节约一半工作时间,理论上每年可创造高达130多亿元的价值 [6] 行业商业化困境与原因 - 2020年至2024年整个AI医疗影像行业的累计商业收入不足30亿元,平均每家医院终身使用一款产品仅需40万元,多为一次性软件买断模式 [7] - 行业同质化竞争激烈,截至2025年已有100余款AI医疗影像产品获批三类医疗器械注册证,单胸肺场景就有十余家企业竞争 [8] - 激烈竞争导致厂商普遍采用“免费试用”策略,陷入囚徒困境,且医院经费有限,许多三乙和二级医院全年检查收入在百万量级,难以负担非刚需的软件费用 [8][9] - 以鹰瞳科技为例,2024年全年收入1.5亿元,销售费用占近一半,全年亏损2.6亿元,大部分非头部企业年收入仅在千万元量级 [9] 技术发展潜力与方向 - 当前AI主要提供辅助诊断价值,在“判断疾病良恶性质”上误诊率高于优秀人类医生,能力上限暂时只能作为医生的提效助手 [10] - 当前主流商业化模型以卷积神经网络(CNN)为主,其缺乏全局视野,对三维影像理解能力较弱 [11] - 引入Transformer架构有望弥补CNN短板,其自注意力机制擅长全局和长距离依赖分析,能让AI从“辅助诊断”向“独立诊断”更进一步 [11] - Transformer的多模态能力为构建覆盖筛查、诊断、治疗到随访全流程的综合性临床诊疗大模型铺平了道路 [12] 未来发展面临的核心挑战:数据 - 基于Transformer的模型需要百万到千万级的图像数据,微调也需要十万到百万级的标注数据,比当前主流商用模型训练规模大几个数量级 [16] - 医疗数据受严格法规保护,共享流通受限,且不同设备、协议及医生标注差异导致数据混乱,获取大规模高质量标注数据困难 [16] - 多模态数据融合要求收集和处理影像、病理、临床、基因等多维度数据,并将不同来源、时间的数据精确对齐,工程浩大 [17] - 能够在医疗数据的收集、治理、标准化、标注、隐私保护和高效利用方面建立核心能力的企业,将有望构建最深护城河 [17] - 可通过自监督学习、联邦学习、合成数据等技术途径缓解数据挑战,但更需要设计有效的协调机制让数据流动起来 [17]