Workflow
Veo
icon
搜索文档
不装了,LeCun哈萨比斯神仙吵架,马斯克也站队了
36氪· 2025-12-24 15:47
核心观点 - 人工智能领域两位顶尖专家就“智能的本质”展开激烈辩论,图灵奖得主Yann LeCun认为“通用智能”是胡扯,人类智能是高度专业化的产物,而诺贝尔奖得主、谷歌DeepMind CEO Demis Hassabis则认为通用智能不仅存在,且人脑是其存在性证明,双方的核心分歧部分在于对“通用”一词的定义和理解[1][6][8][13] - 尽管对智能本质的哲学观点存在分歧,但双方在实现AGI(通用人工智能)的实践路径上均将“世界模型”视为关键,但对其具体内涵和实践方向的理解存在差异:LeCun倾向于将世界模型视为用于决策的抽象认知框架,而Hassabis则更侧重于将其视为能够模拟和生成世界的“模拟器”[20][21][22] - 这场辩论反映了AI领域长期存在的根本性思辨,如符号主义与连接主义、端到端学习与模块化系统之争,这些辩论共同推动着技术发展方向的定义与演进[22] 主要人物与立场 - **Yann LeCun (Meta AI科学家,图灵奖得主)**:认为“通用智能”概念是“complete BS”(纯粹胡扯),主张人类智能是进化过程中为适应物理世界而形成的、高度专业化的能力,并非真正通用[6][8][14] - **Demis Hassabis (谷歌DeepMind CEO,诺贝尔奖得主)**:强烈反对LeCun的观点,认为其混淆了“通用智能”与“全能智能”的概念,强调人脑在理论上是近似图灵机的通用系统,并以其惊人的成就证明了通用智能的潜力[8][9][10] - **Elon Musk (企业家)**:在争论中表态支持Hassabis,称“Demis is right”,其立场可能受到与Hassabis的长期友谊及曾是DeepMind早期投资者的关系影响[2][4] - **Jürgen Schmidhuber (LSTM之父)**:在争论之外提及,其早期工作与LeCun正在创业的“世界模型”概念高度相似,并长期在AI领域进行“维权”,强调自身贡献[22][24][27] 关于智能本质的辩论要点 - **LeCun的核心论证**: - 人类智能是专业化的:人类在现实世界导航、社交等方面表现出色,但在国际象棋等特定领域表现不佳,甚至不如某些动物,这表明人类是“专才”而非“通才”[6] - 理论完备不等于实际通用:人脑在理论上(配合无限资源)是图灵完备的,但在资源有限的实际问题中效率极低,因此是资源约束下高度优化的专门化系统[14] - 大脑可实现的功能比例极小:以视觉为例,从100万比特输入到1比特输出的所有可能布尔函数中,人脑能实现的只占“一个无穷小的比例”,这证明大脑是高度专门化的[17][18] - **Hassabis的核心论证**: - 大脑具有极强的通用性:大脑是目前宇宙中已知最精妙复杂的事物,只要给予足够时间、内存和数据,就能够学习任何可计算的内容,是近似的图灵机[9] - 人类成就证明通用潜力:人类能发明国际象棋、科学乃至现代文明(如波音747),考虑到大脑本是为狩猎采集进化而来,这些成就已充分展现其惊人的通用潜力[9] - 智能的关键标准是通用性与学习能力:以1997年“深蓝”为例,其虽擅长国际象棋但不会玩简单的井字游戏,体现了非通用程序的局限性,而人类大脑则展示了通用智能的可行性[10] 实现AGI的路径与方法论 - **Hassabis提出的三步方法论**: - **预测为基石**:智能的本质在于预测(如下一个单词或蛋白质结构),这是所有认知活动的基础形式[10] - **引入搜索与规划**:AI需建立世界模型,并在此基础上在巨大组合空间中进行搜索规划以找到最优解[11] - **通向深度强化学习**:结合深度学习(模式匹配)与强化学习(试错与规划),模拟大脑的神经通路与多巴胺奖励系统,实现自主进化[12] - **双方共识与分歧点**: - **共识**:实现AGI需要构建“世界模型”[20] - **分歧**:LeCun认为世界模型应追求掌握控制理论和认知科学,关注用于决策的抽象表征,而非渲染像素;Hassabis则认为世界模型应能理解世界的因果关系与“直观物理学”,并能生成逼真世界以证明其理解[20][21][22] 行业动态与商业布局 - **LeCun的创业计划**:即将从Meta离职,创立名为Advanced Machine Intelligence Labs (AMI Labs)的新公司,计划于明年一月正式亮相,目标估值30亿欧元(约247亿元人民币),专注于世界模型研发[20] - **谷歌DeepMind的进展**:已于2024年8月推出新版世界模型Genie 3,并持续开发如Veo等视频模型,视可交互的世界模型为通往AGI的关键一步[21][22] - **历史技术路线之争**:当前关于智能本质的争论是AI领域长期思辨的延续,历史上包括符号主义与连接主义、端到端学习与模块化系统以及当下的开源与闭源之争,这些辩论持续塑造着行业技术发展方向[22]
谷歌2025「复仇爽文」大结局,从至暗时刻到王者归来
36氪· 2025-12-24 11:01
公司年度表现与战略定位 - 公司在2025年上演了从被外界质疑到重回巅峰的逆转,年底通过Gemini 3和Nano Banana的组合拳实现了降维打击[1] - 公司AI业务在2025年实现了全面突围,将科研变为现实,并在八大领域秀出肌肉[4][5] - 公司通过涵盖底层芯片、核心模型到顶层应用的成绩单,宣告其已重回令对手窒息的领先地位[34] 核心模型进展与性能 - 公司于11月发布了迄今为止最强大的AI模型Gemini 3,具备前所未有的多模态推理能力,彻底解决了推理能力瓶颈[5][66] - Gemini 3在多项基准测试中表现卓越:在“人类终极考试”基准测试中,Gemini 3 Pro和Flash版本在使用工具后分别达到45.8%和43.5%的准确率[6] - 在科学知识测试GPQA Diamond中,Gemini 3 Pro和Flash分别达到91.9%和90.4%的准确率[6] - 在数学测试AIME 2025中,Gemini 3 Pro在使用代码执行后达到100%准确率,Flash版本达到99.7%[6] - 在多模态理解测试MMMU-Pro中,Gemini 3 Pro和Flash分别达到81.0%和81.2%的准确率[6] - 在具身智能编码测试Terminal-bench 2.0中,Gemini 3 Pro和Flash分别达到54.2%和47.6%的成功率[6] - 公司于12月推出了专为速度打造的Gemini 3 Flash,在保持高性能的同时极大降低了响应延迟[67][68] - 模型定价具备竞争力:Gemini 3 Flash的输入和输出价格分别为每百万token 0.50美元和3.00美元[6] 开发者工具与平台 - 公司推出了颠覆软件开发的Google Antigravity,这不再是简单的代码补全工具,而是真正的智能体[7][8] - 公司发布了开源AI智能体工具Gemini CLI,允许开发者在命令行中直接调用Gemini构建智能体[59] - 公司向所有开发者免费提供了Gemini Code Assist编程助手,降低了开发门槛[45] - 公司面向开发者开放了Gemini 3的API,邀请全球开发者基于新模型构建应用[66] 创意与媒体生成工具 - 公司在生成式媒体领域取得突破,Nano Banana Pro和Veo 3.1让图像编辑和视频生成进入专业级时代[9] - 公司推出了由Veo 3驱动的AI电影制作工具Flow,提供好莱坞级别的视频生成和编辑能力[58] - 公司发布了图像生成模型Imagen 3的增强版,在细节和文字渲染上达到新高度[57] - 公司将Nano Banana轻量级图像模型集成到搜索、NotebookLM和相册等多个产品中[65] 科学研究与突破 - 公司的AlphaFold团队在2025年迎来五周年,其贡献助力相关科学家斩获诺贝尔奖[13] - 公司员工Michel Devoret在2025年荣获诺贝尔物理学奖[15] - 公司分享Gemma模型帮助发现了癌症治疗的新路径,展示了开源模型在生物医学领域的科研价值[65] 硬件与基础设施 - 公司发布了首款专为“推理时代”打造的TPU Ironwood,大幅提升AI推理效率[53] - 公司利用AI设计AI芯片,通过AlphaChip设计方法实现了软硬一体的能效和算力优势[19][22][24] - 公司正式发布了Pixel 10系列手机,搭载最新TPU芯片,是首款为“全天候AI”设计的终端设备[63] 具身智能与机器人 - 公司发布了Gemini Robotics 1.5和Genie 3,标志着通用世界模型的新前沿,让AI能够理解和操纵物理世界[23][27] - 公司推出了Gemini 2.5 ComputerUse模型,该模型可以像人一样查看屏幕、移动光标并执行复杂操作[65] 产品集成与用户体验 - 公司在搜索中首次推出AI模式,处理复杂查询并提供深度解答[46][49] - 公司将Gemini 3 Flash集成到全球搜索中,为用户提供瞬间生成的AI智能摘要[69] - 公司在Android 16操作系统中深度集成AI,提升系统流畅度与个性化体验[59] - 公司为Pixel用户通过软件更新推送最新的AI功能[63] - 公司将最先进的Gemini翻译能力引入谷歌翻译,实现同声传译级别的实时翻译效果[72] 行业应用与影响力 - 公司最新的Weather Next 2模型能以惊人精度预测天气,其洪水预报覆盖了全球20亿人[29] - 公司在购物中引入AI模式,支持利用生成式AI进行虚拟试衣[58] - 公司推出了AI驱动的航班搜索工具FlightDeals,智能预测票价趋势[63] - 公司发布了AI驱动的网络安全防御系统,利用大模型实时检测并防御复杂网络攻击[55] - 公司推出了Google Earth AI,这是最先进的地理空间AI模型[31] 安全与责任框架 - Gemini 3被称为公司迄今为止最安全的模型,通过了最全面的红队测试和安全评估[33] - 公司在提升模型能力的同时,持续升级工具链、资源体系与安全框架,以预见并降低潜在风险[33]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
搜狐财经· 2025-12-21 14:05
公司战略与核心优势 - 公司将其独特优势归结为将世界级的研究、工程能力和基础设施三者结合 在AI前沿领域 同时具备这三者的机构非常少 [8] - 公司采用科学方法作为核心思维方式 并将其应用于研究、工程乃至商业领域 这构成了其工作的严谨性与精确性的来源 [7][8] - 公司在发展路径上保持务实 会追随实证证据的指引 例如在看到scaling laws显现效果后 逐步将更多资源投入到该研究路径上 [27][28] 产品与技术路线图 - 公司的核心基础模型Gemini从一开始就是多模态的 能够同时处理图像、视频、文本和音频 并越来越多地生成这些类型的输出 [10] - 接下来12个月的重点方向包括:多模态能力融合取得显著进展、视频能力与语言模型融合产生有趣的能力组合、以及开发更可靠的基于Agent的系统 [10] - 公司的长期愿景是将Gemini打造成“通用助手” 使其出现在更多设备上 并成为用户日常生活结构的一部分 提升工作效率和改善个人生活 [11] - 最新发布的Gemini 3模型在推理深度、细腻度以及“性格”上表现出色 能够简洁直接地回答 并在观点不合理时温和提出异议 [24] - Gemini 3展现出对高层次指令的深度理解能力 以及生成高度细节化输出的能力 在前端开发、网站构建和一次性生成游戏方面表现突出 [25][26] - 公司有一个名为Genie 3的“世界模型”或交互式视频模型 用户可以在生成的视频中“行走” 并在一分钟内保持整体一致性 [10] 行业竞争格局 - 在AI领域 美国和西方整体在基准测试和最先进系统方面仍处于领先地位 但这种领先优势可能仅以“月”为单位 而非“年” [21] - 中国在AI领域并未落后太多 拥有出色的模型和有能力的团队 但在算法创新和原创性方面 西方目前仍然具有优势 [21] - AI行业正经历一场可能是科技史上最激烈的竞争 [8] - AI产业某些部分可能存在泡沫 例如一些规模极其夸张的早期融资 但从长期看 AI被认为是人类历史上最具变革性的技术之一 投入将被证明是值得的 [31] - 行业人才争夺战相当激烈 但最优秀的科学家和工程师希望参与最前沿的工作 持续的技术领先地位将形成吸引力正反馈 [31] 通用人工智能发展预测 - 通用人工智能可能还需要五到十年的时间才能实现 [6][29] - 对AGI的标准设定很高 要求系统能展现出人类所具备的全部认知能力 包括发明和创造能力 并在各个维度上具备一致性 而非当前“锯齿状”的智能形态 [29] - 实现AGI可能不仅需要将现有系统的scaling能力推到极限 还需要一到两个类似Transformer或AlphaGo的范式级关键突破 [29][30] - 当前系统缺乏一些关键能力 如持续学习、在线学习、长期规划和推理能力 这些能力最终会具备 但可能需要关键性突破 [6][29] 技术应用与市场潜力 - AI在网络安全领域的应用受到高度重视 旨在用AI强化防御体系以应对网络威胁 [17] - 在商业和企业领域 随着AI变得重要 企业客户会对Agent的行为保障提出明确要求 这可能会自然地奖励那些更负责任的供应商 [18] - AI在体育领域有巨大应用潜力 因为体育拥有丰富数据并追求极致精英表现 例如AI可以优化角球进攻中球员的精确站位以增加头球进球 [35][36] - 多模态理解能力 尤其是视频理解能力被严重低估 例如Gemini能够对视频内容进行概念层面的理解和哲学解读 [22] - 像Gemini Live这样的功能 允许用户用手机摄像头对准物体获得实时协助 其多模态能力的强大尚未被充分认识 [23] 技术发展现状与挑战 - 目前基于Agent的系统还不够可靠 无法独立完成完整任务 但预计一年后会开始看到接近这一能力水平的Agent出现 [10][12] - 创新和进步的速度非常快 以至于模型的创造者可能都来不及探索现有系统十分之一的潜力 用户常常将模型能力发挥到远超内部测试的程度 [27] - 随着AI系统变得更复杂和更具自主性 存在偏离最初设定指令或目标的空间 如何确保其始终保持在安全边界内是一个活跃的研究领域 [18] - 存在AI被恶意行为者滥用的风险 例如制造病原体或对关键基础设施发动网络攻击 这是必须严密防范的场景 [15][16][17]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
Z Potentials· 2025-12-21 10:24
文章核心观点 - Google DeepMind联合创始人兼CEO Demis Hassabis认为,通用人工智能(AGI)可能在五到十年内实现,但仍需一到两个关键性突破,公司正致力于推进多模态AI、Agent系统和世界模型等前沿方向,以构建一个在日常生活中真正有用的通用助手 [6][30][31] - 公司认为AI是人类历史上最具变革性的技术之一,其最佳前景是带来“激进式丰裕”,解决能源、疾病等重大问题,但同时也需严肃应对AI安全、恶意滥用及系统失控等风险 [14][15][20] - 公司将其在激烈竞争中的优势归因于植根于科学方法的严谨性,以及将世界级研究、工程能力和基础设施相结合的能力 [9] 科学家与诺奖得主:从科学方法到公共责任 - Demis Hassabis获得诺贝尔奖后,其最大的变化在于该荣誉成为与领域外人士(包括政府高层)沟通时的“捷径”,能迅速确立其专家身份,这为其就AI安全等关键议题发声提供了重要平台 [5][7] - 公司强调科学方法是其面对一切问题的默认思维方式,认为这是人类历史上最重要的思想之一,并尝试将这种方法推向极致,这成为其作为研究组织和工程组织的优势来源 [9] - 除了长期AGI安全,公司关注的议题还包括当下AI的负责任使用,以及让整个社会为即将到来的变革做好准备,认为各国政府及其他关键领导者将发挥决定性作用 [6][8] 接下来的一年:多模态与Agent - 公司在接下来12个月将全力推进多模态能力的融合,其核心基础模型Gemini从一开始就是多模态的,能够同时处理并生成图像、视频、文本和音频,多模态本身正在带来有价值的交叉增益 [11] - 公司正在重点投入世界模型方向,例如其Genie 3系统是一种交互式视频模型,用户不仅可生成视频,还能在其中“行走”并保持长达一分钟的整体一致性 [11] - 公司希望Gemini最终成为一种“通用助手”,在接下来一年中会出现在更多设备上,可能通过眼镜等设备真正伴随用户生活,目标是打造一个每天都会被多次求助、成为生活结构一部分的系统 [12] - 目前Agent还不够可靠,无法独立完成完整任务,但预计一年后会开始看到接近这一能力水平的Agent出现 [11][13] 理想与担忧:AI带来的乌托邦与失控 - 公司设想的AI最佳前景是带来一种“激进式丰裕”状态,解决当今社会和人类面临的许多重大问题,如实现廉价可持续的清洁能源、治愈大量疾病,使人类进入后稀缺时代并真正繁荣 [14] - 公司担忧的风险主要来自两个方面:一是恶意行为者利用AI从事有害活动(如制造病原体、发动网络攻击);二是当AI接近AGI、变得更具自主性时,可能在某种情况下“失控”并对人类造成伤害 [15][18] - 公司认为AI突破安全边界的风险概率并非零,因此必须投入大量资源和注意力去应对,但精确量化这种灾难性风险(如P(doom))是没有意义的 [6][20] - 在AI安全研究上,随着具备持续学习能力的系统变得更具自主性,如何确保其始终保持在设定的安全边界内是一个活跃的研究领域,同时市场机制(如企业要求行为保障)也会自然奖励更负责任的参与者 [19] 行业竞争与现状 - 目前美国和西方在AI整体上仍然处于领先位置,但领先优势并不遥远,中国并没有落后太多,当前的领先可能只是以“月”为单位 [21] - 在算法创新和原创性方面,西方仍然具有优势,中国的模型或公司在快速跟进最先进技术方面做得非常出色,但在展示超越当前最前沿水平的原创突破方面目前仍略逊一筹 [22] - AI产业中的某些部分可能确实存在泡沫,例如一些规模极其夸张的早期融资看起来并不太可持续,但从长期来看,AI作为最具变革性的技术之一,其投入将被证明是完全值得的 [32] - AI领域的人才争夺战相当激烈,公司更看重那些被使命驱动的人才,并相信始终站在技术最前沿会形成对顶尖人才的吸引力正反馈 [33] Gemeni3: 实证引导下的强大模型 - 公司对近期发布的Gemini 3模型非常满意,认为其在智能水平和实用性上带来了明显跃迁,其回答风格简洁直接,并能在用户观点不合理时温和地提出不同意见 [25] - Gemini 3体现了对高层次指令的深度理解以及生成高度细节化输出的能力,其在前端开发和网站构建方面表现尤为突出,在美学、创造力和技术实现上都达到了很高水平 [26][27] - 公司认为创新速度过快,以至于在发布新版本时,内部甚至还没来得及探索现有系统十分之一的潜力,最终往往是用户将模型能力发挥到远超内部测试的程度 [28] - 公司决定全力押注LLM是基于科学方法和实证证据的指引,当看到scaling开始显现效果时,便逐步将更多资源投入到这条研究路径上 [28][29] AGI的十年之约:还需关键突破 - 公司认为目前尚未达到AGI,但已相当接近,预计还需要五到十年的时间 [6][30] - 公司对AGI的标准设得相当高,定义为一个系统能够展现出人类所具备的全部认知能力(包括发明和创造),且在各个维度上都具备一致性,而非当前“锯齿状”的智能形态 [30] - 当前系统缺乏一些关键能力,如持续学习、在线学习、长期规划和推理能力,这些能力可能还需要一到两个关键性突破才能实现 [6][31] - 实现AGI的路径上,必须把现有系统的scaling能力推到极限,但公司更倾向于认为除了scaling之外,还需要一到两个类似Transformer或AlphaGo那样的范式级重大突破 [31] 其他洞察与展望 - 公司认为当前AI最令人震撼却被严重低估的一点是模型所具备的多模态理解能力,尤其是多模态视频理解,能够在概念层面理解视频中发生的事情 [23][24] - 公司对人类大脑的适应能力充满信心,认为人类大脑已成功从狩猎采集社会适应到现代文明,理应具备持续适应AI变革的能力,未来或可通过脑机接口等新技术保持竞争力 [34] - 体育领域拥有极其丰富的数据且追求极致精英表现,天然适合引入AI进行优化,例如在角球进攻中,AI系统可通过分析球员的精确站位来帮助进更多的头球 [37][38]
AI视频生成,如何撕开创作边界?
36氪· 2025-12-18 17:30
AI视频生成行业趋势与驱动力 - 2025年下半年AI视频生成成为全球AI行业最受关注的方向之一,热度以“病毒式”速率扩散[1] - 过去两年视频生成技术在画面质量、时序建模与可用性上持续进步,全球AI视频相关能力迭代节奏显著加快[1] - 当生成效果从“能看”跨越到“可用”、“好用”,并覆盖叙事能力、人物一致性、音画同步等工业化生产关键要素时,AI视频真正进入大众视野,成为极具想象空间的赛道[2] 内容产业的结构性难题与AI的变革作用 - 视频行业是全球增长最快、资本最密集、创新最活跃的领域之一,但内容生产被推向极限,更新周期被压缩至小时甚至分钟级[2] - 传统制作链路依赖的人力规模与制作周期,与高频、碎片化的内容需求形成明显错位,压力体现在影视广告、MCN电商、短剧及出海内容等多个领域[3] - AI视频生成显著拉低创作门槛,使个人与小团队具备接近工业化的生产能力,并催生了从创作工具到垂直解决方案的新中间层[3] - 内容生产从一次性创作转向可反复生成、快速验证、持续优化的过程性资产,成为可规模化运行的系统工程[3] - 技术突破与国内规模化需求汇合,使行业形成清晰判断:AI视频生成已成为下一代内容基础设施的重要组成部分[4] 主要参与者的差异化发展路径 - OpenAI的Sora策略偏向通用能力展示,通过高质量视频打开公众认知,推动AI视频进入大众文化与社交传播场景[5] - Google的Veo强调模型在长时序理解与复杂场景中的表达能力,体现为技术能力的前沿探索[5] - 国内公司更多从平台生态出发,将视频生成能力与内容分发、创作者体系结合,或赋能视频生产全流程以提升效率[5] - 路径差异本质基于对“好用还是好玩”、“B端还是C端”的认知不同:C端优先娱乐与表达,B端则要求确定性、一致性及规模化稳定输出[6] - 阿里巴巴选择将AI视频生成做成行业级基础设施,其通义万相模型试图回应行业从能生成走向可生产、从尝鲜迈向规模化落地的趋势[6] 通义万相2.6的核心技术突破与产品定位 - 将多镜头叙事能力提升为模型核心能力,强调在生成过程中对时间轴与镜头语言的整体建模,支持通过自然语言分镜指令直接调度多镜头叙事[8] - 将参考对象从图片升级为视频,支持输入约5秒参考视频,复刻主体外观、动作模式、表情变化与音色特征,实现声画一致的生成结果,显著降低商业场景制作门槛[11] - 将可控生成时长稳定在约15秒,支持1080P输出与声画同步,这段时长对广告、电商、短剧等商业场景是“刚好可用”的内容长度[15] - 文生图能力同步升级,引入对叙事结构的理解,支持图文混排输入,从简单提示自动拆解故事并生成分镜,结合多图参考与商业级一致性控制,使其从“灵感草图”走向可直接用于生产的生产工具[15] - 在中文语境与中式美学上持续投入,通过与美院等机构合作及引入大量中式审美素材进行迭代优化,使模型表现更贴近本土创作需求[17] - 模型演进遵循“效果好大于一切”的原则,在真实需求与技术突破的反馈循环中持续迭代[19] AI视频对内容生产流程与效率的重构 - AI视频生成介入创作前端,将编剧、导演、剪辑、美工等跨岗位协作工作压缩进同一界面,显著降低岗位交接成本,使创作者能围绕最终效果进行整体判断[20] - 内容生产从线性流程转向以模型为核心的并行与即时生成,效率提升最先发生在承受高频产出压力、对成本和周期高度敏感的场景,如短剧、电商内容、出海工具等领域[22] - 在广告和电商领域,AI使创意能更早转化为可视化内容用于内部讨论或A/B测试,显著压缩从想法到内容的距离[24] - 稳定、可规模化的视频生成能力催生了新的工具平台与创作社区,创作者置身于不断自我扩展的AI创作生态中[24] - 实践案例表明,稳定型AI视频基础设施显著降低小团队及个体创作者的创作门槛,使有限人力条件下仍能维持稳定叙事质量并持续输出体系化内容[25] - 案例:AI漫剧工具平台巨日禄通过调用通义万相模型,将AI使用门槛大幅降低,其创作智能体使效率提升5-8倍[24] - 案例:出海内容公司乐我无限利用万相的多模态生成能力,使其创作平台Ima Studio能支持海外创作者快速生成高质量AI视频,助力社区冷启动并构建“技术—内容—社区”正向循环[25] 从“好玩”到“好用”:产业级基础设施的关键 - 真正的分水岭在于能否进入稳定、可重复的生产流程,生成结果的可控性、稳定性及减少人工返工成本是关键,稳定性是进入生产流程的前提[26] - 通义万相并非孤立工具,可依托阿里云大模型服务与应用开发平台百炼嵌入企业既有内容生产与业务流程[26] - 能力的稳定可用得益于阿里云作为全球领先全栈人工智能服务商在算力供给、数据治理、模型服务及大规模并发调度等方面积累的成熟工程体系[26] - 阿里巴巴对AI的系统性投入可追溯至十多年前,长期技术积累使其能构建从模型训练、部署到服务化调用的完整链路,推动模型在稳定性、可控性与规模化能力上不断逼近真实生产需求[28] 行业长期展望:创作民主化与价值重塑 - AI视频生成将专业制作能力(如镜头语言、叙事节奏、美术风格)编码进模型,使创作所需技能从具体技法转向判断、创意与取舍本身[28] - 这种变化类似于从专业级影像软件走向大众化创作工具的历史拐点,将一整套专业制作能力压缩为可被普通人调用的基础设施[29] - 在降低门槛的同时,创作本身将具备更大规模与更长生命力[30] - 视频生成的终点并非替代创作者,而是让创作者将精力更多投入到真正有价值的部分——创意、叙事与判断本身[31]
AI视频生成,如何撕开创作边界?
36氪· 2025-12-18 17:26
AI视频生成技术成为行业焦点 - 2025年下半年AI视频生成成为全球AI行业最受关注的方向之一,热度以“病毒式”速率扩散[5] - 技术进步是核心驱动力,过去两年视频生成技术在画面质量、时序建模与可用性上持续进步,全球AI视频能力迭代节奏显著加快[5] - 当生成效果跨过“能看”门槛,开始接近“可用”、“好用”时,AI视频真正进入大众视野并成为极具想象空间的赛道[6] 视频行业面临结构性生产难题 - 视频是全球增长最快、资本最密集、创新最活跃的领域之一,已成为信息、娱乐与商业的核心表达形态[7] - 行业竞争加剧将内容生产推向极限,短剧、电商与广告进入“更快、更细、更大量”阶段,内容更新周期被压缩到小时级甚至分钟级[7] - 传统制作链路依赖的人力规模与制作周期,与新的内容生产节奏形成明显错位,压力在不同领域显现[7] AI视频正在重塑内容产业生态 - 创作门槛被显著拉低,个人创作者与小团队开始具备接近工业化的视频生产能力[9] - 围绕视频生成的新中间层正在出现,包括创作工具、工作流平台及面向广告、电商、短剧的垂直解决方案[9] - 视频生产从一次性创作转向可规模化运行的系统工程,内容成为可反复生成、快速验证、持续优化的过程性资产[10] - 国内外涌现大量AI视频产业链创业公司,技术突破与国内规模化需求汇合,AI视频生成被视为下一代内容基础设施的重要组成部分[10] 不同公司的技术路径与战略侧重 - OpenAI的Sora策略偏向通用能力展示,通过高质量视频生成推动AI视频进入大众文化与社交传播场景[12] - Google的Veo强调模型在长时序理解与复杂场景中的表达能力,体现为技术能力的前沿探索[12] - 国内公司更多从平台生态出发,将视频生成能力与内容分发、创作者体系结合,或赋能视频生产全流程以提升效率[12] - 市场存在C端(娱乐表达)与B端(商业生产)需求的分野,B端场景要求镜头、人物与风格长期保持一致,内容可控、可复用,并能稳定高频输出[13] - 阿里选择将AI视频生成做成行业级基础设施,其通义万相2.6模型试图回应行业从能生成走向可生产、从尝鲜迈向规模化落地的趋势[13] 通义万相2.6的核心技术能力突破 - 将多镜头叙事能力提升为模型核心能力,强调在生成过程中对时间轴与镜头语言的整体建模,支持自然语言分镜指令[15] - 将参考对象从图片升级为视频,支持输入约5秒参考视频,复刻主体外观、动作模式、表情变化与音色特征,实现声画一致生成[18] - 将可控生成时长稳定在约15秒,并支持1080P输出与声画同步,满足广告、电商、短剧等商业场景对“刚好可用”内容长度的需求[21] - 文生图能力同步升级,引入对叙事结构的理解,支持图文混排输入,从简单提示中自动拆解故事并生成分镜画面[21] - 在中文语境与中式美学上持续投入,使模型在人物气质、风格表达与文化细节上更贴近本土创作需求[23] AI视频带来的生产效率革命 - AI视频生成介入创作前端,将编剧、导演、剪辑、美工等跨岗位协作工作压缩进同一界面,显著降低岗位交接成本[27] - 内容生产从线性流程转向以模型为核心的并行与即时生成,效率提升最先影响短剧、漫剧、电商内容、出海创作工具等对成本和周期高度敏感的场景[29] - 在广告和电商领域,AI将创意验证环节前置,显著压缩从想法到可视化内容的距离,用于内部讨论、客户提案或A/B测试[31] - 稳定、可规模化的视频生成能力催生新的工具平台、创作社区与内容服务,形成不断自我扩展的AI创作生态[31] 行业实践案例展示生产力提升 - AI漫剧与短剧工具平台巨日禄通过调用通义万相模型,将图片与视频生成能力嵌入创作工具链,大幅降低使用门槛[32] - 通义万相2.6在主体一致性、指令遵循等方面的稳定性,使巨日禄可以全天候、规模化使用,其智能体效率提升5-8倍[32] - 出海社交与内容公司乐我无限利用万相的多模态生成能力,支持海外创作者快速生成高质量AI视频,提升社区内容密度与创作质量,并助力冷启动[32] - 稳定型AI视频基础设施正在显著降低小团队乃至个体创作者的创作门槛,使有限人力条件下仍能维持稳定叙事质量并持续输出体系化内容[33] 从“好玩”到“好用”的关键在于稳定与集成 - 企业和创作者关心的核心是生成结果是否可控、稳定,能否减少反复抽卡和人工返工成本,稳定性是进入生产流程的前提[36] - 通义万相依托阿里云大模型服务与应用开发平台百炼,可被嵌入企业既有内容生产与业务流程,并非孤立工具[37] - 阿里云作为全球领先的全栈人工智能服务商,在算力供给、数据治理、模型服务及大规模并发调度等方面的工程能力,保障了视频生成模型在真实生产环境中的稳定持续运行[37] - 阿里对人工智能的系统性投入可追溯至十多年前,长期技术积累使其能够构建从模型训练、部署到服务化调用的完整链路[39] AI视频生成降低门槛并重新定义创作 - 当镜头语言、叙事节奏、美术风格等专业能力被编码进模型,创作者所需掌握的技能正从具体技法转向判断、创意与取舍本身[39] - 这种变化类似于从专业级影像软件走向大众化创作工具的历史拐点,AI视频生成正在把一整套专业制作能力压缩为可被普通人调用的基础设施[40] - 在降低门槛的同时,创作本身将具备更大的规模与更长的生命力[41] - 视频生成的终点并非替代创作者,而是让创作者将精力更多投入到真正有价值的部分——创意、叙事与判断本身[42]
AI与人|“AI垃圾”泛滥,最后的防线在人类自身
科技日报· 2025-12-16 13:26
文章核心观点 - 以AI工具大规模生成的劣质、重复或无意义内容(被称为“AI垃圾”或“Slop”)正在互联网上泛滥,其背后推手是技术的滥用与对经济利益的追逐,这种现象正在侵蚀信息质量、模糊真实与虚构的界限,并引发信任危机,应对措施包括技术标注、行业标准及用户自身的辨别与支持[1][2][4][5][6][7][8] “AI垃圾”的定义与特征 - “AI垃圾”特指由AI工具生成的大量劣质、重复或无意义的文字、图像或视频,常见于社交媒体和自动化内容农场[2] - 其与旨在欺骗的“深度伪造”或属于技术错误的“AI幻觉”不同,“AI垃圾”的错误更多源于敷衍而非欺骗或技术局限,范围更广且更随意[3] - 这类内容正遍布各平台,例如OpenAI的Sora可几秒内生成荒诞视频,LinkedIn上充斥AI包装的“专家箴言”,谷歌搜索结果会出现“姜黄能治愈心碎”等无稽之谈[2] “AI垃圾”泛滥的成因 - 技术层面:AI技术日益强大且成本低廉,ChatGPT、Gemini、Claude、Sora、Veo等工具使几秒内生成文本、图像与视频成为可能,为内容农场的海量生产提供了便利[4] - 经济驱动:滥用AI工具海量生成内容旨在博取点击和广告收入,例如有YouTube频道仅凭4个视频就积累了420万订阅和数亿播放量[4] - 平台算法:平台算法往往更看重内容的点击与互动数据而非质量,发布越频繁获得关注越多,无形中助推了“AI垃圾”的传播[4] “AI垃圾”的影响与后果 - 数量爆发时,垃圾信息充斥网络会导致可信来源在搜索结果中排名下降,真实与虚构的界限变得模糊[5] - 信任危机会带来切实后果,当无人能辨真假时,错误信息传播得更快[6] 行业应对措施与挑战 - 部分公司已开始尝试为AI生成内容添加标签并调整算法,例如Spotify降低劣质内容推荐权重,谷歌、抖音与OpenAI等公司承诺推出水印系统[7] - 行业正推动C2PA(内容来源与真实性联盟)标准,由Adobe、亚马逊、微软、Meta等企业共同支持,通过元数据嵌入记录数字文件的创建与编辑过程以追溯来源[7] - 应对措施面临挑战,水印和元数据可能被剥离、忽略或转码失效,且多数平台尚未形成一致的执行规范[7] - 最有效的防护在于人类自身,包括放慢节奏、核实来源以及支持坚持用心创作的作者[7][8]
“AI垃圾”泛滥,最后的防线在人类自身
科技日报· 2025-12-16 10:20
文章核心观点 - 当前互联网,尤其是社交媒体平台,正泛滥着大量由AI工具生成的劣质、重复或无意义的内容,即“AI垃圾”(AI Slop),这类内容正在侵蚀信息质量和用户信任 [1] “AI垃圾”的定义与表现 - “AI垃圾”特指由AI工具生成的大量劣质、重复或无意义的文字、图像或视频,常见于社交媒体和自动化内容农场 [2] - 具体表现包括:利用OpenAI的Sora几秒内生成荒诞视频、LinkedIn上充斥AI包装的“专家箴言”、谷歌搜索结果中出现如“姜黄能治愈心碎”等无稽之谈 [2] “AI垃圾”与其他AI生成内容的区别 - “AI垃圾”与“深度伪造”或“AI幻觉”不同,其区别在于意图与质量 [3] - “深度伪造”目的在于欺骗,以假乱真;“AI幻觉”属技术错误,是模型预测偏差;而“AI垃圾”错误源于敷衍,范围更广、更随意,源于人们用AI批量生产内容却疏于核对 [3] “AI垃圾”泛滥的驱动因素 - 技术层面:AI技术日益强大且成本低廉,ChatGPT、Gemini、Claude、Sora、Veo等工具使几秒内生成可读文本、图像与视频成为可能 [4] - 经济动机:滥用AI工具海量生成内容旨在博取点击和广告收入,例如某个YouTube频道仅凭4个视频就积累了420万订阅和数亿播放量 [4] - 平台算法:平台算法往往更看重内容的点击与互动数据,而非质量,发布越频繁获得关注越多,AI让这类操作变得易如反掌 [4] “AI垃圾”的潜在影响 - 当数量爆发,垃圾信息充斥网络,会导致可信来源在搜索结果中排名下降,真实与虚构的界限变得模糊 [5] - 信任危机会带来切实后果,即错误信息传播更快 [5] 行业应对措施与挑战 - 部分平台如Spotify开始为AI生成内容添加标签,并调整算法以降低劣质内容的推荐权重 [6] - 谷歌、抖音与OpenAI等公司承诺推出水印系统,帮助用户区分人工内容与合成内容,但若内容被截图、转码或改写,这些方法可能失效 [6] - 行业标准C2PA(内容来源与真实性联盟)由Adobe、亚马逊、微软、Meta等企业共同支持,通过将元数据嵌入数字文件记录创建过程,但难点在于普及,元数据可能被剥离,且多数平台尚未形成一致的执行规范 [6] - 最有效的防护在于人类自身,即放慢节奏、核实来源、支持坚持用心创作的作者 [6]
“AI垃圾”泛滥 最后的防线在人类自身
科技日报· 2025-12-16 08:23
行业现象:AI生成低质内容泛滥 - 当前互联网尤其是社交平台正泛滥一种被称为“AI垃圾”的内容 其特点是错漏百出、古怪、重复且缺乏质量 正在侵蚀人们的思想[1] - “AI垃圾”特指由AI工具生成的大量劣质、重复或无意义的文字、图像或视频 常见于社交媒体和自动化内容农场[2] - 与旨在欺骗的“深度伪造”或属于技术错误的“AI幻觉”不同 “AI垃圾”范围更广更随意 其错误源于敷衍而非欺骗或技术局限[3] 技术滥用与商业模式推手 - AI技术日益强大且成本低廉 使得几秒内生成可读文本、图像与视频成为可能 为“AI垃圾”的批量生产提供了条件[4] - 内容农场应运而生 利用AI填充网站、社交动态和YouTube频道远比人工创作更快 例如某个YouTube频道仅凭4个视频就积累了420万订阅和数亿播放量[4] - 平台算法往往更看重内容的点击与互动数据而非质量 发布越频繁获得关注就越多 这无形中助推了“AI垃圾”的传播[4] - 利益是幕后推手 部分创作者通过发布虚假名人消息或标题党视频来博取点击和广告收入[4] 对信息生态的潜在影响 - 当“AI垃圾”数量爆发 会挤占可信来源在搜索结果中的排名 使真实与虚构的界限变得模糊[5] - 信任危机会带来切实后果 当无人能辨真假时 错误信息会传播得更快[6] 行业应对措施与尝试 - 部分平台如Spotify开始为AI生成内容添加标签 并调整算法以降低劣质内容的推荐权重[8] - 谷歌、抖音与OpenAI等公司承诺推出水印系统 以帮助用户区分人工内容与合成内容[8] - 行业正在推动名为C2PA的内容来源与真实性联盟标准 该标准由Adobe、亚马逊、微软、Meta等企业共同支持 通过将元数据嵌入数字文件来记录其创建与编辑过程[8] - 最有效的防护在于人类自身 放慢节奏、核实来源、支持坚持用心创作的作者是重要的开始[8] 行业长期挑战与本质 - “AI垃圾”是互联网垃圾信息故事的新篇章 其特点是更快、更流畅、也更难察觉[9] - 网络能否保持其应有的品质 取决于人们是否依然珍视人类的真诚创作 而非机器的机械输出[9]