Transformer
搜索文档
AI医疗影像:在数据“围城”中如何突围
经济观察报· 2025-12-10 18:39
文章核心观点 - 医疗影像AI已创造巨大价值并实现规模化落地,但行业陷入“叫好不叫座”的商业化困境,企业捕获价值远低于创造价值 [2][5][6][8] - 商业化困境源于技术门槛低导致同质化竞争激烈,以及医院支付能力有限 [9][10] - 突破困境的关键在于技术范式从CNN转向Transformer,以提升AI的诊断能力和向多模态综合诊疗模型发展,从而创造更大价值 [12][13][14] - 实现技术跃迁的最大挑战与机遇在于数据,包括数据规模、质量、多模态对齐及隐私法规限制,解决数据问题是构建下一代医疗AI护城河的关键 [16][17][18][19] AI医疗影像的现状与价值 - 政策推动行业快速发展,目标到2030年二级以上医院普遍开展医学影像智能辅助诊断 [2] - AI医疗影像辅助诊断技术已成熟并步入实际落地阶段,头部三甲医院几乎都已引入相关产品 [3] - AI显著提升医生工作效率,将传统近30分钟的诊断流程缩短至5-10分钟 [5] - AI识别准确率普遍高达95%以上,在肺结节、骨折检测、骨龄分析、乳腺病灶检测及放疗、手术规划等多个场景得到应用 [6] - 全国三级医院约14万名影像科医生,平均工资约19万元,假设AI为其节约一半工作时间,理论上每年可创造高达130多亿元的价值 [6] 行业商业化困境 - 2020年至2024年整个行业累计商业收入不足30亿元 [8] - 平均每家医院终身使用一款AI医疗影像产品仅需40万元,且多为一次性软件买断模式,后续服务收费乏力 [8] - 同质化竞争激烈,截至2025年已有100余款AI医疗影像产品获批三类医疗器械注册证,仅胸肺场景就有十余家企业竞争 [9] - 竞争导致“免费试用”策略盛行,医院习惯免费模式后,厂商收费困难 [9] - 医院支付能力有限,许多三乙和二级医院全年检查收入在百万量级,影像科自身可能亏损,难以负担数十万元的软件费用 [10] - 企业盈利困难,以鹰瞳科技为例,2024年全年收入1.5亿元,销售费用占近一半,全年亏损2.6亿元,大部分非头部企业年收入仅在千万元量级 [10] 技术发展的潜力与方向 - 当前AI主要提供辅助诊断价值,在“找出病灶”方面表现出色,但在“判断疾病良恶性质”上误诊率高于优秀医生,治疗辅助仍需医生复核 [12] - 现有主流CNN模型缺乏全局视野,对复杂疾病易误判,且对三维影像理解能力较弱 [13] - 引入Transformer架构可弥补CNN短板,其自注意力机制擅长全局和长距离依赖分析,有望让AI从“辅助诊断”向“独立诊断”迈进 [13] - 基于Transformer的多模态能力,可整合处理影像、文本、检查、时序、组学等多维度医疗数据,构建覆盖全流程的综合性临床诊疗大模型 [14] 数据:核心挑战与机遇 - 基于Transformer的模型需要百万到千万级的图像数据进行训练,微调也需要十万到百万级的标注数据,规模远超当前主流商用模型 [18] - 医疗数据受严格法规保护,共享流通受限,获取大规模高质量标注数据困难 [18] - 疾病数据量差异大,如葡萄膜黑色素瘤全球每年仅几万例,罕见病仅几百上千例,即便大病种如肺癌,获取高质量数据也非易事 [18] - 数据混乱问题突出,包括不同设备参数差异、医生标注质量参差不齐等 [18] - 多模态数据融合进一步增加难度,需要对齐来自不同时间和来源的多种数据,是一项浩大的数据工程 [19] - 能够在数据收集、治理、标准化、标注、隐私保护和高效利用方面建立核心能力的企业,将构建深厚护城河 [19] - 解决数据问题需技术和机制双轮驱动,技术途径包括发展自监督学习、联邦学习、合成数据等 [19] - 非技术层面需设计有效协调机制,中国可能在自上而下的制度设计方面具有优势,以促进数据流动 [20]
北京大学:AI视频生成技术原理与行业应用 2025
搜狐财经· 2025-12-09 14:48
AI视频技术概览 - AI视频属于狭义AI范畴内基于学习的生成式AI,是AIGC的重要分支,核心任务包括视频生成、编辑与理解,典型生成方式为文生视频、图生视频、视频到视频 [1] - 技术演进从2016年前的GANs探索阶段,到2020-2024年扩散模型实现商业化突破,再到2024年Sora发布开启“AI视频元年”,行业进入分钟级高清视频量产阶段 [1] - 国内外主流工具平台包括OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika等,各平台在时长、画质、风格上各具特色 [2] 技术原理与架构 - 扩散模型因训练稳定、生成多样性强成为主流技术范式,其架构分为U-Net和DiT两类,U-Net易训练但一致性弱,DiT成本高但长视频一致性强 [3] - 关键技术组件包括:Transformer的自注意力机制保障时空一致性,VAE实现像素空间与潜空间的压缩转换,CLIP完成文本与视觉的语义对齐,时空补丁统一数据格式降低计算成本 [3] - 训练数据的规模、质量和多样性决定模型上限,主流数据集包括WebVid-10M等文本-视频对数据集,以及UCF-101等类别级数据集 [4] 技术能力发展与突破 - 主流模型已实现1080p/4K分辨率、最长2分钟时长的生成,部分模型支持原生音画同步,国产模型在中文语义理解和可控性上优势显著 [5] - 现存核心瓶颈包括时序一致性、物理逻辑合理性、细节情感表达,且算力成本制约技术普及 [5] - 已形成VBench、SuperCLUE等评估体系,VBench2.0更聚焦“内在真实性”,谷歌Veo 3、快手可灵AI等模型在榜单中表现突出 [5] 行业应用案例与价值 - 在影视娱乐领域,AI实现从前期概念设计、中期虚拟制片到后期智能剪辑的全流程介入,催生了AI短剧、AI重制长片等新业态,大幅降本增效 [6] - 在短视频与营销领域,AI视频成为应用最广泛领域,可快速生成品牌广告、UGC创意内容、虚拟主播带货视频,实现低成本规模化内容量产 [6] - 在文旅行业,AI用于制作城市宣传片、打造AI文旅推荐官、结合VR/AR实现沉浸式体验,助力文化IP传播与旅游营销 [7] - 在教育培训领域,AI用于批量生成微课视频、打造AI虚拟教师、定制个性化学习内容,解决教育资源不均问题 [8] - 在新闻媒体领域,AI虚拟主播实现24小时播报,AI生成沉浸式新闻叙事,但面临内容真实性、版权合规等伦理挑战 [9] 工具选用建议 - 建议根据场景化选型:专业影视选Runway或可灵AI,短视频运营选即梦AI或Pika,动漫动态化选海螺AI或Pixverse,国风内容选Vidu等国产工具 [10] - 使用门槛分级:国内工具零门槛直连,海外工具需科学上网和外币支付,Sora/Veo等生态绑定工具门槛最高 [11] - 核心原则是采用多工具协作工作流,以“导演思维”驾驭工具,而非依赖单一平台 [12] 市场格局与厂商动态 - 代表性厂商及产品包括:OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika Labs、生数科技Vidu、Luma AI、阿里通义万相等 [49] - 可灵AI支持生成长达2分钟、1080p、30fps的视频,其Kling 2.5 Turbo版本成本降低30%,全球用户已突破4500万 [49] - 即梦AI背靠抖音与剪映生态,打通从“AI生成”到“剪辑发布”全链路,月活5400万,2025年10月网站访问量达1000万 [49] - 通用大模型通过集成顶尖视频模型获得强大视频生成能力,例如ChatGPT集成Sora,Gemini生态集成Veo,Meta AI集成Emu Video,通义千问集成通义万相,豆包与抖音/TikTok和剪映形成闭环 [51] 发展前景与核心观点 - AI视频最终将走向“人机共创”范式,成为像互联网一样的基础设施,人类需聚焦创意与判断力,实现与AI的协同进化 [13] - AI视频正从实验性“技术炫技”阶段迅速发展为影视预演、广告创意、短视频制作和在线教育的实用工具,行业变革的临界点已清晰可见 [37] - 2024年初Sora模型凭借一分钟长度、高清画质及物理世界连贯性理解,重新定义了AI视频生成能力 [37]
Roblox CEO感叹AI研究进展:曾博览群书的自己都快看不懂了
搜狐财经· 2025-12-08 19:28
行业研究动态 - AI研究更新速度飞快,新论文几乎每天出现,技术概念复杂,Roblox CEO认为想真正看懂所有论文极其困难[1] - AI研究浪潮规模巨大、速度惊人,从Transformer到扩散模型再到世界模型,内容多到难以完全掌握[3] - 随着AI从学界扩展到国家战略高度,Meta、微软等公司纷纷建立自己的研究部门,并以极高薪资吸引顶尖人才[3] - AI研究变得更封闭,2023年谷歌决定减少公开发表的AI论文,公司进入要靠内部知识竞争的阶段[3] - OpenAI联合创始人认为,真正决定AI走向的仍是研究本身,现在重新回到研究时代,只不过用的是更大的计算机[3] 公司观点与战略 - Roblox CEO在创业初期几乎读遍从物理模拟到图形渲染的各类研究且都能理解,但AI时代的到来改变了一切[3] - Roblox CEO的结论是,AI在三维世界里仍然处于非常初期的阶段[3] - AI依赖的是人类制造出来的文本和图像,是用自己创造的内容训练AI,而不是用真实世界的三维原始数据[3]
AI医疗影像:在数据“围城”中如何突围
经济观察网· 2025-12-08 15:06
政策目标与行业现状 - 国家五部门发布《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》,提出到2030年基层诊疗智能辅助应用基本实现全覆盖,二级以上医院普遍开展医学影像智能辅助诊断等应用 [2] - 医疗影像因数据结构标准化,是AI技术在各行业中最早实现规模化落地的场景之一,目前头部三甲医院几乎都引入了AI医疗影像产品 [3] - 中国影像科医师严重短缺,三级医院每位影像科医生日均需出具80-100份CT报告、60-80份磁共振报告或120-150个超声检查,超负荷工作现象普遍 [4] AI医疗影像的已实现价值 - AI辅助可将传统耗时近30分钟的诊断流程缩短至5-10分钟,显著提升医生工作效率 [5] - AI在影像检查中识别准确率普遍高达95%以上,在放疗计划制定中可将几小时的工作压缩至几分钟 [5] - 全国三级医院约有14万名影像科医生,平均工资约19万元,保守假设AI能为其节约一半工作时间,理论上每年可创造高达130多亿元的价值 [6] 行业商业化困境与原因 - 2020年至2024年整个AI医疗影像行业的累计商业收入不足30亿元,平均每家医院终身使用一款产品仅需40万元,多为一次性软件买断模式 [7] - 行业同质化竞争激烈,截至2025年已有100余款AI医疗影像产品获批三类医疗器械注册证,单胸肺场景就有十余家企业竞争 [8] - 激烈竞争导致厂商普遍采用“免费试用”策略,陷入囚徒困境,且医院经费有限,许多三乙和二级医院全年检查收入在百万量级,难以负担非刚需的软件费用 [8][9] - 以鹰瞳科技为例,2024年全年收入1.5亿元,销售费用占近一半,全年亏损2.6亿元,大部分非头部企业年收入仅在千万元量级 [9] 技术发展潜力与方向 - 当前AI主要提供辅助诊断价值,在“判断疾病良恶性质”上误诊率高于优秀人类医生,能力上限暂时只能作为医生的提效助手 [10] - 当前主流商业化模型以卷积神经网络(CNN)为主,其缺乏全局视野,对三维影像理解能力较弱 [11] - 引入Transformer架构有望弥补CNN短板,其自注意力机制擅长全局和长距离依赖分析,能让AI从“辅助诊断”向“独立诊断”更进一步 [11] - Transformer的多模态能力为构建覆盖筛查、诊断、治疗到随访全流程的综合性临床诊疗大模型铺平了道路 [12] 未来发展面临的核心挑战:数据 - 基于Transformer的模型需要百万到千万级的图像数据,微调也需要十万到百万级的标注数据,比当前主流商用模型训练规模大几个数量级 [16] - 医疗数据受严格法规保护,共享流通受限,且不同设备、协议及医生标注差异导致数据混乱,获取大规模高质量标注数据困难 [16] - 多模态数据融合要求收集和处理影像、病理、临床、基因等多维度数据,并将不同来源、时间的数据精确对齐,工程浩大 [17] - 能够在医疗数据的收集、治理、标准化、标注、隐私保护和高效利用方面建立核心能力的企业,将有望构建最深护城河 [17] - 可通过自监督学习、联邦学习、合成数据等技术途径缓解数据挑战,但更需要设计有效的协调机制让数据流动起来 [17]
谷歌祭出Transformer杀手,8年首次大突破,掌门人划出AGI死线
36氪· 2025-12-08 09:01
谷歌DeepMind对AGI发展路径的预测 - 谷歌DeepMind CEO Hassabis预测,具备或超越人类能力的通用人工智能(AGI)可能在2030年之前实现,距离实现AGI仅剩5到10年时间 [1][11] - 实现AGI需要1-2个类似Transformer或AlphaGo级别的重大技术突破 [1][4] - 通往AGI的道路存在风险,包括恶意使用AI可能导致的灾难性后果,甚至存在非零的灭绝级风险 [13] 当前AI系统的能力与局限 - 谷歌DeepMind对AGI的定义要求很高,需全面具备人类所有认知能力,包括创造力和发明能力 [16] - 当前大语言模型能力参差不齐,在某些领域达到博士水平甚至能获奥林匹克金牌,但在持续学习、在线学习、长期规划和多步推理等关键能力上存在明显缺陷 [16][18] - 谷歌Gemini模型已展现出超出预期的“抽象理解”和“元认知”能力,例如能理解电影场景的象征意义,但开发人员对其潜力的探索可能不足10% [14][15] 谷歌下一代AI架构Titans的技术突破 - 谷歌在NeurIPS 2025大会上发布了全新AI架构Titans,被视为Transformer的“最强继任者” [6][21] - Titans架构完美融合了RNN的极速响应和Transformer的强大性能,旨在解决Transformer在处理超长上下文时计算成本飙升的瓶颈 [7][24] - Titans引入了一种全新的神经长期记忆模块(一个深层多层感知机MLP),能够主动学习并即时更新参数,实现“测试时”记忆,在高达200万token的上下文中保持高召回率和准确率 [8][26][29][43] 统一理论框架MIRAS及新模型 - 谷歌同时提出了MIRAS理论框架,为序列建模提供了统一视角,将各种架构视为解决“融合新信息与保留旧记忆”核心问题的不同手段 [33][34] - MIRAS通过四个关键设计维度定义序列模型:记忆架构、注意偏置、保留门和记忆算法 [36][37] - 基于MIRAS框架,谷歌构建了YAAD、MONETA、MEMORA三款独特的无注意力模型,这些模型在语言建模和常识推理任务中表现出色,验证了探索非均方误差优化机制的优势 [40][41][42] Titans架构的性能表现 - 在多项基准测试中,Titans架构在同等参数规模下,性能优于最先进的线性循环模型(如Mamba-2和Gated DeltaNet)以及Transformer++基线模型 [40][41] - 在BABILong超长上下文推理基准测试中,Titans以更少的参数量,表现优于包括GPT-4在内的所有基线模型,并展示了可有效扩展到超过200万token上下文窗口的能力 [43] - 这些新架构保持了高效的并行化训练和快速的线性推理速度 [42] 未来AI发展趋势 - Hassabis指出,未来12个月的关键趋势包括:继续扩展现有AI系统规模,这至少会成为最终AGI的“关键构件” [3][18] - 多模态融合将彻底打通,实现类人的视觉智能、语言与视频的深度融合,世界模型成为主流,智能体达到可靠应用水平 [9] - 行业认为,Titans可能是谷歌自Transformer以来的首个重大突破,并预测采用该架构的Gemini 4可能即将推出 [45][47]
AI 赋能资产配置(二十九):AI 预测股价指南:以 TrendIQ 为例
国信证券· 2025-12-03 21:18
核心观点 - AI大模型通过强大的信息收集和分析能力弥补了传统股价预测模型因缺乏非结构化信息而表现波动的缺陷[3] - TrendIQ平台展示了AI技术在股价预测上的能力圈,提供本地化部署和网页版两种选择,分别具备安全性和易用性优势[4] - 预测框架从基于LSTM的混合模型向Transformer架构演进,利用全局上下文感知、零样本学习和思维链推理提升预测能力[8] - 未来AI股价预测将向多模态融合和实时RAG方向发展,结合视觉、文本和时序分析提升鲁棒性[40] AI股价预测技术演进 传统LSTM模型的优势与局限 - LSTM模型因能处理非线性问题和时间序列特性,成为股价预测的"门面担当",其神经元包含细胞状态和输入门、遗忘门、输出门三种门机制[5] - 机器学习时代LSTM与XGBoost结合捕捉时间依赖性和非线性关系,强化学习时代与xLSTM和深度强化学习结合优化长依赖捕捉问题[6] - LSTM存在三大局限性:模态单一性导致无法理解市场因果关系;解释性较弱被视为黑盒模型;泛化鲁棒性弱难以跨市场迁移[6][7] Transformer架构的创新突破 - Transformer架构通过全局上下文感知能力同时关注输入序列所有元素,捕捉微小但关键的市场信号[8] - 具备零样本与少样本学习能力,凭借海量通用语料预训练快速适应新兴资产预测任务[8] - 思维链推理将预测过程分解为逻辑步骤,提供宝贵可解释性,例如"通胀数据高于预期→央行加息概率增加→贴现率上升→高估值科技股承压"的推理链条[8] TrendIQ平台架构解析 本地化部署运行流程 - 训练阶段通过train_multiple.py和quick_train.py收集历史数据(使用yfinance),预处理后训练LSTM模型并保存文件,quick_train.py预设AAPL、GOOGL、MSFT、TSLA和AMZN五只热门股票训练[12][14] - 检查阶段通过check_models.py验证训练结果完整性,扫描data/目录统计模型数量和质量状态[18] - 运行阶段通过app.py启动Flask服务器,提供用户界面进行实时预测,包含价格预测、图表展示和置信度计算功能[20] 核心代码模块功能 - train_multiple.py作为批量处理引擎支持扩展股票列表(包括META、NVDA、NFLX等),提供三种训练模式:全量训练、自定义股票训练和单股票训练[17] - app.py整合预测功能,通过/live-ticker接口获取实时股价数据,/predict接口处理用户输入,基于60天历史数据进行LSTM预测并给出30天波动率计算的置信度[20] 本地部署与线上平台对比 本地部署实施步骤 - 软件包下载通过PowerShell或git bash获取完整项目结构,需Python 3.8以上环境支持[21] - 安装阶段一次性安装Flask、TensorFlow、NumPy、Pandas、Scikit-learn、YFinance、Joblib等依赖包[23] - 数据训练通过quick_train.py执行约10-15分钟的训练过程,为五只热门股票生成模型文件[24] - 本地运行通过python app.py启动服务,访问http://127.0.0.1:5000即可使用预测功能[28] 线上平台操作流程 - 用户通过Google账号或邮箱登录TrendIQ网页版,支持一键登录[32] - 预测功能分为Swing Trading(60分钟线及以上趋势预测)和Scalp Trading(5分钟及以内趋势预测),用户上传K线截图即可分析[33][34] - 预测结果包含三部分:多空趋势研判、止盈止损位置(如当前价6410对应止盈6685和止损6280)、具体判断理由(如上涨趋势建立、均线多头排列等)[36] 平台效果对比分析 - 本地版TrendIQ输入股价序列和成交量数据,使用LSTM模型,输出目标价和置信区间,对海外大市值、标准化程度高个股预测效果较好[41] - 线上版TrendIQ输入K线图,使用LSTM+LLM/LSTM+VAE模型,输出多空建议和止盈止损线,在多头排列环境中主升阶段判定准确,但震荡市胜率一般且大回撤时缺乏前瞻性[41] 未来技术演进方向 模型架构创新 - 学术界正用Transformer架构与图神经网络逐步取代LSTM,解决长序列依赖和高维数据处理问题[39] - Time-VLM和TimeRAG等新框架尝试将K线图作为图像处理,结合LLM文本理解和数值模型分析,实现多模态融合[40] 实时能力提升 - 实时RAG技术将连接外部知识库,在预测时主动搜索最新供应链动态和政策变化,缓解模型过时问题[40] - 多模态系统能在股价暴跌时同时识别技术破位形态、解读相关新闻事件并计算历史波动率,提升判断准确性[40]
扩散模型走了十年弯路!何恺明重磅新作JiT:回归真正“去噪”本质
自动驾驶之心· 2025-12-01 08:04
文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT,让模型直接预测干净图像本身,而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单,无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单,因为自然图像位于低维流形上,而噪声是高维乱流,网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据,而非噪声或混合噪声,通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch(32×32×3)中,只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作,输入输出均为像素patch,结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上,JiT-L/16模型FID达到2.36,JiT-G/16模型FID达到1.82,与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下,JiT-H/32模型FID为1.94,JiT-G/32模型FID为1.78,证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下,JiT-B/64模型FID为4.82,且计算成本几乎不随分辨率增加而上升,序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈(如32维甚至16维),模型不仅未崩溃,FID指标反而显著提升,与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch(64×64×3),完全摆脱潜在空间,在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域,如具身智能和科学计算,有望成为更通用的生成基础方式 [34]
80后诺奖得主:AlphaFold下一步融合大模型
量子位· 2025-11-28 12:11
AlphaFold的发展历程与现状 - 由谷歌DeepMind开发,能精确预测蛋白质三维结构的AI科研工具[8],利用序列和结构数据库中的大量实验数据训练网络以发现氨基酸序列间的关联和模式[9] - 自2020年AlphaFold2首次公开后,迅速成为结构生物化学领域的坚实基座,并陆续推出可预测多个蛋白质结构的AlphaFold Multimer以及迄今速度最快的AlphaFold 3[12] - 从最初的蛋白质结构预测,发展到能处理更复杂的多分子复合体及更广范围的生物分子交互[13],已帮助全球超过300万研究人员预测了数亿种蛋白质结构,影响了超过50万篇相关论文[3] - 标志着生命科学继量子力学和分子生物学革命后的又一次重大跃迁[4],并已在科研中实现工具化,成为当代实验设计的重要组成部分[23] AlphaFold的具体科研应用与突破 - 在心血管疾病研究方面,帮助密苏里大学团队揭示了坏胆固醇(LDL)核心蛋白ApoB100的原子级笼状结构,为治疗提供了理论依据,成果发表于《Nature》[14][15][17] - 在生态保护领域,帮助研究人员在两天内解密了与蜜蜂免疫力相关的关键蛋白Vitellogenin(Vg)的近原子级结构,完成了过去需数年的工作,对濒危种群保护起到关键作用[18][20] - 展现出非常规应用潜力,如被用于预测蛋白质合成设计的成功率,或作为搜索引擎在成千上万个候选蛋白中筛选最可能与目标蛋白结合的蛋白[21][22][23] AlphaFold的未来发展方向 - 核心开发者John Jumper公开表示,下一步是与大模型融合[1][26],目标是使AlphaFold在预测结构之外,还能读懂科学文献数据、进行科学推理、提出假设、设计实验流程甚至自动生成研究思路[26][27] - 未来将能更好地帮助理解更复杂的多分子多功能系统,例如蛋白之间、核酸(DNA/RNA)之间的相互作用等生物过程[27] - 技术思路可能与谷歌面向数学和计算机科学领域的AlphaEvolve系统类似,即使用一个大模型生成解决方案,再用第二个模型检查并过滤错误信息[28][29] AlphaFold的核心开发团队与关键突破 - 由DeepMind创始人兼CEO哈萨比斯和首位"80后"诺贝尔化学奖得主John Jumper领导开发[30][32],Jumper拥有数学、物理及理论化学背景,其博士论文即研究将机器学习应用于蛋白质动力学[33][34] - 初代AlphaFold在第13届CASP中崭露头角,成功预测43个蛋白质中的25个,证明了"机器学习+统计信息"推断蛋白质结构的可行性,但预测质量尚不足以实际应用[41][42] - 关键突破在于采用Transformer架构重构出AlphaFold 2,其预测结构精度达到1.5埃(约一个原子宽度),并在CASP 14竞赛中将准确性均分从60多分提升至92.4分(此前其他方法约40分),成功解决了困扰学界50余年的蛋白质折叠问题[44][48][50][52][53][54]
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 20:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 13:02
技术突破与核心优势 - 采用单一视觉Transformer架构实现从单张图像、多视角照片到视频的任意视图3D重建,极大简化了模型设计[1][2][7] - 模型核心预测目标仅聚焦于深度和光线两个关键参数,通过双任务头输出深度图和光线参数[7][10] - 在全新视觉几何基准测试中,相机定位精度平均提升35.7%,几何重建准确率提高23.6%,单目深度估计超越前代DA2[3] 模型架构与工作流程 - 输入处理环节将多视角图像转化为特征块,相机参数通过编码器或可学习token处理,最终与图像特征融合[9] - 核心Transformer基于预训练的DINO,通过单视角自注意力和跨视角自注意力机制适应不同输入形式[9] - 除了深度和光线预测,模型还能从特征中提取相机姿态信息,确保相机运动轨迹精准[11] 训练策略与性能表现 - 采用师生蒸馏训练策略,利用教师模型从海量数据生成高质量伪标签,降低对精确标注数据的依赖[13][14] - 在整合了5个室内外数据集的基准上,模型能生成密度更高、噪声更低的3D点云,质量明显优于传统方法[14][16][17] - 支持从少量场景图片进行视角补全,生成未拍摄角度的图像,在虚拟漫游和数字孪生领域应用潜力巨大[19] 团队背景与行业影响 - 项目由字节跳动研究科学家康炳易带队,其领导的Depth Anything系列此前已被苹果CoreML库收录[20][25] - 核心研究人员拥有加州伯克利和新加坡国立大学人工智能专业背景,并与谢赛宁等业内专家有过合作[23][24]