量子位
搜索文档
混元OCR模型核心技术揭秘:统一框架、真端到端
量子位· 2025-11-29 12:02
模型发布与市场反响 - 腾讯混元大模型团队正式发布并开源商业级、轻量级OCR专用视觉语言模型HunyuanOCR,参数规模为10亿[1] - 模型在Hugging Face趋势榜排名前四,GitHub标星超过700,并在发布当天被vllm官方团队接入[3] - 模型已在Hugging Face和ModelScope等平台开源,并提供基于vLLM的高性能部署方案[9] 核心性能与技术突破 - 模型在ICDAR 2025 DIMT挑战赛小模型赛道荣获冠军,并在OCRBench上取得30亿参数以下模型SOTA成绩[2] - 实现全能与高效统一,在轻量框架下支持文字检测识别、复杂文档解析、信息抽取、视觉问答和图像翻译等多项功能[5] - 采用极简端到端架构,摒弃版面分析等前处理依赖,彻底解决流水线错误累积问题,大幅简化部署流程[6][18] - 通过数据驱动与强化学习创新,验证高质量数据价值并显著提升多项OCR任务性能[7][8][35] 模型架构设计 - 采用原生ViT和轻量LLM结合的协同架构,由原生分辨率视觉编码器、自适应MLP连接器和轻量级语言模型构成[16] - 视觉部分基于SigLIP-v2-400M,引入自适应Patching机制支持任意分辨率输入,避免长文档场景下的图像失真[16] - 语言模型侧基于Hunyuan-0.5B,引入XD-RoPE技术将一维文本、二维版面及三维时空信息进行解耦与对齐[17] - 贯彻端到端训推一体范式,各项任务仅需单次推理即可获取完整效果,消除传统架构中的错误累积问题[14][19] 训练数据构建 - 研究团队构建包含超2亿图像-文本对的大规模高质量多模态训练语料库,覆盖9大核心真实场景和超过130种语言[21] - 基于SynthDog框架进行深度扩展,实现130多种语言的段落级长文档渲染及双向文本支持,提升跨语言泛化能力[24] - 开发集难例挖掘、指令式QA生成与一致性校验于一体的自动化流水线,实现对同一图像进行多维度统一标注[26] - 通过合成+仿真策略增强模型鲁棒性,引入Warping变形合成流水线模拟几何变形和成像退化等自然场景缺陷[24][25] 预训练策略 - 采用四阶段预训练策略:第一阶段冻结LLM训练ViT与适配器,使用500亿token数据实现视觉语言对齐[29][30][33] - 第二阶段解冻所有参数进行端到端学习,使用3000亿token数据增强对复杂结构化内容的感知理解能力[30][33] - 第三阶段将上下文窗口扩展至32k,满足长文档图像解析需求[32][33] - 第四阶段开展应用导向的退火训练,使用240亿token人工标注与合成数据,规范模型响应模式[32][33] 强化学习方案 - 创新性将强化学习应用于轻量级OCR专家模型,针对不同任务类型采用混合奖励策略[35][36] - 文字检测识别和文档解析任务采用基于可验证奖励的强化学习,翻译和VQA任务采用LLM-as-a-judge奖励机制[36] - 采用群组相对策略优化算法,引入严格长度约束与格式规范机制,确保输出符合预定义Schema[41][42] - 通过严苛的数据筛选流程,利用LLM过滤低质数据,保持训练数据的质量、多样性与难度平衡[39]
万卡集群要上天?中国硬核企业打造太空超算!
量子位· 2025-11-29 09:00
太空计算行业趋势 - 行业正从"天标地算"传统模式向"在轨智能决策"新范式转变,算力基础设施经历物理位置剧变[5][14][19] - 太空计算发展路径类比地面互联网演进:当前处于1G时代(功能单一),未来将进入2G时代(卫星通信普及)并最终达到4G时代(天基互联网生态爆发)[15][16][17][18] - 太空超算可实现"感知-理解-决策"闭环,应用价值产生质的飞跃,例如远洋渔业可实现实时在轨决策[19][20] 全球竞争格局 - 国际领先企业快速布局:SpaceX成功发射搭载英伟达H100的Starcloud-1卫星,谷歌披露部署TPU卫星集群的"太阳捕手"计划[2][3] - 中国科研力量深耕多年:中科院计算所、武汉大学、北京邮电大学等机构自2019年起开展太空智能计算研究[6][7][9] - 商业航天企业中科天算自2019年布局,突破星载高算力、在轨协同计算和天基大模型等关键技术[8][11][12] 技术突破与工程方案 - 采用软硬件互补容错思路解决辐射问题:利用先进制程芯片"单粒子翻转但不易烧坏"特性,通过多模冗余架构实现商用芯片太空应用[30][31][32] - 创新散热方案:研发混合主动-被动冷却架构,利用流体回路替代风冷,结合结构导热与辐射散热解决真空环境散热难题[34][35][36][38] - 模块化系统设计:包含100MW级能源舱(柔性光伏阵列)、10Tbps级通信舱(激光链路)、10EOPS级算力舱(万张高性能计算卡)[28] 应用场景与战略价值 - 解决地面算力瓶颈:克服物理延迟与星地带宽限制,满足高时效性服务需求[20][21] - 具备全球覆盖优势:为边远地区汽车、无人机等提供算力支持,推动自动驾驶和低空经济发展[41] - 增强基础设施韧性:天基算力具备天然抗毁性,可充当自然灾害时的备份中枢[42] - 支撑深空探索:为月球、火星探索提供数字桥梁,避免重建全套算力设施的高成本[44][45]
苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班
量子位· 2025-11-28 16:30
事件概述 - 苹果公司在arXiv上发布的一篇AI论文因存在严重质量问题,最终被撤稿[1][6] - 该论文提出的视觉推理任务诊断基准声称其数据经过人工精心把控,且小模型表现全面超越GPT-5[3] - 阶跃星辰的研究员在适配该基准时,发现其存在官方代码bug和高达约30%的标注真值错误率[3][21] - 研究员通过公开评论促使论文作者撤稿并删除GitHub仓库[31] 基准质量问题 - 官方代码存在严重bug,在请求视觉语言模型时仅使用图片路径字符串而未包含图片本身[16] - 修复该bug后,模型在基准上的表现点数进一步下降,结果更为离谱[17] - 对前20道错题的抽查显示,其中6道题明确属于标注真值错误,错误率估算高达30%[19][21] - 标注真值错误风格显示,问题可能源于模型自动生成标注真值后质检严重不足,导致包含大量幻觉[19] 学术评审与反馈过程 - 论文提交至ICLR 2026,但其5条评审意见中均未发现标注真值的质量问题或论文示例中的幻觉错误[25] - 研究员最初通过GitHub私下反馈问题,但作者在简单回复后直接关闭了issue[22][23] - 在私下反馈未果后,研究员撰写详尽公开评论,列举标注真值问题实例以警示学术社区[26][27] - 公开评论发表后第二天,论文作者宣布撤稿并删除相关代码仓库[31] 作者回应与行业影响 - 论文作者承认数据审核不周,未认真审核关键部分,导致GPT自动转换解题思路时出现幻觉[37][38] - 作者解释论文中的推理示例代码仅为虚拟示例,并非正式演示代码[41] - 作者对直接关闭issue的行为表示抱歉,并承诺未来会保持issue开放直至问题全部解决[44][45] - 该事件引发社区讨论,有观点认为大模型时代的学术研究质量面临挑战[7]
对话韩旭:双重上市后,英才校招300万起步
量子位· 2025-11-28 16:30
公司发展里程碑 - 公司成为"全球Robotaxi第一股",实现港交所挂牌上市,获得双重资本认可[1] - Robotaxi业务在全球八国落地运营,车队规模达到全球最大或最大之一[1] - 公司创业历程历经坎坷,曾面临命悬一线的至暗时刻,但最终实现商业化突破[3][69] 管理层风格转变 - CEO韩旭从注重竞争对比转变为聚焦市场和用户反馈,强调"少关注竞争对手"[3] - 上市庆祝方式低调,重点转发"三年不减持"公告表明长期决心[3] - 管理理念从诗人性情转变为更注重实效,体现创业修炼中的豹变[4][71] 人才战略部署 - 推出"英才计划"校招项目,提供300万-500万元人民币年薪,对标硅谷AI博士薪资水平[6][7][9] - 招聘理念强调吸引顶级人才解决最困难的技术难题,认为人才是公司核心竞争力[10][11][15] - 建立公平评估体系,给予人才充分自主权,认为最优秀人才不需要过多管理[12] 行业竞争格局 - 自动驾驶行业进入"三家分晋"阶段,从春秋问鼎转向战国称雄[39][43] - L4赛道经过10年优胜劣汰,全球仅剩少数能实现规模化商用的Robotaxi运营商[40] - 竞争对手包括Waymo、百度萝卜快跑、小马智行等,特斯拉Robotaxi战略带来新竞争态势[42][44] 技术发展前景 - 自动驾驶仍是最前沿、最具挑战性的方向,其变革性将远超当前描述[31] - 技术需要在大模型基础上实现百毫秒延迟内的稳定安全运行[32] - 自动驾驶与具身智能算法紧密相关,但公司坚持"做到再说"的务实风格[36] 企业文化特色 - 公司氛围开放透明鼓励创新,以赵晓卉案例证明平等包容的文化环境[24][60][65] - CEO具备学术背景,曾担任密苏里大学教授,注重人才培养和识别[55][57] - 公司经历证明其坚韧特质,在逆境中抓住机遇实现突破[69][70] 业务战略定位 - 公司明确以提供全球最安全、舒适、经济、方便的无人驾驶服务为目标[51] - 下一阶段面临"要么Go big要么Go home"的关键抉择,需要人才驱动持续创新[49] - 坚持L4赛道,认为自动驾驶商业价值巨大,是英才施展才华的理想领域[33][50]
国产家庭机器人终于落地!连人带床推你去上班,小五位数价格明年开卖
量子位· 2025-11-28 14:31
公司产品:具身智能机器人F1 - 产品定位为家庭助理型具身智能机器人,而非仅限家务,已在几十个家庭连续试用,是国内最接近真正落地的家庭服务型机器人[3][4][8] - 采用轮式底盘设计,面积缩小至1/4平方米,以适配城市人均约37.2-40平方米的居住面积,增强穿行和避障能力[16][17][18] - 机器人身高升降范围为1000mm–1430mm,手臂操作范围覆盖地面至2350mm,单臂负载5kg,末端夹爪重复精度±0.05mm,力控精度±0.1N[9][10][12] - 全身搭载近30个传感器和6个摄像头,具备局部建图、人物识别、实时避障能力,越障高度25mm,过沟宽度35mm[14][15] - 在高强度工作状态下续航超过8小时,待机时长超过一整天[19][20] 技术架构与能力 - 提出RVLA模型架构,将长序列任务拆解为边界明确的原子行为单元进行训练,确保任务执行的稳定性[32][33][38] - 模型采用上下分层架构:上层为端到端大模型处理低风险任务;下层由多个针对不同情境的小模型进行精准控制[35][37] - 引入DAPO策略优化框架,融合强化学习与动态采样机制,并扩展至多专家动作模型,以提升双臂在家庭复杂场景下的操作表现[35] - 具备高鲁棒性的执行与纠错机制,单个元动作失败会自动触发重试逻辑[39] - 目前已能不靠遥操,自主完成开冰箱取物、收纳玩具、将衣服塞进洗衣机等家庭长程任务[41][42] 应用场景与市场策略 - 将家庭任务划分为孩子、老人、大清洁、厨房四类,当前产品重点从大清洁和孩子两类场景切入[24][25] - 特别重视儿童交互场景,基于入户测试数据反馈机器人70%的行为在于与人交互,儿童是高频的数据制造者,产品已加入教育互动模块[28][30] - 公司计划一年内在国内上市F1,并发布更轻量级的F2型号,目标售价为小五位数级别[60][61] - 公司创业前三年未进行市场融资,近期因看到产品市场契合度才开始小范围开放融资,强调行业长周期特性[55][56] 公司背景与产品迭代 - 公司创始人兼CEO张翼曾为掌门教育创始人,该公司后发展为估值78亿元独角兽并于2021年在纽交所上市[48] - 公司于2021年立项调研,2022年正式注册,创始人基于技术背景和对家庭服务机器人长期趋势的判断进入该领域[50][51][52] - 产品开发以真实家庭试用数据为导向,砍掉了1.35米超长机械臂、仿真五指灵巧手、高负载能力等不切实际的设计[57][58]
阿里千问开始蹬鼻子上脸了
量子位· 2025-11-28 14:31
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 标题没开玩笑——这回千问是真的"上脸"了。 昨天阿里发布了搭载千问的首款硬件——夸克AI眼镜。 为这场"造势",阿里动作不小:发布会开场直接亮相千问App下载量破千万的成绩单,这波操作属实是先把声量垫到顶,再把"压轴"产品推出 来。 这次发布的夸克AI眼镜共 有S1、G1两个系列,共六款机型,S1最低到手价3799元,G1最低到手价1899元。 不掏手机、不切页面,抬头就能问,备忘、翻译、提词这些常用动作都能在眼镜端完成: 这副能让"千问"上脸的眼镜到底咋样,咱往下看~ 旗舰性能+阿里千问,打造随身超级AI助理 我们先把机型关系讲明白,S1、G1的配置整体比较接近,G1除了没有显示功能,其它硬件配置和S1没区别。 咱直接来看性能。 在核心配置上,夸克AI眼镜用的是 第一代骁龙AR1平台 ,S1还叠了 双旗舰 芯片,配上双光机双目显示,所以在亮度、清晰度和画面一致性 上会更占优势。 影像部分也做了不少打磨,不仅上了 AI"云台" 来稳住画面,能做到0.6秒的极速抓拍,还给到 3K超清画质 ,整体成像更可靠: 此外,阿里这次把自家 生态场景 也一并带上了:现在 ...
夸克AI浏览器来了!深度融合千问,迎来“Chrome级”进化时刻
量子位· 2025-11-28 12:11
行业趋势:AI重塑浏览器入口形态 - 全球浏览器行业正从被动网页展示窗口向更高的AI操作层和系统层演进,负责调度理解、执行任务和承接整套AI能力[7][8] - 浏览器被视为AI时代的核心入口竞争焦点,AI将深度渗入浏览器底层能力层,成为系统结构的一部分,使浏览器变成真正的AI协作中枢[18][19] - 在该趋势下,中国浏览器行业面临如何进入AI化下一阶段的现实问题,需打造具备系统级全局AI能力的产品以参与全球竞争[9][51] 公司战略:夸克AI浏览器对标全球领先 - 夸克浏览器全面进化为新一代AI浏览器,战略上全面对标Chrome,目标打造全球领先的AI浏览器并加入全球主战场竞争[2][10][16] - 公司依托阿里完整的技术生态和最强大的Qwen大模型,实现有别于AI插件形式的深度技术融合,将国产浏览器技术线推上新高度[3][11] - 此次升级是重大版本发布,而非功能层小修小补,旨在让浏览器具备"参与任务"的能力,推动浏览体验从"够用"走向"顺手"[10][15][42] 技术核心:深度融合Qwen大模型 - 夸克将阿里最强大的Qwen家族模型直接接入浏览器底层,千问AI助手参与整体任务流,实现全局AI能力[5][11] - Qwen3-Max在首届AI大模型真实投资比赛Alpha Arena中以22.32%的收益率赢得比赛,账户价值达$12,232,展现了在复杂决策与多变量推理任务中的稳定性[12] - Qwen模型家族自23年全线开源以来累计发布300+模型、全球下载量突破6亿次、衍生模型超过17万个,在Chatbot Arena子榜单Vision Arena中Qwen3-VL拿下全球第二、开源第一[12][13] - Qwen模型覆盖文本、视觉、语音、视频、代码、图像等全模态方向,形成规模完整、能力均衡的模型家族,在内容理解与信息处理上具备天然优势[14] 产品功能:系统级全局AI交互体验 - 发布千问六大AI套件:千问悬浮球、快捷框、截屏、划词、侧边栏、读屏,实现系统级全局AI能力[21] - 千问悬浮球作为桌面AI快速操作台,可随时唤起进行录音、截屏提问、润色总结翻译等操作[23] - 千问快捷框解决临时提问需求,千问划词支持指哪答哪,千问截屏可解析图片内容,千问读屏可直接共享屏幕内容给AI[26][27][28] - 新增千问侧边栏作为沉浸式AI第二屏,实现边浏览边总结、边看边对话的同场操作,承载更长更复杂的思考链路[31][32][35][36] - 支持快捷键Alt+空格唤起快捷框,可进行翻译、总结、研究分析、格式转换、做表格、做PPT等操作,实现一句话指令AI接手干活[39][40][41] 用户体验优化:提升浏览效率与流畅度 - 对标签管理场景进行智能化优化,支持排序、分组、识别并处理高内存标签,避免浏览器卡顿[44][45] - 强化PDF处理能力,支持万能编辑(包括修改PDF图片中的文字)和对照翻译功能,生成双栏对照排版[46][47] - 在底层进行针对性优化,实现启动更快、占用更低、卡顿更少的流畅体验,并保持搜索无广告、界面干净简约[48][49] - 整体浏览体验从过去的断续跳转转变为连续流,协作更连续高效,工具不再打断工作生活节奏[29][37][49]
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
量子位· 2025-11-28 12:11
文章核心观点 - 多模态大模型后训练中,样本难度比训练范式更为关键,仅使用强化学习策略(GRPO-only)进行优化是可行且有效的,无需监督微调(SFT)作为前置步骤 [2][3][36][37] - 研究提出了两种可量化的样本难度评估策略(PISM和CMAB),并基于此设计了分层训练框架,在多个基准测试上取得了显著性能提升 [6][7][36] 研究方法与创新 - 提出渐进式图像语义掩码(PISM)策略,通过模拟不同程度的视觉信息损失来量化样本对视觉细节的依赖程度,从而划分样本难度 [10][14][15][16][17] - 提出跨模态注意力平衡(CMAB)策略,通过分析模型生成响应时对文本和图像的注意力之比,评估跨模态交互复杂度以划分样本难度 [19][20][21][22] - 设计了两种后训练范式进行对比:GRPO-only范式(直接对中高难度样本应用强化学习)和SFT+GRPO范式(先进行监督微调再进行强化学习) [23][24][25] 实验结果与分析 - 在视觉推理任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,OCRBench达到77.8分,MMMU提升0.107,MMStar提升0.083,全面超越传统SFT+GRPO范式 [28][29] - 在视觉感知任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,MMVet达到50.367分,MMMU达到0.550分,MMStar达到0.629分,尤其在需要跨模态深度融合的任务中优势明显 [33][34] - 实验表明SFT阶段并未带来性能增益,甚至可能因引入“伪思维链”而限制模型真实推理能力,所有SFT+GRPO范式的性能均低于GRPO-only范式 [29][36] 行业影响与未来方向 - 该研究为多模态大模型性能提升提供了全新技术路径,推翻了“SFT是RL后训练必要前提”的传统认知,极大简化了训练流程 [3][37] - 未来研究方向包括动态难度调整、多策略融合以及在百亿参数级大模型上验证方法的泛化性 [38] - 研究代码已开源,为后续研究提供可复现的技术基础,有望推动多模态AI在医疗、教育、自动驾驶等领域的实际应用 [39][40]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-11-28 12:11
大会概况 - 大会主题为"共生无界,智启未来",关注AI等智能科技穿透产业、学科与场景边界,成为驱动社会演进的核心动能[2] - 聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[3] - 涵盖学术前沿与商业落地的最新碰撞,以及来自Infra、模型、产品产业的领先技术成果[4] - 将权威发布人工智能年度榜单与年度AI趋势报告[5] 参会嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁[11][12] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目[15] - 王仲远:北京智源人工智能研究院院长,前快手、美团、Facebook、微软亚洲研究院高管,发表论文100余篇,获美国专利5项、中国专利50余项[19] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,2024年登陆纳斯达克成为"全球通用自动驾驶第一股"[27][28] - Daniel Povey:小米集团首席语音科学家、IEEE Fellow,著名开源语音识别工具Kaldi提出者,论文引用近52000次[33] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一[36][37] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜等荣誉,曾任职谷歌、微软、英伟达等公司[42][43] - 杨帆:商汤科技联合创始人、大装置事业群总裁,主导建设人工智能专用计算中心,推动AI基础设施产业布局[45] - 万卫星:高通公司AI产品技术中国区负责人,负责智能终端侧AI引擎软硬件规划及生态系统建设[48][49] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验,中国公有云服务早期探索者[53][54] 大会发布内容 - 将发布2025人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[117] - 将发布2025年度AI十大趋势报告,结合技术成熟度、落地现状、潜在价值等因素深入分析行业趋势[118] 大会影响力 - 每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[122] - 已成为智能科技行业年度风向标,汇聚技术、产业、投资领域代表性企业和人物[122]
80后诺奖得主:AlphaFold下一步融合大模型
量子位· 2025-11-28 12:11
AlphaFold的发展历程与现状 - 由谷歌DeepMind开发,能精确预测蛋白质三维结构的AI科研工具[8],利用序列和结构数据库中的大量实验数据训练网络以发现氨基酸序列间的关联和模式[9] - 自2020年AlphaFold2首次公开后,迅速成为结构生物化学领域的坚实基座,并陆续推出可预测多个蛋白质结构的AlphaFold Multimer以及迄今速度最快的AlphaFold 3[12] - 从最初的蛋白质结构预测,发展到能处理更复杂的多分子复合体及更广范围的生物分子交互[13],已帮助全球超过300万研究人员预测了数亿种蛋白质结构,影响了超过50万篇相关论文[3] - 标志着生命科学继量子力学和分子生物学革命后的又一次重大跃迁[4],并已在科研中实现工具化,成为当代实验设计的重要组成部分[23] AlphaFold的具体科研应用与突破 - 在心血管疾病研究方面,帮助密苏里大学团队揭示了坏胆固醇(LDL)核心蛋白ApoB100的原子级笼状结构,为治疗提供了理论依据,成果发表于《Nature》[14][15][17] - 在生态保护领域,帮助研究人员在两天内解密了与蜜蜂免疫力相关的关键蛋白Vitellogenin(Vg)的近原子级结构,完成了过去需数年的工作,对濒危种群保护起到关键作用[18][20] - 展现出非常规应用潜力,如被用于预测蛋白质合成设计的成功率,或作为搜索引擎在成千上万个候选蛋白中筛选最可能与目标蛋白结合的蛋白[21][22][23] AlphaFold的未来发展方向 - 核心开发者John Jumper公开表示,下一步是与大模型融合[1][26],目标是使AlphaFold在预测结构之外,还能读懂科学文献数据、进行科学推理、提出假设、设计实验流程甚至自动生成研究思路[26][27] - 未来将能更好地帮助理解更复杂的多分子多功能系统,例如蛋白之间、核酸(DNA/RNA)之间的相互作用等生物过程[27] - 技术思路可能与谷歌面向数学和计算机科学领域的AlphaEvolve系统类似,即使用一个大模型生成解决方案,再用第二个模型检查并过滤错误信息[28][29] AlphaFold的核心开发团队与关键突破 - 由DeepMind创始人兼CEO哈萨比斯和首位"80后"诺贝尔化学奖得主John Jumper领导开发[30][32],Jumper拥有数学、物理及理论化学背景,其博士论文即研究将机器学习应用于蛋白质动力学[33][34] - 初代AlphaFold在第13届CASP中崭露头角,成功预测43个蛋白质中的25个,证明了"机器学习+统计信息"推断蛋白质结构的可行性,但预测质量尚不足以实际应用[41][42] - 关键突破在于采用Transformer架构重构出AlphaFold 2,其预测结构精度达到1.5埃(约一个原子宽度),并在CASP 14竞赛中将准确性均分从60多分提升至92.4分(此前其他方法约40分),成功解决了困扰学界50余年的蛋白质折叠问题[44][48][50][52][53][54]