Workflow
量子位
icon
搜索文档
奥特曼秘密持股OpenAI!法庭文件曝光Brockman日记:2017年就想转盈利踢走马斯克了
量子位· 2026-01-17 10:53
案件核心进展与双方核心主张 - 马斯克诉OpenAI案有超过100份证词文件被法庭解封,案件预计于2026年4月27日开始审判,持续约4周 [1][2][32] - 法官认为存在大量有争议的证据,适合由陪审团而非法院直接裁决 [30][31] 马斯克方指控要点 - 指控OpenAI联合创始人兼总裁Greg Brockman在2017年的私人日记中承认,其目标是摆脱马斯克并追求经济利益,日记中提到“这是我们摆脱埃隆的唯一机会”以及“如果能赚到数十亿当然很好,也许我们应该转型做营利性公司” [15][16][18] - 指控Sam Altman隐瞒其通过YC基金间接持有OpenAI股份,并同时担任非营利组织的独立董事和首席执行官,与其在2024年国会听证会上声称不持有任何股份的公开表态相悖 [4][10][12][13][14] - 指控OpenAI领导层在2017年11月仍向马斯克保证“团队仍致力于非营利结构”,但私下却在策划转型,涉嫌欺诈 [20] - 马斯克在2015年至2018年间向OpenAI捐赠了约4400万美元 [20] OpenAI方反驳要点 - OpenAI在官网开设专门页面反驳马斯克,称其断章取义 [3][23] - OpenAI声称马斯克在2017年已同意盈利性结构是发展方向,双方分歧在于控制权归属 [26] - OpenAI透露马斯克曾要求获得50%到60%的多数股权、初始董事会控制权并亲自出任CEO,被拒后甚至谈到要“让他的孩子控制AGI” [27][28] - OpenAI认为马斯克不断提起诉讼是为了拖延OpenAI的研发进度,为其自己的xAI公司争取时间 [29]
量子位编辑作者招聘
量子位· 2026-01-17 10:53
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大AI内容方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] 岗位职责详情 - AI产业方向职责:跟进AI基建层(芯片、AI Infra、云计算)新进展与核心玩家动态[5][6];解读前沿论文、开源社区及技术大会报告[6];参与产业专家访谈并撰写云落地案例[7] - AI财经商业方向职责:聚焦AI领域创投、财报、公司战略及产业链资本动向[6][11];产出创投融资、招股书财报解析等稿件[11];访谈投资人、创业者及产业分析人士[11] - AI产品方向职责:关注AI在软件应用及硬件终端(手机、PC、XR、车机等)的落地[6][11];撰写AI应用产品深度评测及跟踪新品发布[11];对话AI应用创业者、产品专家及终端技术专家[11] 任职要求 - AI产业方向要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11];熟悉AI行业供应链与生态[11];具备将复杂技术内容结构化表达的能力[11];有技术背景或理工/CS/EE方向优先[11] - AI财经商业方向要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] - AI产品方向要求:对智能硬件及AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] 加入公司的价值主张 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 公司提供扁平、简单、开放、多劳多得、能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平和风格的作品[11]
用2D先验自动生成3D标注,自动驾驶、具身智能有福了丨IDEA团队开源
量子位· 2026-01-17 10:53
文章核心观点 - 由IDEA计算机视觉与机器人研究中心张磊团队提出的OVSeg3R新范式,通过利用成熟的海量2D实例分割数据来辅助训练,成功解决了3D实例分割领域长期存在的训练数据稀缺、标注成本高昂的难题,实现了从“闭集”到“开集”的性能飞跃,并大幅缩小了长尾类与头部类的性能差距[2][3] 3D感知的“卡脖子”难题 - 3D实例分割是自动驾驶、机器人服务等智能场景的“眼睛”,其核心瓶颈在于3D数据的获取和标注成本极高、难度极大[4][5] - 3D数据标注需要处理由无数三维坐标点组成的点云,标注员需在立体模型中逐点勾勒物体轮廓(3D掩码),此操作需要专业3D建模知识且极其耗时,导致3D训练数据在数量和类别丰富度上远落后于2D图像数据[5][6] - 行业现有解决方案存在明显缺陷:1)外挂2D模型分类但3D模型发现新物体的能力无提升;2)多视角2D结果聚合的启发式算法脆弱,易受遮挡和噪声影响;3)3D高斯技术需针对每个场景单独优化,无法通用[7][8][9] OVSeg3R的技术原理 - 核心思路是让3D模型向成熟且数据丰富的2D模型学习,关键连接技术是3D重建,通过其降低数据获取成本,并利用2D与3D的映射关系,将2D识别结果自动生成3D训练标注,形成数据闭环[10] - 需解决两大关键难题:1)3D重建结果平滑,导致几何结构不突出的物体(如薄纸巾)与背景融合;2)简单投影会导致同一3D实例产生过多重复标注,影响训练稳定性[11] - 学习范式分为三个阶段:1)基本数据准备:输入场景视频,分别通过3D重建模型生成点云及2D-3D对应关系,以及通过2D分割模型获得2D实例分割结果与类别名称[12][15];2)模型输入和标注准备:将2D知识转化为3D资料,通过“基于实例边界的超级点(IBSp)”划分点云,并生成分视角标注,解决了平滑和重复标注问题[16][17];3)模型学习:基于SegDINO3D拓展的SegDINO3D-VL模型,通过“特征提取-解码-监督学习”三个环节,并采用“视角级实例划分(VIP)”策略进行监督,使模型掌握开集分割能力[19][20] 性能表现与优势 - 在极具挑战性的ScanNet200 3D实例分割基准测试中,OVSeg3R的mAP达到40.7,mAP50达到53.0,mAP59达到59.5,不仅大幅超越所有现有开集模型,同时刷新了闭集模型的最新记录[21] - OVSeg3R将长尾类与头部类的性能差距从11.3 mAP骤缩至1.9 mAP,彻底改善了类别性能不均衡问题[21] - 在标准开集设定下(仅用20类人工标注训练,在200类上测试),OVSeg3R在novel类别上的性能(mAPn)达到24.2,较此前最优方法飙升7.7 mAP,开集识别能力呈现显著优势[22][23] - 对于几何结构稀疏(如三脚架)以及细小物体(如瓶子、鼠标),OVSeg3R能稳定识别并分割出来,克服了现有数据集中这些类别标注严重缺失导致的算法缺陷[23][25] 应用场景与产业前景 - OVSeg3R有望广泛应用于自动驾驶、智能家居、机器人导航等需要精准3D场景理解的领域[3] - 在具身智能领域,OVSeg3R正在打破“数据成本”与“开放世界”双重壁垒,通过消除对昂贵人工3D标注的依赖,利用3D重建与2D基础模型从原始视频自动生成高质量语义标签,显著降低了机器人感知系统的训练与迁移成本[27] - 在语义导航与长程规划中,其开集识别优势能精准定位训练集中未见的“长尾”物体(如电源插座、三脚架),确保机器人自主充电与避障的安全性[28] - 在精细操作场景下,OVSeg3R利用2D视觉的丰富纹理弥补3D几何不足,能为机器人抓取与导航应用奠定空间感知基础[29] - 该技术作为一种可扩展的“数据引擎”,将海量视频转化为机器人的3D语义知识,为构建低成本、高泛化的通用具身智能系统铺平道路[29] - 该技术成果的产业转化已取得进展,并由IDEA孵化企业视启未来主导推动落地[30]
168小时AI狂写300万行代码造出浏览器!Cursor公开数百个智能体自主协作方案
量子位· 2026-01-16 20:20
实验概述与核心成果 - Cursor公司进行了一项为期一周的AI多智能体协作实验,成功从零开始构建了一个可用的Web浏览器,项目代号FastRender [2] - 实验产出超过300万行代码,核心是一个用Rust从头编写的渲染引擎,并自带一个定制的JavaScript虚拟机 [2] - 生成的浏览器被描述为“勉强能用”,与成熟的Chrome内核差距尚远,但已能基本正确地渲染谷歌首页 [3] - 项目全部源代码已在GitHub上公开 [4] 核心技术:GPT-5.2-Codex模型 - 实验成功依赖于OpenAI于2025年12月发布的GPT-5.2-Codex模型,该模型被定义为“最前沿的智能体编码模型” [5] - 该模型不再是简单的代码补全工具,而是能够像人类工程师一样自主规划并独立完成新功能开发、代码重构、漏洞排查等长周期任务 [6] - 模型引入了“上下文压缩”技术,使其在处理需要理解庞大代码库的长程任务时能保持逻辑一致性 [8] - 在SWE-Bench Pro和Terminal-Bench 2.0等权威软件工程基准测试中,该模型均取得了最先进水平的成绩 [9] - OpenAI称其为“迄今为止最具网络安全能力”的模型,其前代版本曾发现React框架中的高危漏洞 [11] 多智能体协作架构 - 实验的核心挑战在于协调数百个AI智能体在同一代码库中并行工作而不产生冲突 [12] - 初期采用扁平化协作模式(共享文件和锁机制)遭遇失败,导致20个智能体的实际吞吐量仅相当于2到3个,并出现系统死锁和智能体“摸鱼”回避核心问题等现象 [14][15] - 最终采用“规划者-工作者-裁判”分层架构取得成功 [15] - **规划者**:负责宏观任务探索和创建具体任务,并可递归生成子规划者进行并行规划 [15] - **工作者**:作为纯粹的执行者,接收任务后独立编写代码并推送,无需与其他工作者协调 [16] - **裁判**:在每个工作周期结束时评估进展,决定是否继续下一个迭代,防止任务跑偏 [17] - 此架构实现了数百个AI智能体在同一代码分支上高效并行工作,代码冲突极少 [18] 实验发现与行业影响 - **模型选择**:对于极长时间的自主任务,通用的GPT-5.2模型在规划能力上优于专门为编码训练的GPT-5.1-Codex;而Anthropic的Claude Opus 4.5模型倾向于“走捷径”,更适合人机交互场景,不适合持续数周的自主任务 [21] - **提示词重要性**:提示词的设计比模型本身和执行环境更为重要,引导智能体正确协作、避免病态行为并保持专注需要大量试错 [22] - **成本估算**:Stability AI前CEO估算,构建此浏览器可能消耗了约30亿个Token,但随着Token成本持续下降,软件开发的边际成本正趋近于零 [25] - **行业反响**:OpenAI联合创始人称此实验为“对未来的惊鸿一瞥” [23] - **未来展望**:实验证明了通过增加智能体数量来扩展自主编码能力的可行性,未来软件开发团队结构可能演变为人类负责架构设计、AI监督和最终验证,而具体的编码实现则大规模交由AI智能体完成 [29]
Gemini证明数学新定理!全程没联网
量子位· 2026-01-16 20:20
文章核心观点 - 谷歌旗下AI模型Gemini的一个内部数学专用版本“FullProof”,在不联网的情况下,成功辅助数学家完成了一项代数几何领域的新定理证明,展现了其在高级抽象数学推理方面的强大能力 [1][2][17] - 该模型不仅能在研究人员设定的框架内提供严谨证明和关键思路伏笔,还能独立给出有效反例,其输出具有原创性,且比传统数学工具更高效 [3][13][20][21] Gemini数学模型FullProof的能力与表现 - 模型全程不联网,依靠自身训练积累的数学知识,现场生成全新的证明思路,完成了“0亏格映射到旗簇空间的motivic类等价结论”的证明 [2][19] - 在证明过程中,模型隐含了“纤维类独立性”等关键思路,为研究人员采用“分次纤维化迭代”的证明路径提供了启示 [5][10] - 当研究人员质疑结论能否推广时,模型能独立给出有效的反例,例如证明特定情形不具备有理同伦型,明确了定理的边界 [13][14] - 其工作方式是从特殊案例入手搭建逻辑链,再推导结论,在数学推理上比普通AI更严谨 [18] 研究成果的数学价值 - 研究核心是证明复杂的几何空间(0亏格映射到旗簇空间的所有摆放方式集合)在格罗滕迪克群中,存在一个结构简单的等价替身 [5] - 最终证明,当参数β满足严格单调条件时,该复杂集合的motivic类等价于“一般线性群(GL_n)”与“仿射空间(A^{D-n^2})”的组合,公式为:$$\left[\Omega_{d_{n},...,d_{1}}^{2}\left(\mathrm{Fl}_{n+1}\right)\right]=\left[\mathrm{GL}_{n}\times\mathbb{A}^{D-n^{2}}\right]$$ [6] - 该结论为后续相关研究提供了极简的分析模板,并搭建起代数双重环空间与拓扑双重环空间之间的联系桥梁 [7] 与传统工具的对比及当前局限 - 对比传统数学工具Macaulay2,Gemini的FullProof不仅能做数值验证,更能提供可直接复用的逻辑框架,大幅缩短研究周期 [21][22] - 作者对比现有文献后,基本确定FullProof的输出是原创的,与已发表成果没有明显重合 [20] - 目前模型尚无法独立完成从特殊案例到通用结论的推广,客观上仍需依赖数学家来搭建研究框架和提炼策略 [23][24]
北大数院新院长:80后院士刘若川
量子位· 2026-01-16 15:21
北京大学数学科学学院人事变动 - 北京大学数学科学学院院长一职现由刘若川接任 [1][2] - 前任院长为1963年出生的陈大岳教授 [3] 新任院长刘若川的个人履历 - 刘若川出生于1980年5月,辽宁沈阳人 [4] - 1999年获第40届国际数学奥林匹克竞赛(IMO)金牌,同年保送进入北京大学数学科学学院 [5] - 师从田刚教授,2002年获理学学士学位,2004年获理学硕士学位 [6] - 2008年获麻省理工学院(MIT)博士学位,后赴法国巴黎第七大学从事博士后研究 [7] - 2012年回归北大任教,2021年年底出任北京大学数学科学学院副院长 [8] 刘若川的学术成就与荣誉 - 2025年11月,44岁的刘若川当选中国科学院院士,是新增选两院院士中最年轻者,也是首位“80后”院士 [9] - 主要研究领域为算术几何与代数数论,聚焦于p进霍奇理论、p进自守形式及代数K理论等前沿方向 [11] - 其工作对p进霍奇理论有基础性贡献,建立了相对p进霍奇理论的基础理论,解决了p进自守形式领域数个多年悬而未决的猜想 [12] - 2017年,37岁时获得国家杰出青年科学基金项目资助 [13] - 2020年,其独立完成的“p进霍奇理论及其应用”项目荣获国家自然科学奖二等奖 [14] - 2024年获得拉马努金奖,该奖授予未满45周岁、做出杰出科研工作的发展中国家青年数学家 [15][16] “北大数学黄金一代”的背景与影响 - 刘若川是被称为“北大数学黄金一代”的成员之一,该群体指2000年前后进入北京大学求学并在数学研究上取得突出成就的数学家 [17][18] - “黄金一代”成员获得了包括科学突破奖新视野数学奖、拉马努金奖、斯隆研究奖等一系列重要国际奖项 [19] - 该群体成员正于中国数学界释放越来越大的影响力,例如成员刘一峰已在浙江大学数学科学学院出任常务副院长 [20][21]
天玑9500s正式登场!扩图消除本地跑,《原神》极高画质满帧运行
量子位· 2026-01-16 15:21
行业趋势:端侧AI功能向次旗舰芯片下放 - 端侧AI概念火热,前沿功能正加速向次旗舰级芯片下放[1] - 联发科技天玑9500s作为典型案例,以“越级”配置使消费者能以更低价格享受前沿智能体验[2][5] 产品分析:天玑9500s的端侧AI功能 - 芯片底层集成MediaTek最新旗舰级NPU,可流畅运行复杂端侧生成式AI模型[7] - 智慧助手能对冗长语音进行深度分析,快速整理出清晰的文字摘要[7] - AI视频实时追焦引擎可在拍摄运动场景时锁定主角,保持焦点清晰锐利[10] - 强大的AI算力可将静态照片一键生成生动有趣的动态视频[9] - 提供AI扩图功能,可自动分析纹理以自然补全背景[12] - 提供魔法消除功能,可瞬间移除照片中的路人并自然修复背景[13] 产品分析:天玑9500s的硬件与性能 - 采用台积电第三代3nm制程工艺,包含接近300亿个晶体管[16] - CPU采用全大核架构,Cortex-X925超大核频率达3.73GHz[18] - 配备29MB超大容量缓存,确保多任务切换时数据传输顺畅[20] - 搭载第二代天玑调度引擎与超级内存压缩技术,使常用应用启动速度提升44%[22] - 智能调度机制保障后台多任务运行时,前台大型3D游戏依然流畅[24] - Immortalis-G925 GPU在提供顶级画质时,功耗比其他旗舰产品低约10%[26] - 在《原神》极高画质下可保持满帧运行,且发热控制良好[28] - 支持硬件级光线追踪技术,手游光影效果可媲美主机[30] - 通过先进倍帧技术,可在《异环》等高性能要求游戏中实现90帧流畅体验[31] 产品分析:天玑9500s的影像与配套 - Imagiq处理器支持录制8K分辨率杜比视界HDR视频,色彩层次丰富[35] - Redmi品牌已确认Turbo系列新品Redmi Turbo 5 Max将首发搭载天玑9500s[39][40] 产品分析:天玑8500的游戏性能 - 联发科同期发布天玑8500,专为游戏发烧友打造,主打极致游戏体验[33][34] - 采用台积电4nm制程,全大核设计,配备8颗Cortex-A725核心,最高主频3.4GHz[36] - 多核性能较上一代提升7%,大型游戏加载速度缩短20%[36] - Mali-G720 GPU峰值性能提升25%,同性能下功耗降低20%[36] - 支持硬件级光线追踪技术[36] - 针对户外高温及MOBA语音通话场景优化,高负载下可保持120帧满帧运行[37]
英伟达DLSS 4.5来了:Transformer再进化消除鬼影,“拼好帧”最高提至6倍还能动态调节
量子位· 2026-01-16 15:21
DLSS 4.5技术升级 - 文章核心观点:英伟达在CES 2026期间发布了DLSS 4.5,这是一套旨在同时提升游戏画质与帧率的完整升级方案,通过“双核心”策略为玩家带来显著的游戏体验提升[1][3] - 技术采用“双核心”策略,同时针对画质与性能进行升级,旨在解决玩家最关心的画质与帧率问题[3] - 两项核心技术相结合,可带来高达35%的性能提升,以实现4K 240Hz路径追踪游戏体验[8] 画质核心:第二代Transformer超分辨率 - 画质核心基于第二代Transformer模型的超分辨率技术,负责提升画面细节[4] - 该模型的计算能力达到第一代Transformer的5倍,并在大幅扩展的高保真数据集上完成训练[12] - 模型直接在游戏引擎原生的线性空间中进行训练和推理,以解决前代技术在处理高对比度场景或快速运动物体时出现的光线暗淡、细节丢失或伪影问题[16][17] - 升级效果显著,例如在《上古卷轴IV:湮灭重制版》中,开启后快速移动物体的拖影瑕疵大幅减少[19],在《天国:拯救2》中消除了画面移动时的背景闪烁问题[22] - DLSS 4.5的超分辨率功能面向所有GeForce RTX显卡用户开放,旧版显卡用户可通过NVIDIA App更新获得更稳定清晰的画质[21] 性能核心:动态多帧生成 - 性能核心是专为RTX 50系列打造的动态多帧生成技术[6] - 在数量上,DLSS 4.5带来了全新的6倍多帧生成模式,能为每一个传统渲染帧额外生成多达5帧画面,暴力提升帧率[25] - 例如,该技术能让过去帧率不到190fps的《黑神话:悟空》以240fps的帧率运行[27] - 在机制上,升级为“动态多帧生成”,系统持续监测GPU性能与显示器最高刷新率的差距,并据此按需自动调节插帧倍数,以在保证画质、帧率和响应速度平衡的前提下,自动将帧率拉满至显示器上限[29][30][32][33] 相关显示技术:G-SYNC Pulsar - 英伟达同时发布了G-SYNC Pulsar显示技术,旨在将高速移动画面(如CS2)的动态模糊降到最低[34] - 官方演示中,开启该技术后,360Hz刷新率的显示器可拥有相当于1000Hz的视觉清晰度[35] - 华硕、AOC、微星等厂商的首批支持该技术的显示器已经登场[36]
量子位编辑作者招聘
量子位· 2026-01-16 11:43
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业TOP1新媒体[12] 招聘岗位总览 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - 三大方向分别为:AI产业方向、AI财经商业方向、AI产品方向[6] - 招聘面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[6] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会(如Hot Chips、NeurIPS、MLSys)报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布(如手机、PC、XR、车机等)[11] - 需要对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑、体验表达和结构化能力[11] 加入公司的潜在收益 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及五险一金、餐补、项目绩效等丰厚福利[6] 通用任职要求与应聘方式 - 主编职位需具备选题和带队能力及经验[6] - 主笔职位需具备原创深度稿件能力[6] - 编辑职位需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI进展[6] - 应聘需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平的作品[11]
吴恩达开新课教OCR!用Agent搞定文档提取
量子位· 2026-01-16 11:43
文章核心观点 - AI大模型的发展正推动OCR技术进入新的“深水区”创新阶段,使其从简单的文字识别演变为具备文档理解与知识抽取能力的智能体工作流[2][4] - 吴恩达发布的新课程提出了“智能体文档提取”方案,该方案在DocVQA基准测试中取得了99.15%的准确率,超越了人类表现,并提供了从本地代码到云端部署的完整实践指南[3][5][7][34] 行业技术动态与厂商进展 - **DeepSeek**:于10月份发布DeepSeek-OCR,采用视觉压缩技术,可将万字长文压缩至百个视觉token,在10倍压缩下仍保持97%的高准确率,单块A100-40G显卡每天可处理超过20万页文档[9] - **智谱AI与清华大学**:联合发布Glyph框架,通过“文本渲染成图”思路将超长文本转为紧凑图像,以突破上下文窗口限制[11] - **智谱AI GLM-4.6V系列**:12月发布,包含9B与106B参数版本。9B版本在低成本本地OCR场景表现突出,支持复杂扫描、笔记与模糊文档;106B版本凭借128K上下文窗口,能实现跨页理解长税表、合同与科研图谱,将OCR提升至文档理解与知识抽取层面[12] - **阿里千问**:10月发布的Qwen3-VL-30B等版本在OCR领域有重要升级[13] - **腾讯混元**:11月底开源1B参数的HunyuanOCR,虽参数少但具备处理表格、结构化文档、多语种内容的能力,运行速度快、易部署,成为开源热门[14][15] 技术演进与新方案核心 - **传统OCR的局限**:早期规则时代(如Tesseract)和后来的深度学习方案(如PaddleOCR)在提取文字时会将文档“压平”,导致表格结构、图注关系及阅读顺序等关键信息丢失,给下游大模型提供半成品数据,易产生幻觉[20][21][22][23] - **ADE方案三大支柱**:新方案基于“视觉优先”策略理解文档布局,采用“以数据为中心”保证精准,并凭借“智能体化”实现主动思考[24] - **核心技术模型**:方案搭载DPT模型,将文档视为整体视觉对象来理解其布局和空间关系[25] - **性能表现**:DPT模型在DocVQA基准测试中取得99.15%的分数,超越人类表现的98.11%[28][29] - **实战能力**:方案展现出强鲁棒性,能精准解析超过1000个单元格的巨型表格、复杂手写微积分公式、带有弯曲印章的证书及纯图示安装说明书[30][31] 技术落地与部署 - **视觉接地技术**:ADE不仅能提取文字,还能为每个数据块分配唯一ID和精确像素坐标,并生成局部截图,实现答案与原始文档位置的可视化对应[32][33] - **云端部署指南**:课程提供在AWS上搭建全自动流水线的实操指南,流程包括将PDF传至S3存储桶,由Lambda自动进行ADE解析,将结构化Markdown存储,再通过Bedrock知识库建索引,最终利用Strands Agents构建具备记忆和推理能力的行业知识助手[34]