Glyph框架
搜索文档
吴恩达开新课教OCR!用Agent搞定文档提取
量子位· 2026-01-16 11:43
文章核心观点 - AI大模型的发展正推动OCR技术进入新的“深水区”创新阶段,使其从简单的文字识别演变为具备文档理解与知识抽取能力的智能体工作流[2][4] - 吴恩达发布的新课程提出了“智能体文档提取”方案,该方案在DocVQA基准测试中取得了99.15%的准确率,超越了人类表现,并提供了从本地代码到云端部署的完整实践指南[3][5][7][34] 行业技术动态与厂商进展 - **DeepSeek**:于10月份发布DeepSeek-OCR,采用视觉压缩技术,可将万字长文压缩至百个视觉token,在10倍压缩下仍保持97%的高准确率,单块A100-40G显卡每天可处理超过20万页文档[9] - **智谱AI与清华大学**:联合发布Glyph框架,通过“文本渲染成图”思路将超长文本转为紧凑图像,以突破上下文窗口限制[11] - **智谱AI GLM-4.6V系列**:12月发布,包含9B与106B参数版本。9B版本在低成本本地OCR场景表现突出,支持复杂扫描、笔记与模糊文档;106B版本凭借128K上下文窗口,能实现跨页理解长税表、合同与科研图谱,将OCR提升至文档理解与知识抽取层面[12] - **阿里千问**:10月发布的Qwen3-VL-30B等版本在OCR领域有重要升级[13] - **腾讯混元**:11月底开源1B参数的HunyuanOCR,虽参数少但具备处理表格、结构化文档、多语种内容的能力,运行速度快、易部署,成为开源热门[14][15] 技术演进与新方案核心 - **传统OCR的局限**:早期规则时代(如Tesseract)和后来的深度学习方案(如PaddleOCR)在提取文字时会将文档“压平”,导致表格结构、图注关系及阅读顺序等关键信息丢失,给下游大模型提供半成品数据,易产生幻觉[20][21][22][23] - **ADE方案三大支柱**:新方案基于“视觉优先”策略理解文档布局,采用“以数据为中心”保证精准,并凭借“智能体化”实现主动思考[24] - **核心技术模型**:方案搭载DPT模型,将文档视为整体视觉对象来理解其布局和空间关系[25] - **性能表现**:DPT模型在DocVQA基准测试中取得99.15%的分数,超越人类表现的98.11%[28][29] - **实战能力**:方案展现出强鲁棒性,能精准解析超过1000个单元格的巨型表格、复杂手写微积分公式、带有弯曲印章的证书及纯图示安装说明书[30][31] 技术落地与部署 - **视觉接地技术**:ADE不仅能提取文字,还能为每个数据块分配唯一ID和精确像素坐标,并生成局部截图,实现答案与原始文档位置的可视化对应[32][33] - **云端部署指南**:课程提供在AWS上搭建全自动流水线的实操指南,流程包括将PDF传至S3存储桶,由Lambda自动进行ADE解析,将结构化Markdown存储,再通过Bedrock知识库建索引,最终利用Strands Agents构建具备记忆和推理能力的行业知识助手[34]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-25 12:34
算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]
用视觉压缩文本,清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
36氪· 2025-10-22 07:10
核心技术突破 - 提出名为Glyph的创新框架,通过将长文本渲染为图像,利用视觉语言模型进行处理,实现文本压缩[1] - 该方法摒弃了基于token的序列扩展范式,转向基于视觉上下文扩展的新视角[1] - 在保持与前沿大语言模型相当精度的同时,实现了3-4倍的token压缩,大幅提高内存效率和训练推理速度[3] 技术实现路径 - 框架包含持续预训练、LLM驱动渲染搜索和后训练优化三个主要阶段[8] - 持续预训练阶段将大规模长文本数据渲染为多种视觉风格,构建OCR识别等任务使模型学习视觉形态与语义含义[8] - 采用LLM驱动的遗传搜索算法自动评估不同渲染方案性能,通过多轮迭代收敛到最优渲染策略[9] - 后训练阶段进行监督微调与强化学习优化,并引入OCR辅助任务强化文字识别能力[10] 性能表现 - 在LongBench基准测试中,Glyph平均性能达50.56%,与Qwen3-8B(47.46%)、GLM-4-9B-Chat-1M(49.27%)等主流模型精度相当[14] - 在MRCR基准测试的4-needle任务中平均性能达25.81%,在8-needle任务中达18.14%,多数设置下位于前两名[15] - 相比文本基准模型,推理速度提升4倍,训练速度提升2倍,且优势随上下文长度增加而增强[16] - 在极端压缩场景下(8倍压缩比),有潜力利用128k上下文长度处理百万级上下文任务[17] 应用潜力与行业影响 - 以经典长篇小说《简·爱》(约240k文本token)为例,Glyph将其内容呈现为紧凑图像(约80k视觉token),使128k上下文的VLM能够正确回答需要通篇考虑的问题[3] - 在MMLongBench-Doc文档理解任务上,Glyph总体准确率达45.57%,显著优于原始视觉语言基线GLM-4.1V-9B-Base(29.18%)[20] - 提高token信息密度为长上下文建模提供了新范式,未来大语言模型输入token或将从百万级扩展到千万级[5]
腾讯研究院AI速递 20251022
腾讯研究院· 2025-10-22 00:01
Anthropic产品更新 - 上线网页版Claude Code功能 作为研究预览版向Pro和Max用户开放 支持从浏览器直接委派编程任务并在云端基础设施上运行 [1] - 功能支持并行运行多个编程任务 连接GitHub仓库自动创建PR 每个会话在独立沙盒环境中运行 具备实时进度追踪和安全网络限制 [1] - iOS应用同步开放Claude Code功能 使开发者可随时随地编程 特别适合处理漏洞积压 常规修复或并行开发等任务 [1] - 正式上线Claude生命科学版Claude for Life Sciences 基于Claude Sonnet 4.5打造 在Protocol QA基准获0.83分超越人类基准0.79分 [7] - 新增Benchling BioRender PubMed等科研平台连接器 支持Databricks和Snowflake进行大规模生物信息学分析 [7] - 推出single-cell-rna-qc等专项技能 可胜任文献综述 实验方案生成 生物信息学分析等任务 覆盖从早期发现到成果转化全流程 [7] AI模型技术突破 - 清华与智谱联合推出Glyph框架 将文本信息渲染成图像后用视觉模型处理 实现3-4倍文本压缩率 128K窗口可处理1M tokens文本 [2] - Glyph采用持续预训练 LLM驱动的渲染搜索和后训练三阶段方法 通过遗传算法自动寻找最优渲染配置 性能与Qwen3-8B相当 [2] - DeepSeek开源3B规模DeepSeek-OCR模型 提出"上下文光学压缩"思路将文字信息压缩到图片 压缩率10倍内OCR解码准确率高达97% [8] - 模型采用编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M架构 在OmniDocBench取得新SOTA 仅用100个视觉token超越GOT-OCR2.0 [8] - 单A100-40G GPU每天可生成超20万页训练数据 研究提出用光学压缩模拟人类遗忘机制的思路 为构建无限长上下文架构提供新方向 [8] 行业应用与市场影响 - 马斯克宣布X平台将在未来几周内彻底移除启发式推荐算法 改由Grok通过阅读和观看全部内容自动匹配用户兴趣 成为首个完全抛弃启发式算法的大型社交平台 [3] - 麦肯锡收到OpenAI颁发的Tokens消耗大客户奖牌 意味着大量花费数百万美元购买的战略咨询PPT实际由ChatGPT制作 [6] - 麦肯锡自2023年推出内部AI Lilli以来 超70%的4万名员工日常使用 平台每月响应超50万条问题 但两年内已裁员超5000人约10% [6] - 咨询业入门级职位招聘数量同比暴跌54% 初级岗位"书本知识"被AI复制导致就业率骤降13% AI初创公司正蚕食二线咨询公司市场份额 [6] 企业级AI服务部署 - Adobe发布AI Foundry服务 企业可通过该平台与Adobe合作构建基于自身品牌和知识产权训练的专属生成式AI模型 [4] - 服务基于完全使用授权数据训练的Firefly系列模型提供支持 按使用量而非席位付费 自Firefly上线以来企业用户已生成超250亿个创意资产 [4] - 搜狗输入法推出行业首个电脑端AI陪伴助手"小婉" 基于腾讯混元大模型AI分身打造职场搭子 可随时唤起进行对话交流 [5] - 腾讯视频在《许我耀眼》中推出基于主角的独家AI分身追剧搭子 采用文字回复加语音播报方式 配备主角同款声音营造真实沉浸对话体验 [5] AI发展理论框架 - OpenAI前核心研究员Jason Wei提出三个理解2025年AI发展的核心思想:验证者定律 智能商品化和智能的锯齿状边缘 [9] - 验证者定律包含五个可验证性维度:客观性 验证速度 可批量验证 低噪音和连续反馈 任何可解决且易于验证的任务最终都会被AI攻克 [9] - AI影响最大的是数字任务 对人类来说不难且数据丰富的领域 某些领域如软件开发将极大加速 而非数字任务将保持不变 [9]