Workflow
DeepSeek OCR
icon
搜索文档
中国银行原行长李礼辉:智能金融治理应该刚柔并济,洞察、支持、引导创新
新浪财经· 2025-12-19 10:01
文章核心观点 中国银行原行长李礼辉在第二十二届中国国际金融论坛上指出,构建数字经济时代的智能金融生态是金融业发展的核心方向,其基石在于“可信任”[1][4] 智能金融创新并非简单地为传统流程披上智能化外衣,而是需要从根本上改革体制、重构流程、再造底层系统[6][18] 同时,监管应刚柔并济,在支持创新的同时有效管理风险[6][18] 金融模型:可靠性与经济性 - AI技术正从单模态向多模态迭代,最新大模型具备文本、视觉、语音多模态组合的感知、理解与交互能力,能直接为金融业创造商业价值,例如实现拟人化交互和精确的非结构化数据处理[3][21] 具体案例显示,DeepSeek OCR可将文本token数量压缩至**10%**,能精确识别金融票据、报告和合同[3][21] - 生成式AI的算法创新并未消解人工智能潜在的安全风险和技术缺陷,包括数据投毒、参数窃取等安全风险,以及模型幻觉、模型歧视、算法共振、隐私泄露等技术缺陷[4][22] 金融行业对安全性和可信度要求近乎苛刻,必须保证资产、数据、交易和服务的安全可靠[4][22] - 中短期内,智能金融创新对金融模型有三点核心要求:**高可靠性**(需配置先进安全工具,在不同应用场景中克制模型幻觉、避免歧视、防止算法共振、达成零误差等)[5][23];**可解释性**(需展现完整推理路径和逻辑,实现过程可解释)[5][23];**经济性**(通过预训练行业级模型再定制企业级模型,以降低边际成本,提高投入产出比)[5][23] 金融智能体:AI替代与法律地位 - AI技术正从助理(AI-Assistant)向代理(AI-Agent)迭代,最新的具身智能体(AI-Agent)集成了神经网络、知识工程和控制论技术,具备感知、学习、交互、行动和决策的代理能力[7][26] - 金融智能体(Financial-Agent)依托行业最佳流程和数据,已开始在高价值领域(如市场分析、投资顾问、量化交易、内部审计)部署,替代人类员工的部分岗位,且替代趋势正从劳动密集型岗位延伸至知识密集型岗位[8][26] 例如,百度的数字信贷经理智能体将尽职调查报告撰写时长从**1天减少到1小时**,数据准确性超过**98%**[8][26] 有金融高管认为智能投资顾问可能替代**60%以上**的投资顾问岗位[8][26] - 深度智能化将改变金融业人力资源结构:更多经营管理岗位需要懂AI的复合型人才;更多专业/技术性岗位将被金融智能体替代;更多操作性/劳动密集型岗位将外包给数字化服务企业[8][27] 这要求金融业的人力资源管理观念、制度以及高校人才培养方向都必须转变[9][27] - 必须加快制度创新以确定金融智能体的法律地位,包括明确其行为边界、与客户的法理关系、金融机构管理者的决策责任,并建立评估审核制度[9][27] 数据共享:数量与质量 - 金融是数据密集型行业,数据质量和数量决定智能金融的实际能力[10][28] 当前全国数据共享存在三大短板:公共数据局部行政分割;非公共数据(如超过**9亿**移动支付用户产生的数据)流通不畅;行为数据集开发应用不足[10][28] - 为扩大数据数量并提高质量,需从三方面着力:一是推动公共数据开放共享,按照“原始数据不出域、数据可用不可见”原则,以模型、核验等形式提供服务,打破数据孤岛,例如浙江、福建、深圳等地已建立数据共享平台[10][29];二是推动非公共数据共同使用,通过技术创新(如匿名化处理)保护隐私,并建立金融机构与互联网平台等“数据大户”的市场化数据分享机制[11][29];三是建设专业化的产业数字金融数据库,需涵盖足够数量、结构完整、质量达标、统计准确、专业细分的多维度数据,并建立集中统一、互联互通的数据应用系统[11][30] 据悉,一家互联网大厂正策划牵头兴建金融业一体化数据库[11][30] AI竞争:硬实力与软算力 - AI竞争集中表现为算力竞争,主要是中美之间的国家级及企业级竞争[12][31] **硬算力是基础,软算力更高效**[13][32] 据非权威数据,**2024年底**中国算力规模约占全球**26%**,美国约占**37%**[13][32] 美国启动“星际之门”计划,未来**4年**计划投资**5000亿美元**用于AI基建;中国则选择硬软算力并行,投资**1万亿元**用于AI基建[13][32] - 中国在软算力方面取得突破,例如深度求索发布的**DeepSeek-V3**通过算法创新节约资源,其性能与**GPT-4o**不分伯仲但训练成本更低[13][32] **DeepSeek V3.2**通过稀疏注意力(DSA)机制使API价格降低**50%以上**[13][32] - 技术有政治边界,市场有价值边界[14][33] 美国对中国封锁高端芯片和光刻机技术,并将DeepSeek模型定义为“对手AI”,企图构建去中国化的AI围城[14][33] 中国的优势在于全球最大的制造业、服务业数字技术市场需求和应用场景[15][33] - **私权鼓励创新,平权促进普惠**[16][34] DeepSeek采用开源模式打破了最先进大模型闭源的格局[16][34] 技术平权有利于AI普惠,但需注意外国开源软件的技术绑定和断桥风险[16][34] 本土模型开源(如阿里**9月23日**发布的开源模型Qwen3-Omni,支持**119种**文本语言)有利于中国AI产业的自主性与普惠性发展[16][34]
精读DeepSeek OCR论文,我远远看到了「世界模型」的轮廓
钛媒体APP· 2025-10-27 10:34
技术性能对比 - DeepSeek OCR模型参数为30亿,在数学公式展开案例中未能识别出“极坐标”,且表格结构识别错误[2] - 参数规模仅9亿的PaddleOCR-VL模型在相同案例中表现优于DeepSeek OCR[2] - 在OCR模型综合性能排名中,DeepSeek-OCR-Gundam-M模型总体得分86.46,低于PaddleOCR-VL的92.56分[2] 技术创新与核心价值 - DeepSeek OCR的核心是DeepEncoder编码器,使用视觉Token对输入上下文信息进行编码,实现了9-10倍文本压缩下96%以上的OCR解码精度,10-12倍压缩下约90%的精度,20倍压缩下仍保持约60%的精度[10] - 该技术实现了连续可调的压缩率,可在压缩率和识别精度之间进行平滑权衡[11] - 模型提出类生物遗忘机制的压缩策略,近期上下文保持高分辨率,远期上下文逐步降低分辨率,模拟人类记忆的自然衰减[12] - 研究探索了解码N个文本Token需要多少个视觉Token的核心问题,证明了AI可以仅用100个视觉Token高精度解压缩出包含1000个文本Token的原文内容,且无需文本分词过程[17] 战略意义与行业影响 - DeepSeek OCR的深层价值在于探索“连续视觉表征压缩”,其研究方向隐隐指向终极追求——“世界模型”[6] - 该技术将大模型的前沿焦点从离散的语言Token重新转向连续视觉表征的视觉Token[6] - 论文证明了AI的主要信息入口可以从语言转向视觉,这种转变效率更高且更符合生物特性[20] - Vision→Text的任务空间完全包含了Text→Text的任务空间,任何文本都可以无损渲染成图像,这种不对称性暗示了将所有输入统一为视觉模态的激进方向[21] - 这一范式为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供了全新思路[22] 实际应用价值 - DeepSeek-OCR具备大规模预训练数据生产能力,可作为大语言模型训练过程中不可或缺的助手,每天可生成数千万页级别的训练数据,显著提升了多模态数据构建效率[15]
计算机行业周报 20251020-20251024:DeepSeek OCR 提供新思路!量子计算中美多热点解读!-20251025
申万宏源证券· 2025-10-25 22:05
行业投资评级与核心观点 - 报告未明确给出整体行业的投资评级 [6] - 核心观点聚焦于人工智能技术突破与量子计算发展两大主线:DeepSeek OCR发布为长上下文处理提供新思路,量子计算作为全球科技竞争焦点多技术路线快速推进 [6][7] DeepSeek OCR技术突破 - DeepSeek于2025年10月20日开源新模型DeepSeek OCR,通过光学压缩方式解决LLM处理长文本的计算量挑战 [8] - 核心技术采用创新性的光学上下文压缩,将文本内容渲染为图像并通过视觉编码器压缩为少量视觉token,实现文本信息高效压缩 [9] - 实验证明压缩比小于10倍时OCR解码精度可达97%,在OminiDocBench基准测试中使用更少量视觉tokens达到领先性能 [10] - 模型架构采用DeepEncoder编码器和DeepSeek-3B-MoE解码器,总参数量3B(激活参数570M),实现高压缩比和高推理效率 [12] - 处理效率大幅提升,将计算复杂度从O(n²)降至O(n),单张A100-40G GPU每日可支持20万页数据处理 [15] - 该技术对金融、医疗、法律、教育、科研等需要处理超长文档的场景具有重大意义,能高效解析图表、化学公式、几何图形等近100种语言 [16] 量子计算全球竞争态势 - 量子计算成为全球科技必争之地,各国通过战略规划与资本投入展开激烈角逐,2023年以来竞争加速 [17][18] - 全球量子计算专利技术来源国分布:美国49.34%,中国24.36%,欧洲9.67%,日本5.20%,呈现中美主导格局 [19] - 美国政府2024年通过能源部量子领导法案,计划5年投资约25亿美元,并在2026财年《国防授权法案》审议期间提出11项量子信息科学修正案 [22][23] - 中国“十五五”规划将量子科技列为新经济增长点,前瞻布局未来产业 [23] - 技术路线呈现多元化发展,超导和离子阱是当前商业化成熟度最高的两条路线,同时硅基半导体、拓扑等多种路线并行发展 [24][25] - 产业突破不断:IONQ实现99.99%双量子比特门保真度,谷歌Willow芯片运行“量子回声”算法速度超经典超算13000倍,IBM Condor芯片达1121量子比特 [27][29][30] 重点公司业绩更新 - 同花顺2025年第三季度实现收入14.8亿元,同比增长56.7%,归母净利润7亿元,同比增长144.5%,收入利润双超预期 [32] - 同花顺截至25Q3末合同负债达25.19亿元,前三季度经营现金流净额21.96亿元,同比增长235.3%,显示后续收入增长弹性 [32][33] - 科大讯飞2025年第三季度实现收入60.8亿元,同比增长10.02%,归母净利润1.7亿元,同比增长202.40%,利润超预期 [34] - 科大讯飞25Q1-Q3大模型相关中标金额和数量排名第一,Q3中标金额5.45亿元,新增开发者数量超122万,其中大模型开发者新增69万 [35] 投资标的梳理 - AIGC应用标的包括金山办公、万兴科技、科大讯飞、同花顺等16家公司 [6] - 数字经济领军标的包括海康威视、金山办公、恒生电子、中控技术等12家公司 [6] - 信创&数据标的包括海光信息、软通动力、索辰科技、太极股份等8家公司 [6] - AIGC算力标的包括浪潮信息、海光信息、神州数码、中科曙光等公司 [6] - 估值方面,金山办公2025年预测PE为76倍,海康威视22倍,恒生电子50倍,中控技术35倍,反映市场对不同赛道公司的估值差异 [40]
计算机行业周报:DeepSeekOCR提供新思路!量子计算中美多热点解读-20251025
申万宏源证券· 2025-10-25 21:07
行业投资评级 - 报告对计算机行业投资评级为“看好” [3] 核心观点 - 本周周报要点包括:DeepSeek OCR发布提供长上下文新思路;量子计算作为全球科技新领域多技术路线快速推进;重点公司同花顺、科大讯飞业绩更新 [6][7] DeepSeek OCR技术突破 - DeepSeek OCR通过光学上下文压缩创新解决LLM处理长文本的计算量挑战 [8] - 核心技术采用光学压缩将文本渲染为图像通过视觉编码器压缩为少量视觉token实现高效压缩 [9] - 实验证明压缩比<10倍时OCR解码精度可达97%单张A100-40G GPU每日支持20万页数据处理 [6][10][16] - 创新模型架构设计实现高压缩比和MoE架构编码器采用三级串联解码器基于MoE架构总参数量3B激活参数570M [12] - 通过视觉token压缩文本将计算复杂度从O(n²)降至O(n)缓解计算瓶颈 [16] DeepSeek OCR行业影响 - 有限资源条件下突破长上下文处理瓶颈问题解决计算复杂度及内存瓶颈 [18] - 重新定义VLM功能定位推动视觉优先成为LLM处理长上下文主流方案 [18] - Agent智能体可能加速发展过去基于GUI方式的智能体效果欠佳新方案带来变化 [18] - 应用层面能高效处理超长文档包括图表化学公式几何图形等近100种语言对金融法律医疗教育科研等场景具重大意义 [18] 量子计算全球竞争态势 - 量子计算被视为全球科技战略制高点各国通过国家战略与资本投入展开角逐 [19] - 2023年起全球量子竞争加速各国出台投资支持方案呈现中美主导其他国家加速追赶态势 [20] - 全球各国量子领域投资计划规模显著英国10年投资约12.15亿美元加拿大7年投资约3.6亿美元英国未来10年投资31.8亿美元澳大利亚2030年前投资6.4亿美元等 [20] - 中国“十五五”规划将量子科技列为新经济增长点前瞻布局未来产业 [25] 量子计算技术路线与产业进展 - 量子计算多技术路线并行发展超导和离子阱是当前商业化成熟度最高路线硅基半导体拓扑等多种路线并行发展 [27] - 全球企业在超导光量子离子阱等路线频频突破IONQ实现99.99%双量子比特门保真度谷歌量子计算机运算速度超经典超算13000倍 [28][31][33] - 量子计算处于NISQ阶段从实验室研究向产业化探索过渡硬件尚未完全成熟“量子-经典混合计算”为当前最实用方案 [25][27] - 国内企业进展包括国盾量子推出祖冲之三号超导量子计算机105量子比特本源量子推出本源悟空72量子比特超导等 [29] 量子计算资本市场动态 - 国内量子企业资本市场动作加速国仪量子提交IPO辅导工作完成报告本源量子开始IPO辅导 [34] - 尽管技术处于产业发展初期未大规模商业化但各国支持力度加大产业突破加速相关投资机会值得关注 [34] 重点公司业绩更新 - 同花顺2025Q1-3实现收入32.6亿元同比+39.7%归母净利润12.1亿元同比+85.3%单Q3收入14.8亿元同比+56.7%净利润7亿元同比+144.5%收入利润均超预期 [35] - 同花顺合同负债高增截至25Q3末达25.19亿元显示后续收入增长弹性经营现金流净额21.96亿元同比+235.3%现金流领先净利润 [35][37] - 科大讯飞2025Q3收入60.8亿元同比+10.02%归母净利润1.7亿元同比+202.40%利润超预期毛利率稳定40.38% [38] - 科大讯飞大模型中标金额和数量保持领先25Q1-Q3中标金额5.45亿元新增开发者数量超122万其中大模型开发者新增69万 [39] 行业重点标的推荐 - AIGC应用标的包括金山办公、鼎捷数智、万兴科技、道通科技、虹软科技、新致软件、中科创达、润达医疗、福昕软件、萤石网络、汉得信息 [6][41] - 数字经济领军标的包括海康威视、金山办公、恒生电子、中控技术、德赛西威、启明星辰、科大讯飞、华大九天、同花顺、金蝶国际、大华股份、新大陆 [6][40] - AIGC算力标的包括浪潮信息、海光信息、神州数码、中科曙光等 [6][41] - 信创&数据标的包括海光信息、软通动力、索辰科技、博思软件、能科科技、纳思达、太极股份、中国软件国际 [6]
DeepSeek OCR:醉翁之意不在酒
Founder Park· 2025-10-21 15:46
DeepSeek-OCR模型的技术特点 - 模型采用新颖思路,将文字当作图片处理和压缩,作为一个超级高效的“视觉压缩器”[7] - 能够将一篇1000字的文章压缩成100个视觉token,实现十倍压缩,识别准确率达到96.5%[7] - 提供多个分辨率选项,512 x 512图片仅需64个token,1024 x 1024图片需256个token,复杂版面组合使用多种分辨率[13] 行业专家评价与定位 - Karpathy认为未来所有输入大模型的信息都应该是图像形式,哪怕是纯文本也应先渲染成图片再喂给模型[7][11] - 模型性能和思路在学术界不算是重大突破,但产品化贡献值得肯定[13] - 研究思路可能受到字节跳动NeurIPS最佳论文和豆包团队论文启发,DeepSeek团队擅长将实验室研究成果进一步做扎实并产品化[14] 潜在应用方向与发展前景 - 该技术有望优化图文表混排场景处理,大量网页、文档、SaaS软件Dashboard和PPT都包含有效视觉信息,强行转文本会导致信息损失[15] - 如果技术成熟,将推动业界对图文表混排场景优化的研究热潮,提升效果并降低成本[15] - DeepSeek团队提出的用分辨率模拟遗忘机制的假想存在争议,可能更适合描述为“高度近视”而非有效遗忘机制[15]