Seek .(SKLTY)
搜索文档
DeepSeek昨天开源的新模型,有点邪门
36氪· 2025-10-22 09:00
技术突破与核心优势 - 发布新模型DeepSeek-OCR,其核心创新在于使用图像作为信息的“记忆载体”,而非传统的文字token [5][9] - 该技术实现了极高的信息压缩比,仅用原本十分之一的token即可存储几乎相同的文字信息,在测试中能以100个视觉token超越需要256个token的GOT-OCR 2.0,用不到800个视觉token超越平均需6000+ token的MinerU 2.0 [1][14] - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,包括Tiny(64 token)、Small(100 token)、Base(256 token)、Large(400 token)以及可动态调整的Gundam模式 [17] 数据处理与应用能力 - DeepSeek-OCR不仅能识别和存储文字,还能处理二维信息,例如将论文中的柱状图自动识别为Excel格式,将有机化合物的分子结构图片转化为SMILES格式存储 [18][20] - 该技术能捕获图片位置及其附近文字等过去被忽略的二维信息,为模型训练提供了新的高质量数据来源,在一张A100显卡上一天可采集超过20万页训练数据 [23][24][26][29] - 通过将大量文字转化为图片进行存储,模型能够用更少的计算资源取得更好的表达效果,解决了长上下文对话中计算量随对话长度平方级增长的成本问题 [29][31] 性能表现与效率提升 - 在性能测试中,DeepSeek-OCR使用十分之一的token数量即可达到原模型96.5%的准确率,即使压缩20倍,准确率仍能保持在60%左右 [31] - 模型引入了类似人类记忆的渐进式存储概念,可根据信息重要性动态调整存储清晰度,从高清晰的“Gundam模式”到低清晰的“Tiny模式”,实现资源的优化配置 [33][35][36] - 这种创新的存储方式有望增强大模型的上下文处理能力,通过“主动遗忘”机制区分信息优先级,但该设想尚未有明确结论 [37] 行业影响与开源生态 - 该技术突破解决了行业面临的高质量训练数据匮乏问题,使得过去未被充分利用的二维信息(如论文图表)得以成为新的数据来源 [24][26] - DeepSeek-OCR是一个开源项目,其成果融合了全球开源社区的贡献,包括华为的Wukong数据集、百度的PaddleOCR、Meta的SAM以及OpenAI的CLIP模型 [38] - 该模型的开源特性预计将推动相关技术成为行业研究热点,催生更多创新应用 [38]
10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注
新浪财经· 2025-10-22 07:26
模型发布与核心创新 - DeepSeek于10月20日开源最新大模型DeepSeek-OCR,这是一种通过光学2D映射压缩长上下文的视觉-文本压缩范式[1] - 模型核心创新在于用少量视觉token表示大量文本内容,旨在降低大模型计算开销,例如将1000字文章压缩成100个视觉tokens[1][7][8] - 该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,其中一作作者Haoran Wei曾主导开发GOT-OCR2.0系统[1] 技术架构与性能 - DeepSeek-OCR架构分为两部分:专为高压缩、高分辨率文档处理的DeepEncoder视觉编码器和轻量级混合专家语言解码器DeepSeek3B-MoE[3] - DeepEncoder融合SAM和CLIP两种成熟视觉模型架构,前者擅长局部细节处理,后者能捕获整体知识信息[4] - 实验表明,当压缩比<10×时模型可达97% OCR精度,即使在20×压缩比下精度仍保持约60%,在十倍压缩下识别准确率达96.5%[6][8] 行业影响与专家评价 - 模型发布后获海外科技媒体广泛赞美,被评价为"AI的JPEG时刻",前特斯拉AI总监Andrej Karpathy高度评价该论文[3] - 知名科技媒体《麻省理工科技评论》指出模型具备较强"深度解析"能力,能处理图表、化学分子式等复杂元素,拓展了在金融、科研等专业领域的应用空间[6] - 特斯拉创始人Elon Musk评论认为从长远看,AI模型超过99%的输入和输出都将是光子,没有其他东西可以规模化[4] 应用潜力与生产效率 - 模型初步验证上下文光学压缩可行性,可从少量视觉tokens有效解码超过10倍数量文本tokens,具备大规模生产预训练数据能力[7] - 单张A100-40G GPU每天可生成超过20万页训练数据,为大型语言模型和视觉-语言模型开发提供支持[7] - 模型不仅能识别标准文本,还能将图表转换为表格数据、分子式输出为SMILES格式,展示出在历史长上下文压缩和LLM记忆遗忘机制研究领域的应用前景[6][7]
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 20:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]
谁家AI用一万美元赚翻了?DeepSeek第一 GPT 5垫底
第一财经· 2025-10-21 20:33
比赛概况 - 初创公司Nof1发起名为"Alpha Arena"的真实数字货币投资基准测试[3] - 测试使用真实市场环境,为每个AI模型账户提供1万美元启动资金进行自主交易[3] - 比赛于美东时间10月18日开始,持续两周至11月3日结束[4] - 整个过程实时直播,展示模型交易思路和实时收益排名[3] 参赛模型及当前表现 - 参赛模型包括DeepSeek chat v3.1、Claude Sonnet 4.5、Grok 4、Qwen3 Max、Gemini 2.5 pro、GPT 5六家[4] - 经过4天交易,DeepSeek收益率稳定在10%左右排名第一,其收益率曾一度接近40%,盈利超过4000美元[4] - Claude从第三天第三位上升至第二位,收益水平紧跟DeepSeek[6] - GPT 5目前亏损超过40%,亏损金额超过5900美元[6] - Gemini 2.5亏损超过30%,Qwen3 Max亏损超过13%[6] - Grok 4收益在盈亏线徘徊,交易风格激进波动较大[6] 模型交易风格分析 - DeepSeek交易稳定,策略简单直接,18日开盘即全仓持有,采用10-15倍做多,不换手不止损不止盈[8] - Gemini 2.5被形容交易风格神似散户,策略反复更改,交易次数远高于前几名模型,交易费更高[10] - Grok 4交易风格激进,满仓多个标的,高频跟踪趋势,波动较大不稳定[12] - Claude非常善于分析但下手犹豫,经常调仓失败反复止损[12] - Qwen3 Max每天全仓一个标的,使用20倍杠杆,方向错误便损失惨重[12] AI投资价值评估 - AI最大价值在于克服人类情绪化弱点,给出逻辑清晰方案,具备快速整合分析能力[13] - AI能够快速阅读所有报告并理清关系,但无法预测未来,也不了解市场动态信息和未公开信息[13] - 理性的AI工具与人的智慧结合被认为是最佳组合[13] - 有用户通过专业提示词让AI荐股获得可观收益,前提是用户自身具备筛选标准[12]
深度|DeepSeek-OCR引爆“语言vs像素”之争,Karpathy、马斯克站台“一切终归像素”,视觉派迎来爆发前夜
搜狐财经· 2025-10-21 20:25
技术核心:视觉编码与多分辨率机制 - 通过多分辨率视觉编码机制实现极高信息压缩效率,例如512×512图像仅需64个token,1024×1024图像对应256个token [2] - 采用“粗到细”路径处理复杂版面:整页用1024×1024块全局编码,重点区域再以640×640高分辨率单独处理 [2] - 底层逻辑是将文本渲染成图片后压缩为视觉token,替代传统“按字词切片→文本token”流程,实现从“读”到“看”的转变 [2] - 视觉压缩可将10万token文档折叠至几百个视觉token,显著改善延迟、显存和计算成本 [4] 工程优势与性能表现 - 视觉压缩带来三层直接收益:保全排版/层级结构等文本化易损失的信息、降低Transformer的N²计算复杂度、统一现实世界的混合输入格式 [4] - 项目探索视觉-文本压缩边界,实现10倍近无损压缩,20倍压缩下仍保持约60%准确度 [5] - 社区验证显示A100单卡可日处理约20万页,在吞吐/延迟/成本三角关系中打开新优化空间 [14] 创新概念:光学遗忘曲线 - 首次将“遗忘”引入模型设计逻辑,通过分辨率递减模拟人类记忆衰减:最近信息高分辨率保存,久远信息低分辨率压缩成模糊背景层 [7] - 该机制使上下文从平铺token变为立体时间空间结构,实现分层保留信息,更符合信息洪流时代的记忆方式 [7] - 多分辨率机制与NeurIPS最佳论文《Visual Autoregressive Modeling》的“由粗到细”多尺度预测方式高度相似 [11] 行业范式转变与定位 - 标志从“算力奥运会”向“更聪明喂法”的转变,不再单纯追求参数规模,而是优化输入效率 [3] - 视觉化输入将成为与文本并行的“第二轨”,最佳实践可能是“文-视双通道融合+任务自适应路由” [16] - 产品化贡献值得肯定,将分散研究成果整合为完整工程链路,刺激生态发展但非彻底技术突破 [12] 应用场景与特定优势 - 在复杂混排版面(合同、财报、图表)、跨语言字符体系、安全越狱防护及跨模态迁移场景具备天然优势 [17] - 统一输入为视觉可省去OCR+结构化的中间件环节,优化RAG、会话长期记忆及代码库理解等现实业务 [14] - 像素化输入绕过分词器词表瓶颈,对多语言任务更鲁棒,且字符级绕行在像素域难度更高 [17] 发展挑战与待解决问题 - 面临渲染差异、截图工况、抗压缩噪声等鲁棒性挑战,以及训练数据构建与标注成本问题 [15] - 需配套“任务自适应压缩率”和“局部校对回读”机制,防止有损压缩导致关键信息错误 [19] - 评测体系需从CER/WER升级至“版面-语义-逻辑一致性”指标,并量化“视觉遗忘”的副作用 [19] - 当前仅跑通“输入统一为视觉”半程,“输出视觉化”的终局实现依赖后续工具链与评测体系发展 [16]
谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底
第一财经· 2025-10-21 19:24
活动概览 - 初创公司Nof1发起名为"Alpha Arena"的真实数字货币投资基准测试 让AI模型用真实资金进行自主交易[5] - 活动为每个模型账户提供一万美元启动资金 全程直播交易过程及实时收益排名 并可查看每个模型的交易思路[5] - 活动于美东时间10月18日开始 持续两周 于11月3日结束 参与模型包括DeepSeek chat v3 1 Claude Sonnet 4 5 Grok 4 Qwen3 Max Gemini 2 5 pro GPT 5共六个[5] 初期交易表现 - 截至10月21日(活动第4天) DeepSeek收益率稳定在10%左右 排名第一 其收益率曾一度接近40% 盈利超过4000美元[5][7] - Claude从最初的第3位上升至第2位 收益水平紧跟DeepSeek[7] - Grok 4收益曾一度接近DeepSeek排名第2 但其交易风格激进 随大盘下跌后收益在盈亏线徘徊[7] - Gemini 2 5 pro亏损曾超过30% GPT 5当前亏损已超过40% 亏损金额超过5900美元 Qwen3 Max亏损超过13% 大部分时间在盈亏线以下[7] 模型交易风格分析 - DeepSeek交易稳定 策略简单直接 在18日开盘时即全仓持有 使用10-15倍做多杠杆 不换手 不止损 不止盈 其稳定表现被归因于母公司幻方是量化机构[9] - Gemini 2 5 pro被调侃交易风格神似散户 策略反复更改 交易次数远高于前几名模型 交易费更高[11] - Grok 4交易风格激进 满仓多个标的 高频跟踪趋势 导致波动较大[13] - Claude非常善于分析但下手犹豫 经常调仓失败 反复止损[13] - Qwen3 Max每天"All in"一个标的 使用20倍杠杆 方向错误便损失惨重[13] 行业观点 - AI在投资中的最大价值在于克服人类情绪化弱点 提供逻辑清晰的方案 并具备快速整合分析能力 如快速读完所有报告并理清理关系[14] - AI的底层逻辑是归纳 总结和复现人类社会中已有信息 并不涉及任何对未来的预测 也不了解当下市场的动态信息及未公开信息[13][14] - 市场并非单纯的数字游戏 理性的工具与人的智慧结合被认为是最佳组合[14]
DeepSeek-OCR横空出世,3B参数量开启OCR新“视界”!科创人工智能ETF华夏(589010) 早盘活跃,AI主题热度延续
每日经济新闻· 2025-10-21 15:36
科创人工智能ETF市场表现 - 截至9:47,科创人工智能ETF(589010)早盘报1.389元,较昨日收盘上涨0.94% [1] - ETF开盘报1.392元后快速回落,在1.38元附近获得支撑,呈现“V”形反弹格局 [1] - 开盘不到20分钟成交额已达1.9亿元,市场交投活跃 [1] - 持仓股中上涨家数达26只,占比超八成,威胜信息、合合信息、恒玄科技领涨 [1] - 近五日ETF持续净流入,反映科创AI主题持续受到市场关注 [1] DeepSeek-OCR技术创新 - DeepSeek-AI团队发布新论文,提出利用视觉模态压缩长文本上下文的新方法 [2] - 开源模型DeepSeek-OCR参数量为3B,由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成 [2] - DeepEncoder专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比 [2] - 当文本token数量不超过视觉token的10倍时,模型OCR精度可达97% [2] - 即便压缩比提高到20倍,准确率仍保持约60%,在历史文档压缩和LLM记忆机制研究中展现潜力 [2] 人工智能行业前景与投资价值 - 本轮人工智能浪潮由DeepSeek等技术创新驱动,具备坚实产业价值基础 [3] - DeepSeek具备高性能、低成本、蒸馏有效、开源等核心优势 [3] - DeepSeek提出多项算法创新,打破了海外算力堆砌的传统大模型提升路径 [3] - 中国在AI领域已具备与全球顶尖水平竞争的实力,可能引发全球投资者对中国科技资产重新估值 [3] - 科创人工智能ETF紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业,兼具高研发投入与政策红利支持 [3]
文本已死,视觉当立,Karpathy狂赞DeepSeek新模型,终结分词器时代
36氪· 2025-10-21 15:22
技术突破 - DeepSeek-OCR模型从根本上改变文本处理范式,将视觉输入作为核心,文本不再作为通用输入方式[1] - 模型在单卡A100-40G上实现每秒约2500 Token的处理速度,在保持97% OCR准确率前提下将视觉上下文压缩至原来的1/20,常规使用下压缩比小于1/10[3] - 在OmniDocBench基准测试中超越GOT-OCR2.0和MinerU2.0表现,实现最多60倍压缩,整页文本仅需100个视觉Token[5] 性能优势 - 模型具有参数少、压缩率高、速度快的特点,支持100种语言,兼具理论价值和实用性强[7] - 通过像素处理文本实现更高信息压缩率,带来更短上下文窗口和更高效率,同时增强信息流通用性,可处理粗体、彩色文本及任意图像[15] - 输入可采用双向注意力机制处理,相比自回归注意力更强大,实现光学文字识别的工程学突破[3][15] 行业影响 - GitHub开源项目一夜收获4.4k星,证明实体页面(如缩微胶片、书籍)是训练AI模型的更优数据源,而非低质量互联网文本[10][11] - 特斯拉前AI总监Karpathy力挺该技术,认为像素输入优于文本输入,可能动摇文本在AI中的核心地位,视觉或再次成为主流[12][14] - 技术展望显示OCR只是视觉到文本应用的一种,文本到文本任务可改造为视觉到文本任务,用户输入可以是图像而解码器响应保持文本[17] 技术前景 - Karpathy提出可能所有大语言模型输入都应该是图像,即使纯文本也应先渲染成图像再处理,这将带来输入方式的根本性变革[15] - 马斯克预测长期来看AI模型超过99%的输入和输出将是光子,基于可观测宇宙中光子总数达1.5×10⁸⁹的规模优势[25][27] - 该技术被视为光学认知的开端,网友呼吁开发仅使用图像输入的nanochat,认为像素时代关乎感知而不仅是压缩[19][20] 研发团队 - 论文作者包括Haoran Wei、Yaofeng Sun、Yukun Li,其中一作Haoran Wei曾是GitHub 7.9k星项目GOT-OCR2.0的一作[28][30] - 团队成员参与过DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2等多个重要模型研发,具有丰富经验[35][43] - 团队成员学术背景强劲,Haoran Wei本科毕业于北京大学图灵班,曾获得ACM-ICPC亚洲区域赛金牌和全国信息学奥林匹克竞赛金牌[41]
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
36氪· 2025-10-21 12:12
模型技术突破 - 新模型采用视觉方式处理文本输入,将1000字文章压缩为100个视觉token,实现10倍压缩比且精度达97% [1] - 单块英伟达A100每天可处理20万页数据,显著提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,原本需10000单词的文本现仅需约1500个视觉token即可完整表示 [8] 行业范式转变潜力 - 技术路径从“读”文本转变为“看”文本,可能引发大模型基础范式的重大转变 [1] - 该方法使双向注意力处理输入成为可能,功能比自回归注意力更强大 [6] - 移除输入端的分词器,解决分词器带来的Unicode编码历史包袱及安全越狱风险 [6] 社区反响与应用前景 - 项目在GitHub上一晚收获超过4000个Star,受到AI社区广泛关注 [1] - 研究者认为该技术可与稀疏注意力机制结合,极大扩展模型有效上下文长度至千万token级别 [9][10] - 潜在应用包括将公司全部内部文档或整个代码库存入提示词前缀,实现快速经济查询 [10][11] 技术渊源与对比 - 类似思想早在2022年哥本哈根大学论文《Language Modelling with Pixels》中就已提出 [14] - 研究者推测谷歌Gemini模型巨大上下文窗口及优异OCR表现可能源于类似技术 [10] - 与传统多模态模型相比,新方法使视觉token从“外挂”功能转变为更基础的表示形式 [7]
DeepSeek开源新模型;苹果iPhone 17销售火热
21世纪经济报道· 2025-10-21 11:22
AI技术发展 - DeepSeek团队开源OCR模型DeepSeek-OCR,可在单块A100-40G显卡上每天生成超过20万页训练数据[2] - 阿里夸克秘密开展"C计划"布局对话式AI应用,近日将有首个成果落地[6] - IBM与美国AI公司Groq合作,为客户提供高速AI推理功能[7] 消费电子与电商表现 - iPhone 17系列在中国和美国市场早期销售强劲,销量比iPhone 16系列高出14%,iPhone 17基本款在中国销量几乎翻了一番,苹果股价创历史新高,总市值达3.89万亿美元[3] - 京东"双11"阶段性战报显示超5.2万个品牌成交额同比增长超300%,超3300个品类成交额同比增长超100%,AI相关产品成交额同比增速近200%[4] - 抖音电商"双11"第一阶段超4.1万商家直播销售额同比增长500%,店播销售额破亿元商家数量同比增长900%[5] 半导体与硬件进展 - 三星加紧推进HBM4研发,计划于10月27日至31日发布第六代12层HBM4[9] - 美光科技首席商务官预计到2026年DRAM市场仍将保持极度紧张[9] - 微软下一代AI芯片Maia 2或由英特尔代工,计划采用18A或18A-P制程[10] 企业财报表现 - 宁德时代第三季度净利润185.5亿元,同比增长41.21%[11] - 中国移动前三季度净利润1154亿元,同比增长4%,移动客户数10.09亿户,其中5G网络客户数6.22亿户[12] - 科大讯飞第三季度净利润1.72亿元,同比增长202.40%[13] 机器人与智能设备 - 宇树科技发布H2仿生人形机器人,身高180cm,重70kg[15] - 百度将在下月正式推出小度AI眼镜,计划于今年年内开售[16] - 前三季度规模以上高技术制造业中,智能无人机飞行器制造增加值增长59.9%,智能车载设备制造增加值增长25.1%[8] 数字经济发展 - 前三季度规模以上数字产品制造业增加值同比增长9.7%,信息传输软件和信息技术服务业增加值增长11.2%[8] - 服务器产量同比增长11.5%,大模型应用带动企业算力需求增加[8] - 蚂蚁未来(海南)信息技术有限公司注册资本由1000万人民币增至35亿人民币,增幅34900%[14]