Seek .(SKLTY)
搜索文档
突破新领域 深度求索发布文字识别模型DeepSeek-OCR
新京报· 2025-10-21 11:11
公司动态 - DeepSeek于北京时间10月20日在开源社区Hugging Face上发布了新模型DeepSeek-OCR [1] - OCR模型是一种用来从图像中提取文本的技术 [1] - 公司还上传了与该模型相关的论文 [3] 技术性能 - 当文本标记数量在视觉标记数量的10倍以内时,模型可以达到97%的解码精度 [3] - 在20倍的压缩比下,OCR准确率仍能保持在约60%的水平 [3] 研究意义 - 该模型被描述为一项关于通过光学二维映射来压缩长上下文可行性的初步研究 [3] - 实验结果表明,该技术对于长上下文压缩、大语言模型中的记忆遗忘机制等研究领域展现了相当大的潜力 [3]
智能早报丨美国一实验室测试AI炒币,DeepSeek暂列榜首;荷兰寻求与中方化解安世僵局
观察者网· 2025-10-21 10:14
AI模型交易能力测试 - 美国nof1ai实验室举办Alpha Arena活动给予6个顶级AI模型各1万美元实盘交易加密货币DeepSeek大部分时间排名第一收益率约40%持仓总市值接近14万美元最高时一度接近15万美元[1][3] - Grok 4凭借激进风格偶尔能反超DeepSeek咬得很近Claude分析到位但有拖延症Gemini 25 Pro深度套牢一路向下[1] - 测试环境完全公平每个模型独立交易面对相同提示词一致市场条件和时间戳非模拟盘[1] 半导体行业动态 - 荷兰寻求与中方会面商讨解决安世半导体僵局事件已上升至最高层级讨论荷兰外交官正积极斡旋经济事务大臣几日内将与中方主管官员会面[4][5] - 荷兰政府表示此次行动是为防止安世前中国籍CEO将业务及知识产权转移出欧洲中国汽车制造商同样需要安世半导体芯片[5] - 僵局源于美国9月29日发布穿透规则荷兰以行政手段直接介入安世内部业务全球架构受冲击中国区员工被停薪系统权限中断[5] 科技公司AI业务进展 - 阿里夸克内部秘密推进C计划AI业务与对话式AI应用布局相关由夸克核心团队主导通义实验室高级别成员参与即将有首成果落地[6] - C计划代号可能代表Chat即全新对话形态或取自吃豆人寓意目标直指字节跳动豆包产品[6] - DeepSeekAI团队开源DeepSeekOCR模型参数量3B利用视觉模态压缩长文本上下文压缩比20×时OCR精度仍保持约60%[7] 上市公司业绩与表现 - 苹果股价涨近4%创历史新高总市值升至389万亿美元成为美国第二大市值公司仅次于英伟达[8] - 科大讯飞第三季度净利润172亿元同比增长20240%营业收入6078亿元同比增长1002%前三季度营业收入16989亿元同比增长1441%[9] - 热门中概股集体走强爱奇艺涨超8%蔚来涨超4%阿里巴巴网易涨超3%京东拼多多涨超2%哔哩哔哩百度涨超1%[8] 医疗科技突破 - 脑机接口公司Science Corporation通过视网膜下微芯片植入物PRIMA使失明患者产生人工视觉可阅读文本和做填字游戏[10] - 芯片利用眼镜上摄像头信号发射脉冲电流绕过因黄斑变性受损的感光细胞黄斑变性是老年人视力下降主要原因研究成果发表于《新英格兰医学杂志》[10]
智能早报丨DeepSeek暂列AI炒币之王;荷兰寻求与中方化解安世僵局
观察者网· 2025-10-21 10:02
AI模型实盘交易测试 - 美国nof1ai实验室举办Alpha Arena活动让六个顶级AI模型使用1万美元实盘自主交易加密货币[1] - 参赛模型包括GPT-5 Claude Sonnet 45 DeepSeek Chat V31 Gemini 25 Pro Grok 4 Qwen3 Max在相同条件下进行公平竞争[1] - DeepSeek表现最佳持仓总市值接近14万美元收益率约40%最高时一度接近15万美元[4] - 几天内各模型拉开差距DeepSeek大部分时间排名第一Grok 4凭借激进风格偶尔反超Claude分析理性但行动迟缓Gemini 25 Pro深度套牢表现最差[2] 半导体行业动态 - 荷兰寻求与中方会面商讨解决安世半导体僵局事件已上升至最高层级讨论[5] - 荷兰经济事务大臣表示行动目的是防止安世前中国籍CEO将业务及知识产权转移出欧洲[5] - 僵局源于美国9月29日发布的穿透规则荷兰政府以行政手段介入安世半导体内部事务导致中国区员工被停薪系统权限中断[5] 中国企业AI布局 - 阿里夸克内部秘密推进C计划与对话式AI应用布局相关通义实验室高级别成员参与近日将有首个成果落地[6] - C计划可能代表Chat或取自吃豆人游戏寓意对标字节跳动豆包产品[6] - DeepSeek团队开源新模型DeepSeek-OCR参数量3B利用视觉模态压缩长文本上下文压缩比20×时OCR准确率仍保持约60%[7] 科技公司业绩与市值 - 苹果股价创历史新高涨近4%总市值升至389万亿美元成为美国第二大市值公司仅次于英伟达[8] - 美股大型科技股普涨奈飞涨超3%英特尔Meta涨超2%特斯拉谷歌亚马逊涨超1%英伟达小幅下跌[8] - 热门中概股集体走强爱奇艺涨超8%蔚来涨超4%阿里巴巴网易涨超3%京东拼多多涨超2%[8] - 科大讯飞第三季度净利润172亿元同比增长20240%营业收入6078亿元同比增长1002%[9] 医疗科技突破 - 脑机接口公司Science Corporation通过视网膜下微芯片植入物PRIMA使失明患者恢复视力可阅读文本和做填字游戏[10] - 该芯片利用眼镜上摄像头发出的信号发射脉冲电流绕过因黄斑变性而受损的感光细胞研究成果发表于《新英格兰医学杂志》[10]
赚钱,DeepSeek果然第一,全球六大顶级AI实盘厮杀,人手1万刀开局
36氪· 2025-10-21 09:35
实验概述 - 由nof1ai发起的Alpha Arena实验旨在将顶级大语言模型置于真实金融市场进行交易能力测试 [1] - 实验为每个模型提供10000美元初始资金在相同市场数据和交易指令下进行实盘交易 [4] - 参与模型包括OpenAI GPT-5、谷歌Gemini 25 Pro、Anthropic Claude 45 Sonnet、xAI Grok 4、阿里Qwen3 Max和DeepSeek V31 Chat [3] 最终排名与业绩 - DeepSeek V31以账户价值13677美元排名第一实现3677美元盈利回报率达3677% [6] - Grok 4以账户价值13168美元排名第二实现3168美元盈利回报率达3168% [6] - Claude Sonnet 45以账户价值11861美元排名第三实现1861美元盈利回报率达1861% [6] - Qwen3 Max以账户价值10749美元排名第四实现74922美元盈利回报率达749% [6] - GPT-5以账户价值7491美元排名第五亏损2509美元回报率为-2509% [6] - Gemini 25 Pro以账户价值6787美元排名第六亏损3213美元回报率为-3213% [6] 交易行为分析 - Gemini 25 Pro交易次数达45次远高于其他模型但亏损最为严重 [6][43] - GPT-5交易次数为10次Qwen3 Max交易6次DeepSeek交易5次Claude交易3次Grok仅交易1次 [41][42] - 高交易频率并未带来更好业绩显示过度交易可能导致亏损 [43] 持仓策略分析 - DeepSeek V31采用多元化持仓策略同时持有XRP、DOGE、BTC、ETH、SOL、BNB等多种加密货币杠杆倍数在10-15倍之间 [15] - Grok 4持仓结构与DeepSeek类似但包含空头XRP仓位显示不同风险偏好 [15] - Qwen3 Max专注于BTC单币种持仓采用5倍杠杆可用现金仅11699美元 [19] 市场表现动态 - DeepSeek V31和Grok-4初期出现亏损后迅速反弹并持续上涨 [32] - Claude Sonnet 45前期稳定19日晚出现小高峰但20日清晨回落 [34] - GPT-5和Gemini 25 Pro初期上涨后持续下跌GPT-5在20日凌晨企稳而Gemini继续下跌 [36][37] - 20日中午除GPT-5外所有模型均迎来上涨DeepSeek和Grok创历史新高 [39][40] 行业意义 - 金融市场被视为智能的终极试金石相比传统静态基准更能体现实时决策能力 [44][45] - 该实验代表从游戏环境测试向真实世界应用的重要转变类似DeepMind通过游戏推动AI发展的理念 [46] - 市场作为由信息和情感构成的生命系统为AI提供了近乎无限的训练数据环境 [46]
重磅,DeepSeek再开源:视觉即压缩,100个token干翻7000个
36氪· 2025-10-21 09:35
模型核心创新 - 提出“上下文光学压缩”新范式,通过少量视觉token解码出超过其数量10倍的文本信息,实现高比例信息压缩 [1] - 采用端到端视觉语言模型架构,在OCR任务上建立视觉与文本表征间的压缩-解压缩映射关系 [2] - 该技术为解决大语言模型的长上下文问题提供了高效方案,在不同历史上下文阶段可减少7–20倍token使用量 [16] 模型架构设计 - 编码器采用创新的DeepEncoder架构,参数量约3.8亿,由8000万参数的SAM-base和3亿参数的CLIP-large串联构成 [23][24] - 编码器通过2层卷积模块实现16倍下采样,将4096个patch token压缩至256个视觉token [26][27] - 解码器使用DeepSeek-3B-MoE,推理时激活6个路由专家和2个共享专家,总计激活约5.7亿参数 [34][36] - 支持多种分辨率输入模式,包括Tiny(512)、Small(640)、Base(1024)、Large(1280)及动态分辨率组合 [29][33] 性能表现与基准测试 - 在Fox基准测试中,使用64个视觉token可实现10.5倍压缩比且精度达96.5%,使用100个视觉token可实现6.7倍压缩比且精度达98.5% [37] - 在OmniDocBench基准上,仅用100个视觉token即超越GOT-OCR2.0,用不到800个视觉token表现优于需要6000+token的MinerU2.0 [2][44] - 对于书籍和报告类文档,仅需100个视觉token即可达到良好性能,因这类文档文本token数量通常在1000以内 [42] - 模型还具备解析图表、化学方程式、几何图形和自然图像的能力,支持近100种语言处理 [43][46] 实际应用价值 - 单张A100-40G显卡可支持每日20万页以上的大语言模型训练数据生成 [4] - 在实际部署中,使用20个计算节点每日可为LLM/VLM生成3300万页训练数据 [39] - 该技术可直接利用现有VLM基础设施,不带来额外计算开销,具备天然支持条件 [39] - 模型在GitHub上已开源,获得400星和8个分支,采用MIT许可证 [18]
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
华尔街见闻· 2025-10-21 08:27
模型核心创新与技术突破 - 提出“上下文光学压缩”方法,通过将文本信息压缩到图像中以视觉token表示,用少量视觉token替代大量文本token,显著降低大模型处理长文本时的计算开销[4] - 模型参数规模为3B,但在主流文档解析基准OmniDocBench上取得新SOTA,实现“以小博大”[4] - 当压缩率小于10倍时,模型OCR解码准确率高达97%,即使压缩率高达20倍,准确率仍能保持在60%左右[1] 模型性能与效率优势 - 仅用100个视觉token,性能即超过每页使用256个token的GOT-OCR2 0模型[7] - 当使用400个视觉token时,性能与之前的SOTA模型相当;使用不到800个视觉token,性能便大幅超越平均每页近7000个视觉token的MinerU2 0模型[7] - 数据生成效率极高,仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据[2] 核心架构与关键技术 - 编码器DeepEncoder采用“先局部处理,再压缩,后全局理解”的串行设计,处理高分辨率图像时能产出数量极少但信息密度极高的视觉token[10][13] - 解码器DeepSeek3B-MoE-A570M负责从压缩的视觉token里重建文字[8] - 编码器支持从“Tiny”到“Gundam”等多种输入模式,可根据任务需要动态调整压缩强度,Tiny模式使用64个token,Gundam模式使用近800个token[11][12] 行业影响与社区反响 - 研究在GitHub上迅速斩获3 3K star,HuggingFace热榜第二,X上好评如潮[2] - 被业内专家评价为“AI的JPEG时刻”,认为图像比文字更适合作为LLM输入,为AI记忆架构打开了新路径[2] - 该统一视觉与语言的方法被认为是通往AGI的潜在路径之一[4] 潜在应用与未来方向 - 模型支持对金融报表、化学分子式、数学几何图、100多种语言等复杂图像进行深度解析[12] - 提出将光学压缩类比人类记忆衰退过程的新思路,可为不同时期的上下文动态分配计算资源,有望构建无限长上下文架构[19][20][22] - 该研究方向旨在让AI记忆机制更接近人类智能,为处理超长上下文提供新思路[21]
10月21日早餐 | 苹果创历史新高;DeepSeek发布新论文
选股宝· 2025-10-21 08:04
海外市场表现 - 美股三大指数均上涨超1%,标普500涨1.07%,道指涨1.12%,纳指涨1.37% [1] - 苹果股价涨近4%,创年内历史新高;英伟达回落0.3%,为科技七巨头中唯一下跌个股 [1] - 中概股指数涨超2%,阿里巴巴涨近4%,库客音乐涨49%,玖富涨超43% [2] - 黄金期货连续六日创盘中历史新高,一度涨超4%逼近4400美元;白银期货曾涨超3% [3] - 原油价格回落,美油盘中跌超2%后抹平多数跌幅;十年期美债收益率回落,靠近半年低位 [4] 行业与主题动态 - 高铁轨交领域,CR450动车组试验跑出单列时速453公里、相对交会时速896公里的纪录,预计2026年底投入商用 [9] - DeepSeek发布OCR论文,通过将文本渲染成图片进行压缩,10倍压缩时精度达97%,20倍压缩时精度为60% [10] - 工信部召开水泥行业稳增长座谈会,强调严禁新增产能、规范现有产能、淘汰落后产能,要求骨干企业在2025年底前对超备案产能制定置换方案 [11] - 湖北省生态环境权益交易平台上线,整合五大核心功能,碳市场累计成交额突破100亿元,居全国首位 [11] 公司公告与业绩 - 宁德时代第三季度净利润185.5亿元,同比增长41.21%;前三季度净利润490.3亿元,同比增长36.20% [15] - 均胜电子子公司新获客户项目定点,全生命周期订单总金额约50亿元,计划2026年底开始量产 [14] - 丰元股份子公司与楚能新能源签订协议,未来三年供应磷酸铁锂正极材料产品10万吨 [15] - 科大讯飞第三季度净利润1.7亿元,同比增长202.40%;第三季度营收60.78亿元,同比增长10.02% [16] - 多家公司发布三季度业绩预增:永和股份净利同比增485.77%,中国船舶预增104.30%至126.39%,金力永磁净利同比增172.65% [16] 技术创新与产品发布 - 通研院通智大脑“力位混合控制算法的统一理论”获机器人学习大会CoRL杰出论文奖 [13] - 可重复使用火箭朱雀三号首飞箭完成加注合练及静态点火试验,进入首飞关键准备阶段 [13] - 宇树发布H2人形机器人,身高180cm,自由度跃升至31个 [13] - DeepSeek团队开源新模型DeepSeek-OCR,实现用少量视觉token完成海量文本压缩 [13] 市场数据与交易信息 - 部分个股表现突出:博苑股份涨10.32%,三联锻造涨10%,法狮龙涨10% [18] - 10月21日、22日多家公司面临解禁,恒帅股份解禁市值88亿元,解禁比例71.45%;欧圣电气解禁市值47.76亿元,解禁比例73.99% [19]
DeepSeek上线论文,用OCR技术减少计算和存储开销
选股宝· 2025-10-21 07:31
核心技术进展 - DeepSeek发布新论文《DeepSeek-OCR:Contexts Optical Compression》,提出通过将长文本内容渲染成图片再由模型识别,实现对文本信息的压缩[1] - 该方法显著减少计算和存储开销,在10倍压缩比时OCR精度达97%,20倍压缩时精度为60%[1] - 模型在压缩文本同时保持高准确性,处理长文档时效果尤为突出[1] 行业技术定义与发展趋势 - 光学字符识别技术是通过电子设备识别纸质文档字符并转换为可处理文本格式的过程,广泛应用于文档数字化、信息检索和数据分析[1] - OCR技术与人工智能结合成为新趋势,深度学习应用使复杂场景下识别精度显著提升[1] - 基于深度学习的OCR已成为行业主流,未来发展方向包括一体化端到端模型、高效轻量化模型及向更高智能化发展[1] 市场规模预测 - 2024年全球人工智能驱动的OCR市场规模约81.7亿元,预计到2031年将接近136.9亿元[2] 主要公司竞争力 - 合合信息扫描全能王产品为业内标杆,OCR识别率显著领先市场同类产品[2] - 公司在复杂场景下平均字符识别率达81.9%,领先于百度的70.0%、腾讯的65.0%和阿里的66.9%[2] - 汉王科技OCR技术曾获国家科学技术进步二等奖,在手写体识别、满文识别、藏文识别、复杂场景和版面识别方面技术优势突出[2]
刚刚,DeepSeek重要突破,大模型上下文紧箍咒打破
36氪· 2025-10-21 07:22
核心技术路径 - 首次提出“上下文光学压缩”概念,通过将文本转换为图像实现信息高效压缩[1] - 在10倍压缩比下解码精度达97%,20倍压缩比下精度仍保持约60%[3] - 将文本token转化为视觉token后能用更少token表达相近内容,为降低长文本处理算力开销提供新思路[6] 模型性能表现 - 在OmniDocBench上仅使用100个视觉token即超越GOT-OCR2.0(每页256个token)[6] - 使用少于800个视觉tokens情况下性能超过MinerU2.0(平均每页近7000个token)[6] - 生产环境中每天在单个A100-40G GPU上可生成20万页以上训练数据[8] 模型架构设计 - DeepEncoder视觉编码器采用SAM+CLIP双结构设计,支持从Tiny(64 token)到Gundam(795 token)多种分辨率模式[14] - 输入1024×1024文档图片时能将传统模型的4096个token压缩至256个[14] - DeepSeek3B-MoE解码器推理时仅激活6个专家模块,总激活参数量约5.7亿[18] 应用场景能力 - 具备深度解析能力,可识别图表、几何图形、化学结构式及自然图像等[24] - 在金融报告中能自动提取图表结构化信息[24] - 支持处理近百种语言,包括阿拉伯语与僧伽罗语等小语种[34][36] - 保留通用视觉理解能力,包括图像描述、物体检测和目标定位等任务[36] 数据训练体系 - 训练数据包含OCR 1.0数据(3000万页多语言文档)、OCR 2.0数据(图表公式解析)、通用视觉数据和纯文本数据四大类型[19][25] - 训练流程分为DeepEncoder独立训练和完整模型训练两个阶段[20] - 通过600万条采样数据微调获得Gundam-master超高分辨率模式[20] 行业影响意义 - 验证了视觉模态在文本压缩中的有效性,为大模型处理超长上下文提供新路径[39] - 展示通过优化信息表达方式提高模型效率的可能路径[39] - 为VLM视觉token优化、上下文压缩机制等研究方向提供有价值参考[39]
建湖农商银行上线DeepSeek智能助手
江南时报· 2025-10-21 07:15
技术部署与平台建设 - 建湖农商银行通过本地化部署DeepSeek-R1模型,结合Ollama、Dify和Text Embedding等技术[1] - 在保证数据安全的前提下成功开发上线智能数据大模型“DeepSeek智能助手”[1] - 该助手覆盖全行业务知识、制度文件等内容[1] 业务应用场景 - 智能助手为客户经理、柜面人员以及合规管理等各个环节提供智能化支持[1] - 在信贷辅助方面通过导入信贷制度、信贷资料等,借助知识图谱支撑瞬间理解并准确回答各种信贷问题[1] - 能够精准定位到回答来源,提高客户经理工作效率[1] 合规与培训创新 - 构建合规制度知识库,将全行制度导入知识库[1] - 通过智能助手生成合规题库促进员工学习[1] - 实现从人工出题到智能生成的转变[1] 战略发展目标 - 推动全行向智能化、数字化的高质量发展迈进[1]