Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek开源新模型!单张A100日处理可超20万页数据
第一财经· 2025-10-20 21:23
模型发布与核心创新 - 公司于10月20日在Github开源了名为DeepSeek-OCR的新模型,并发布了相关论文[1] - 模型核心创新在于利用视觉模态作为文本信息的高效压缩介质,实现“光学压缩”[4] - 该方法可将文本压缩成图像,实现近10倍无损上下文压缩,同时OCR准确率保持在97%以上[4] 技术架构与性能表现 - 模型由DeepEncoder编码器和DeepSeek3B-MoE解码器两个核心组件组成[5] - 解码器采用混合专家设计,总参数3B,激活参数约5.7亿,兼具表达能力和推理效率[5] - 当文本token数量在视觉token的10倍以内时,解码精度达97%,压缩率20倍时准确率约60%[5] 应用潜力与行业影响 - 单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成[4] - 该方法在长上下文压缩和大模型记忆遗忘机制等研究方向具有相当潜力[4][5] - 团队提出用光学压缩模拟人类遗忘机制,通过缩小渲染图像大小实现“文本遗忘”效果[5] 市场反响与研究背景 - 模型发布后在GitHub获得超过1400颗星星,显示较高关注度[7] - 项目由三位研究员共同完成,其中一作Haoran Wei曾有OCR系统开发经验[7] - 有观点认为该研究代表了统一语言和视觉的新方向,可能通向超级智能[7]
DeepSeek又发新模型,小而美玩出新高度
虎嗅· 2025-10-20 20:41
技术核心与创新 - 提出“光学压缩”概念,通过将文本转换为图像实现信息“瘦身”,用100个视觉Token即可表达原本需要1000个文本Token的内容[5][6] - DeepSeek-OCR由DeepEncoder(图像特征提取与压缩)和DeepSeek-3B-MoE(文本重建)两个核心组件组成[9][16] - DeepEncoder架构巧妙串联SAM-base(8000万参数)和CLIP-large(3亿参数),并加入16×卷积压缩器,在保证高分辨率输入处理能力的同时控制激活内存开销[10][11][13] 性能表现与效率 - 压缩率能达到10倍,OCR准确率保持在97%以上,即使压缩率拉到20倍,准确率也还有60%左右[4][6] - 在OmniDocBench基准测试中,仅用100个视觉Token即超过GOT-OCR2.0(每页256个Token)的表现,用不到800个视觉Token超越MinerU2.0(平均每页超过6000个Token)[15] - 生产效率极高,一块A100-40G显卡每天可生成超过20万页训练数据,20个节点(160块A100)可达每天3300万页[7] 模型设计与数据 - 解码器采用DeepSeek-3B-MoE架构,64个专家中激活6个再加2个共享专家,实际激活参数约5.7亿,兼具30亿参数模型表达能力与5亿参数模型推理效率[18][19] - 收集3000万页多语言PDF数据,涵盖约100种语言,其中中英文占2500万页,并包含300万条Word文档数据及中英文各1000万条场景OCR样本[21][24][25] - 通过“模型飞轮”机制为少数语言生成60万条高质量样本,采用粗标注与精标注相结合的数据处理策略[22][23] 应用潜力与拓展 - 具备“深度解析”能力,可对图表、化学结构式、几何图形、自然图像等进行结构化提取,在STEM领域应用潜力巨大[27][28] - 提出模拟人类遗忘机制的研究方向,通过将历史对话内容渲染成图像并逐步压缩,实现近期信息高保真、久远记忆自然淡化的效果,理论上可支撑“无限上下文”[29][30][32] - 探索以视觉模态作为LLM文本信息处理的高效压缩媒介,初步展现7-20倍的Token压缩能力,为VLM和LLM进化开辟新赛道[34][36]
突破新领域,深度求索发布文字识别模型DeepSeek-OCR
贝壳财经· 2025-10-20 20:37
公司动态 - DeepSeek于北京时间10月20日在开源社区Hugging Face上发布了新模型DeepSeek-OCR [1] - 该模型是一种用于从图像中提取文本的文字识别技术 [1] - 公司同时上传了与该模型相关的学术论文 [3] 技术性能 - 当文本标记数量在视觉标记数量的10倍以内时,模型解码精度可达97% [3] - 在20倍的压缩比下,模型的OCR准确率仍能保持在约60%的水平 [3] 应用潜力 - 该技术被描述为一项关于通过光学二维映射来压缩长上下文可行性的初步研究 [3] - 模型在长上下文压缩、大语言模型中的记忆遗忘机制等研究领域展现出相当大的潜力 [3]
六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了
虎嗅· 2025-10-20 19:49
Alpha Arena AI投资竞赛概况 - 全球6大顶级AI模型参与加密货币投资竞赛,每个模型获得1万美元初始资金在Hyperliquid平台交易加密货币永续合约[3][4] - 参赛模型包括Claude 4.5 Sonnet、DeepSeek V3.1 Chat、Gemini 2.5 Pro、GPT-5、Grok 4、Qwen 3 Max等主流AI系统[4] - 竞赛采用风险调整后收益作为评判标准,要求AI完全自主决策且所有交易过程公开透明[6][7] 各AI模型投资表现对比 - DeepSeek V3.1以43.1%收益率排名第一,账户价值达14,310美元,通过6笔交易实现4,310美元盈利[11][12] - Grok 4以39.21%收益率位列第二,账户价值13,921美元,但仅进行1笔交易且风险集中[11][12] - Claude 4.5 Sonnet获得25.28%收益率,账户价值12,528美元,采用稳健策略且盈亏比优异[11][12] - GPT-5亏损24.78%,账户价值7,522美元,进行12笔多空混合交易但策略失效[11][12] - Gemini 2.5 Pro亏损27.74%排名垫底,账户价值7,226美元,46笔高频交易产生439美元手续费[11][12] AI投资策略分析 - DeepSeek采用中高杠杆分散配置的纯多头趋势跟随策略,持有6个加密货币多头仓位且全部盈利[13][14] - Grok 4实施全多头布局但BTC使用20倍高杠杆,走势相对稳定[21] - GPT-5采用多空混合策略体现宏观推理能力,但做空SOL导致重大亏损[26] - Gemini 2.5 Pro依赖短周期信号高频调整,交易效率低下[30] - Qwen3 Max通过轻仓试水控制风险,仅持有一笔ETH多头仓位[27] AI在金融投资领域的发展前景 - nof1.ai认为金融市场是训练下一代AI的最佳场所,相比固定规则游戏更具挑战性[34] - 公司计划通过开放式学习和大规模强化学习让AI生成训练数据,解决复杂市场挑战[35] - 佛罗里达大学研究显示ChatGPT驱动的交易模型曾产生超过500%回报,远超同期标普500指数表现[38] - AI投资的核心价值在于交易过程透明度,为投资者提供可追溯的决策记录[41] 行业背景与专业优势 - DeepSeek母公司幻方量化自2008年开展全自动量化交易,管理规模曾破千亿,具备专业交易基因[17] - nof1.ai正在开发自有模型,计划在第二赛季与第三方模型同台竞技[35] - AI投资领域呈现明显分化,部分模型表现优异而部分表现不佳,类似人类投资者中的业绩差异[39]
DeepSeek团队发布新型视觉压缩模型DeepSeek-OCR
智通财经网· 2025-10-20 19:37
技术突破 - 推出DeepSeek-OCR,提出通过视觉模态压缩长文本上下文的创新方法,将长上下文渲染成图片,使原本需要数千上万个文本token的内容仅需几百个视觉token即可表示,实现信息高效压缩[1] - 该技术由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,DeepEncoder专为在高分辨率输入下保持低计算激活并实现高压缩比而设计,以控制视觉token数量[1] - 当文本token数量不超过视觉token的10倍(压缩比低于10倍)时,模型OCR精度达97%,即使压缩比提高至20倍,准确率仍保持约60%[1] 性能表现 - 在OmniDocBench测试中,DeepSeek-OCR使用100个视觉token即超越阶跃星晨GOT-OCR2.0(每页256个token),使用不到800个视觉token便优于上海AI实验室MinerU2.0(平均每页超6000个token)[2] - 实际生产中,该技术可在单块A100-40G显卡上每天生成超20万页大语言模型/视觉语言模型训练数据[2] 应用潜力 - 该技术展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力,同时具备较高实际应用价值[1]
DeepSeek开源新模型,用视觉方式压缩一切
观察者网· 2025-10-20 18:47
模型发布与技术概览 - DeepSeek于10月20日再度开源新模型DeepSeek-OCR,这是一款光学字符识别模型,参数量为3B [1] - 该项目由三位研究员共同完成,其中一作Haoran Wei曾主导开发在GitHub上收获超7800 star的GOT-OCR2.0系统 [1] - 模型通过光学二维映射将文本内容压缩到视觉像素中来实现高效压缩长文本上下文 [3] 核心技术架构 - 模型由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成 [3] - DeepEncoder能保持高分辨率输入下的低激活状态,并实现高压缩比以生成数量适中的视觉token [3] - 解码器采用混合专家机制,使3B参数的大模型在实际运行时仅需570M参数的计算开销 [7] - 编码器创新性地结合了SAM-base的局部感知能力与CLIP-large的全局理解优势,并采用16倍下采样机制 [7] 性能表现与效率 - 当文本token数量在视觉token的10倍以内时,模型解码精度可达97%;压缩率达到20倍时,OCR准确率仍保持在约60% [3] - 在OmniDocBench基准测试中,仅使用100个视觉token就超过了GOT-OCR2.0(每页256个token)的表现;使用不到800个视觉token就优于MinerU2.0(平均每页超过6000个token) [4] - 单张A100-40G GPU每天可生成超过20万页的LLM/VLM训练数据 [4] - 对于简单PPT文档仅需64个视觉token,处理复杂学术论文时400个token即可完整保留专业符号 [9][10] 应用潜力与行业影响 - 模型展现出广泛应用潜力,在金融领域可将财报瞬间转为结构化数据,在医疗行业能快速数字化历史病历档案,对出版机构而言古籍数字化效率将提升数十倍 [17] - 模型成功识别出阿拉伯语与僧伽罗语等特殊文字,并具备一定程度的通用图像理解能力 [10] - 该方法在长上下文压缩和LLM的记忆遗忘机制等研究方向上具有潜力,为突破大语言模型的上下文长度限制提供了新思路 [3][17]
DeepSeek等“六小龙”齐聚一堂,世界互联网大会11月初举行
选股宝· 2025-10-20 16:22
大会核心信息 - 2025世界互联网大会将于11月6日至9日在浙江乌镇举行,是中国规模最大、层次最高的互联网大会 [1] - 大会主题为“共筑开放合作、安全普惠的数智未来——携手构建网络空间命运共同体” [1] - 峰会将围绕全球发展倡议、数字经济、数据治理、人工智能等议题举办24场分论坛 [1] - 创新设置“六小龙乌镇对话”,邀请深度求索、宇树科技、云深处科技、游戏科学、强脑科技、群核科技等前沿科技企业负责人参与交流 [1] - 2025年是构建网络空间命运共同体理念提出10周年,将举办相关理论研讨会 [1] 参会企业与合作伙伴 - 已确认参会企业负责人包括中国移动董事长杨杰、阿里巴巴CEO吴泳铭、搜狐CEO张朝阳、中科曙光总裁历军等 [4] - 大会合作伙伴包括科大讯飞、安恒信息、中兴通讯、三六零等 [4] - “六小龙”企业深度求索、宇树科技、云深处科技、游戏科学、强脑科技、群核科技负责人将参与对话 [1] 历史龙头表现 - 2024年世界互联网大会乌镇峰会于11月19日至22日举行,会议前夕大会合作伙伴三六零股价持续走高 [2] 相关公司业务关联 - 迪普科技承担了G20、APEC峰会、世界互联网大会、北京冬奥会、杭州亚运会等重大活动的网络安全保障支持 [6] - 绿盟科技长期持续参与G20峰会、两会安保、乌镇峰会、世界互联网大会等重大活动期网络安全保障工作 [7] - 中青旅业务覆盖景区投资与运营、酒店运营与管理、会议展览等领域,乌镇培育戏剧节IP并持续为世界互联网大会提供服务 [7] - 奇安信AISOC产品荣获2024乌镇世界互联网大会“新光”产品奖 [7]
DeepSeek、高性能碳纤维复合材料等上榜全球十大工程成就
中国化工报· 2025-10-15 14:45
文章核心观点 - 2025年全球十大工程成就发布,涵盖抗体偶联药物、Blackwell GPU架构、DeepSeek开源大语言模型等重大创新成果 [1] - 成就评选标准为近5年已完成、实践验证有效且产生全球性影响的工程科技重大创新 [1] - 成就体现了工程科技最先进水平、系统性创新、新质生产力发展方向及应对全球挑战的关键作用 [2] 全球十大工程成就清单 - 抗体偶联药物 [1] - Blackwell GPU架构 [1] - DeepSeek开源大语言模型 [1] - 全海深载人潜水器 [1] - 高性能碳纤维复合材料 [1] - 人形机器人 [1] - “毅力号”火星探测器 [1] - 欧几里得空间望远镜 [1] - 南水北调中线工程 [1] - 塔克拉玛干沙漠锁边工程 [1] 工程成就特点分析 - 集中体现工程科技领域最先进技术水平或实现重大原创性突破 [2] - 综合反映通过技术整合、系统优化与资源协同实现整体目标的系统性创新 [2] - 突出展示新质生产力发展方向,具备推动新产业诞生、激发新动能的潜力 [2] - 特别彰显工程不断突破极限,帮助人类有效应对全球性挑战的关键作用 [2] 具体成就产业影响 - 高性能碳纤维复合材料以其卓越强度与轻量化特性被誉为现代工业“黑色黄金” [2] - 高性能碳纤维复合材料广泛应用于航空航天、新能源和高端装备等领域 [2] - 高性能碳纤维复合材料引领新材料产业变革并带动全产业链创新升级 [2]
产品未发,7个月估值80亿美金,这家“美国DeepSeek”凭什么?
36氪· 2025-10-13 21:05
公司概况与融资表现 - 公司于2024年3月正式走出隐身模式,在7个月内估值从5.45亿美元飙升15倍至80亿美元 [3] - 最新一轮融资高达20亿美元,吸引了Nvidia、红杉资本、Lightspeed等顶级资本以及LinkedIn联合创始人Reid Hoffman作为天使投资人 [3] - 创始团队来自Google DeepMind,包括曾领导Gemini项目奖励模型核心团队的Misha Laskin和AlphaGo的共同创造者Ioannis Antonoglou [3] 战略定位与市场洞察 - 公司战略定位为成为“西方的DeepSeek”,旨在在高质量的开放模型领域与东方开源力量抗衡 [5][12] - 战略制定的重要背景是来自中国公司如DeepSeek和Qwen的压力,这些公司率先在开源领域打破了大规模混合专家模型的技术垄断 [8][10] - 公司瞄准的市场真空是西方大型企业和主权国家在“闭源不自由,开源不放心”困境下对“安全感”和“控制权”的需求 [13][14] 技术优势与平台能力 - 公司宣称构建了一个能够以最前沿规模训练大规模混合专家模型的大型语言模型和强化学习平台,而不仅仅是一个模型 [16] - 混合专家架构通过将模型分解为多个“专家”子网络,能以更低的计算成本实现更高的性能,被视为通往更强AI能力的关键路径 [8] - 掌握大规模训练MoE模型的能力意味着公司在通往通用人工智能的最被看好的技术路线上与顶级实验室站在同一起跑线 [16] 商业模式与盈利策略 - 公司采用策略性的“开放权重”模式,开放模型权重供下载、使用和修改,但保留完整的数据集、训练代码和基础设施堆栈 [18] - 商业模式构建了清晰的双层客户盈利结构,主要瞄准大型企业和主权AI两类高价值付费客户 [21][28] - 收入模型是金字塔结构:塔基为免费的学术界、开发者和初创公司;塔身为付费的大型企业客户;塔尖为最高价值的主权AI客户 [31][32][33] 目标市场与客户痛点 - 针对大型企业客户,解决其依赖闭源API导致的高昂成本、控制力缺失、数据安全风险和供应商锁定等痛点 [22][23][24][25] - 为主权AI客户提供构建国家级AI战略的基石,使其能够训练国家语言模型、赋能关键领域并培养本土AI生态,确保技术独立 [15][30] - 公司向企业出售的不再是按需取用的API,而是建造“水厂”的能力,即模型的所有权与控制权,实现成本可控和绝对的数据安全 [26][27] 行业竞争格局 - 公司选择的赛道是竞争激烈的红海,需直接面对来自中国的DeepSeek、Qwen,欧洲的Mistral AI以及Meta的Llama系列等开放模型的竞争 [34] - 尽管商业模式不同,公司仍需从OpenAI、Anthropic和Google等闭源模型巨头手中争夺客户,这些闭源模型在性能极限探索和产品易用性上拥有优势 [35]
【产业互联网周报】《时代》公布年度发明榜单,宇树、DeepSeek上榜;AI相关债券已达1.2万亿美元,超越银行成投资级市场最大板块;AMD和OpenA...
钛媒体APP· 2025-10-13 16:01
大模型技术进展 - 腾讯混元最新视觉模型Hunyuan-Vision-1.5-Thinking在国际大模型竞技场LMArena视觉模型榜单中位列全球第3、中国第1 [2] - 腾讯混元图像3.0在LMArena图像生成榜单中位列第一,超过nano-banana等顶尖闭源模型 [2] - OpenAI推出小型语音模型GPT-5 Pro,并同步发布轻量化语音模型GPT-realtime-mini [13] - 小鹏汽车自研的“世界基座模型”在对真实世界的推演能力上取得关键进展,采用史上最大规模训练数据集 [5] - 阿里通义千问负责人表示,多模态基础模型正转变为基础智能体,应走向物理世界 [2] 具身智能与机器人 - 阿里通义千问已建立机器人和具身智能的小型团队 [2] - 赛力斯下属子公司与火山引擎签署具身智能业务合作框架协议,围绕智能机器人决策与控制技术协同攻关 [3] - 云深处发布首款行业级全天候人形机器人DR02,可在-20℃~55°C环境下作业 [5] - 立中集团与伟景智能签订机器人战略合作协议,推动公司向人形机器人产业延伸 [5] - 智元机器人与龙旗科技就工业场景的具身智能机器人应用开展深度合作,龙旗科技下达数亿元金额的机器人框架订单,部署近千台机器人 [7] - 宇树科技已申请人形机器人相关专利申请近10项,并在2023年登记“通用人型机器人”作品著作权 [6] - Figure AI发布第三代人形机器人Figure 03,具备多任务处理能力,是首款为高产量制造设计的机器人 [22] 战略合作与生态联盟 - 硅基流动与贵州移动达成战略合作,围绕算力基础设施、智能网关、大模型推理加速等领域展开合作 [3] - 值得买科技与微盟达成战略合作,联合打造覆盖“商品匹配—交易闭环”的AI电商生态服务 [4][5] - NBA中国与阿里云达成多年合作,阿里云将成为NBA中国官方云计算与AI合作伙伴,基于通义千问开发专属AI模型 [8] - PayPal与Google达成多年协议,共同开发AI支付体验,并推出“PayPal World”平台实现无缝跨境资金流动 [18] - 长安汽车联营企业阿维塔科技已完成向华为支付115亿元,购买引望10%股权 [9] 算力基础设施投入 - 中国移动发布“AI+”行动计划,到2028年底人工智能领域总体投入翻一番,建成国内规模最大、技术领先的智算基础设施 [10][11] - 中国移动将探索十万卡智算集群建设,全国产智能算力规模目标突破100 EFLOPS [10][11] - AMD与OpenAI达成6吉瓦算力协议,为OpenAI下一代AI基础设施提供多代AMD Instinct GPU支持,AMD预计该合作将带来数百亿美元收入 [11] - OpenAI计划在阿根廷建设高达500兆瓦容量的大型数据中心,投资规模最高可达250亿美元 [14] - 谷歌宣布在未来两年内向比利时追加投资50亿欧元,用于扩展云计算和人工智能基础设施 [17] 企业融资与投资 - 马斯克旗下xAI有望融资200亿美元,其中包含约75亿美元股权融资和最高125亿美元债务融资,英伟达是股权投资者之一,股权投资最高可达20亿美元 [15][16] - 滴滴自动驾驶获得20亿元D轮融资,资金将用于加大AI研发投入、推动L4自动驾驶应用落地 [24] - 深创投人工智能和具身机器人产业私募股权投资基金成立,出资额15.5亿元 [25] - 软银旗下Graphcore未来十年将向印度投资10亿英镑,在班加罗尔开设人工智能工程园区,创造500个岗位 [18] 产品与服务发布 - OpenAI推出AgentKit工具包,用于构建和部署人工智能智能体 [13] - ChatGPT每周用户数量已达8亿,低价订阅服务ChatGPT Go已扩展至亚洲18个国家 [13] - 谷歌云推出Gemini Enterprise人工智能平台,每位用户每月收费30美元,旨在与微软和OpenAI竞争 [17] - 亚马逊云科技推出Agentic AI应用“Amazon Quick Suite”,帮助员工提升工作效率,可连接企业内部知识库及超过1000个应用 [19] - 英特尔公布首款基于18A制程的Panther Lake笔记本处理器细节,集成GPU和CPU性能较前一代提升50%,预计2026年1月上市 [16] 行业趋势与政策支持 - 摩根大通表示AI相关债券规模已达1.2万亿美元,成为投资级市场中最大板块,占比14% [26] - 工信部与国家标准化管理委员会提出到2027年新制定云计算国家标准和行业标准30项以上 [27] - 中央网信办与国家发展改革委指引政务部门应以统筹集约方式部署人工智能大模型,有条件的部门可统一部署智能算力资源 [27][28] - 陕西省计划到2027年建立5个左右人工智能学院,培育20个全国中小学人工智能教育基地 [28] - 河北省重点推动雄安新区、廊坊等地强化人工智能研发能力,打造人工智能创新发展引领区 [29] - 工信部等七部门要求加强新型信息基础设施建设,按需布局算力基础设施,加速算力与行业融合应用 [30] 市场动态与认可 - 美国风险投资公司Social Capital创始人表示公司已将大量工作需求转移到中国模型Kimi K2上,认为以DeepSeek、Kimi和Qwen为代表的开源世界正挑战美国闭源模型 [20][21] - 宇树科技和DeepSeek的产品入选美国《时代》杂志2025年度最佳发明榜单 [23]