Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
金融界· 2025-04-10 09:30
文章核心观点 - Grok - 3和DeepSeek - R1代表AI发展两种路径,行业或从追求规模转向融合算法突破与工程实用主义,需平衡规模扩展与算法效率 [1][4][5] 模型对比 - Grok - 3性能略优于DeepSeek - R1、GPT - o1和Gemini2,是闭源模型,训练动用约20万块H100GPU,依托xAI“巨像”超级计算机,代表“蛮力策略”,投入大但ROI递减 [2][4] - DeepSeek - R1开源,性能堪比全球前沿推理模型,仅用约2000块NVIDIA H800GPU完成训练,采用混合专家模型等技术,展现算法创新力量,追求以最小硬件代价实现顶尖性能 [1][4] 行业发展路径 - Grok - 3代表“蛮力策略”,通过巨额GPU计算规模提升边际性能,只有富有科技巨头或政府机构能负担 [4] - DeepSeek - R1代表“战略效率优先”,用少量计算资源实现可比性能,标志AI发展或从“原始规模主导”转向该模式 [4] 对未来AI发展的启示 - 耗资大的集中式训练项目或超出多数企业承受范围,AI公司将重视优化与效率策略,如混合专家模型等技术 [5] - 持续新数据训练与强基础模型结合有潜力,中小规模系统可通过检索增强生成或定期微调模拟,避免大规模计算负担 [5] - 行业将从单纯追求规模法则转向融合算法突破与工程实用主义,自研大语言模型机构需平衡规模扩展与算法研究 [5][6]
安安快寄与DeepSeek战略合作,开启物流行业智慧低价新时代
中国产业经济信息网· 2025-04-09 22:27
文章核心观点 - 安安快寄与DeepSeek合作推出“全国寄快递4 - 6元”普惠服务,以技术革新为物流行业注入新动能,推动行业智慧化转型 [1][6] 合作亮点 - DeepSeek大模型技术落地,具备强大自然语言处理和多模态理解能力,为物流全链路带来智能化升级,可提升配送效率30%以上 [2] 价格与服务优势 - 新服务首重价格低至4 - 6元,支持主流快递公司,提供免费上门取件服务,价格透明无隐藏费用,通过规模化运营与AI降本实现可持续低价 [3] 用户体验特点 - 用户可通过微信公众号或小程序一键下单,自主选快递品牌,操作流程与官方渠道一致;智能客服系统能实时追踪包裹状态,异常时主动推送解决方案 [4] 行业影响 - 此次合作是物流行业“技术 + 低价”双轨战略标杆案例,或倒逼传统快递企业加速技术投入,推动行业从“价格战”向“效率战”转变 [5] 未来展望 - 计划将DeepSeek技术应用于生鲜冷链、医药配送等精细化场景,开放API接口吸引生态伙伴接入,构建完善物流生态体系 [6]
AI选股PK,DeepSeek大赚5.25%夺冠!豆包0.56%垫底,通义千问表现不俗
金融界· 2025-04-09 19:09
文章核心观点 金融界客户端的AI选股游戏中三大模型选股PK,今日DeepSeek选中的联科科技夺冠,其给出选择逻辑认为联科科技具备日内领涨潜力 [1][4] 分组1:AI选股游戏情况 - 金融界客户端有AI选股游戏,每天让三大模型选股PK,以当天收盘价相对于开盘价的日内涨跌幅评出胜负 [1] - 今日参与PK的是AI大鱼(使用DeepSeek - R1模型)、AI豆子(使用豆包 - Pro - 32k模型)、AI小花(使用通义千问 - Max模型) [1] - 今日DeepSeek选中联科科技(001207),以日内涨跌幅+5.25%夺冠;同义千问选择的中国汽研(601965)日内涨幅4.91%获亚军;豆包选择的中船防务(600685)按开盘价买入实际涨幅0.56%,排名垫底 [1] 分组2:联科科技上涨潜力逻辑 - 业绩超预期驱动:公司2025年一季度扣非净利润达8100 - 8400万元,同比增长48.16% - 53.64%,核心驱动是产品量价齐升,产能释放和高附加值产品占比提升改善毛利率,盈利能力增强 [4] - 政策与行业共振:政策聚焦“新质生产力”与制造业升级,公司高压电缆屏蔽料用纳米碳材料项目契合国产替代趋势,二期项目投产后有望抢占高压海缆领域市场,技术壁垒突破和产能规划明确形成短期催化剂 [4] - 成本与费用优化:公司通过供应链优化和数字化管理,期间费用率同比下降2 - 3个百分点,成本控制能力强化支撑利润弹性 [4] - 抗外部风险属性:美国加征关税对出口依赖型行业压制明显,公司业务以内需为主,产品广泛应用于国内基建领域,受外部冲击较小 [4] - 技术面修复需求:公司股价前期受市场情绪拖累超跌,一季度业绩超预期或触发估值修复,量价齐升的基本面改善与低位筹码结构形成共振 [4]
从追捧“六小龙”到紧盯DeepSeek,投资人“掘金”AI应用层
第一财经· 2025-04-09 18:07
文章核心观点 - AI2.0创投市场技术革新快,投资逻辑易变,DeepSeek爆火带动行业转暖,投资人关注转向AI应用层,行业投资理念也在转变 [1] AI行业发展阶段与DeepSeek影响 - AI1.0时代有很多人工智能领域机会、企业与积累,如旷视科技、云知声等能赋能部分垂直领域,AI2.0时代DeepSeek横空出世是中国人工智能行业发展重要里程碑,让大家相信AI可落地且成本降低 [3] - DeepSeek对硅谷市场有积极冲击,其开源对创业公司利好,向OpenAI发射竞争性信号,还让硅谷投资人与创投圈对中国创业者高看一眼 [4] - DeepSeek改变中国AI“卷”的方向,使大模型玩家开始开源、发论文、贡献代码,市场聚焦技术创新 [4][5] 投资人态度与投资理念转变 - 金沙江创投朱啸虎对DeepSeek罕见表达投资态度,达晨财智肖冰认为大模型公司未来会分化,局面未最终确定 [6] - 明势资本黄明明将AGI发展类比自动驾驶级别,目前多数头部AI模型达L2水平正迈向L3,多位投资人侧重AI应用端投资,2025年AI应用爆发值得期待 [7] 海内外AI应用差异与创业建议 - 美国一级市场对AI产业链应用侧投资占主导,中国产业生态投资中硬件和软件较平衡,硬件投资更符合资本市场鼓励方向,因中国供应链完整 [8] - AI应用创业判断下一个模型能力浪头和灵活转型很关键,太早固定PMF不是好事 [8][9]
安安快寄携手DeepSeek推出全国寄快递4-6元服务,智慧物流再掀低价革命
中国产业经济信息网· 2025-04-09 17:08
文章核心观点 安安快寄与DeepSeek合作推出"全国寄快递4 - 6元"普惠服务,以AI技术赋能物流全链路,为用户提供高性价比服务,推动物流行业智慧化转型 [1][7] 合作内容 - 安安快寄与人工智能领军企业DeepSeek达成战略合作,推出"全国寄快递4 - 6元"普惠服务,覆盖小件包裹跨省及同城配送 [1] 技术驱动 - DeepSeek多模态大模型凭借自然语言处理和多模态理解能力,实现订单分配、路径规划及资源调度的智能化升级,预计将整体配送效率提升30%以上 [2] 价格与服务 - 新服务首重价格低至4 - 6元,支持主流快递公司,提供免费上门取件,价格透明无隐藏费用,通过规模化运营与AI降本实现可持续低价 [3] 用户体验 - 用户可通过微信公众号或小程序一键下单,自主选择快递品牌,流程与官方渠道一致 [4] - DeepSeek的智能客服系统可实时追踪包裹状态,针对异常情况主动推送解决方案,兼具价格优势与售后保障 [4] 行业影响 - 此次合作是物流行业"技术 + 低价"双轨战略的标杆案例,或倒逼传统快递企业加速技术投入,推动行业从"价格战"转向"效率战" [5] 未来展望 - 安安快寄计划将DeepSeek技术应用于生鲜冷链、医药配送等精细化场景,并开放API接口,吸引生态伙伴接入,降低全链路成本 [6]
DeepSeek偷塔种草社区
36氪· 2025-04-07 17:14
文章核心观点 - DeepSeek月访问量超ChatGPT,在消费决策推荐方面表现突出,但存在推荐不可靠问题,虽对种草社区等有冲击,但难以完全取代,未来其推荐可能受商家操控 [2][13][16] DeepSeek的影响力 对消费者的影响 - DeepSeek月访问量达5.25亿次,每天约3000万人使用,消费者用其做消费决策的人增多,决策时长从平均12分钟缩短到3分钟 [2][8] - 消费者选择DeepSeek种草的原因一是赶时髦,二是省时省力,且认为其推荐更客观中立、可信度高 [8][10] 对商家和文旅部门的影响 - 商家将“DeepSeek推荐”作为营销标签,如手串商家、餐饮店等 [10] - 各地文旅部门把“DeepSeek推荐”作为宣传点,安徽黄山、江西庐山等景区宣布接入DeepSeek大模型 [12] DeepSeek推荐存在的问题 推荐信息不可靠 - DeepSeek被互联网营销号、硬软广文案语料喂养,推荐参考来源可能是小网站 [13] - DeepSeek存在“AI幻觉”问题,编造不存在的信息,如推荐的店铺不存在、专业领域信息推荐错误等 [13][14][16] DeepSeek与种草社区的对比 小红书的优势 - 小红书答案来自真实用户分享,能塑造消费场景,激发用户需求,这是DeepSeek无法替代的 [16][17] - 小红书日活超1.2亿,日搜索量达6亿次,每天发生1.2亿次笔记截存行为,是超级流量入口,用户量远超DeepSeek [17] - 小红书电商心智成熟,用户找到商品后可直接购买,而DeepSeek需用户到电商平台挑选 [17] DeepSeek的商业化路径 - DeepSeek等大模型商业化路径几乎是to B,缺乏to C路径,业内人士认为其做种草推荐缺乏动力 [17] 行业未来趋势 电商市场变革 - 经济学家吴晓波认为未来三年内手机里一半App会消失,携程、美团等可能成为DeepSeek功能插件 [18] 传统APP与AI的关系 - 传统APP与AI从竞争取代变为相互配合是大势所趋,国内互联网产品纷纷接入AI功能,如百度、知乎、美团等 [18] DeepSeek推荐的未来走向 - DeepSeek推荐可能受商家操控,因无法避免SEO优化策略,品牌方会影响其推荐结果 [19][20]
DeepSeek之后,SaaS没死
钛媒体APP· 2025-04-07 11:26
文章核心观点 - SaaS行业受通用大模型冲击,需从后端到前端积极应对变化,参与AI大潮,重构后端数据,探索新商业模式,AI Agent有望重塑互联网生态,产业智能化将让技术回归价值本质 [2][12] 行业面临的冲击与挑战 - 有了DeepSeek等通用大模型,企业软件部分功能可能被AI接管,SaaS运行逻辑将被重塑,后端系统可能变得多余 [2] 市场教育与企业实践 - DeepSeek和Manus AI完成SaaS公司在不同业务场景使用AI的市场教育,客户迫切需求用上AI,企业已用实际行动投票 [3] - 百丽集团内部落地超800个AI Agent,由BetterYeah提供服务;某保险集团基于DeepSeek落地业绩管理与提升AI项目,由跬智信息提供解决方案 [3] 战略控股案例 - 腾讯控股销售易,销售易发布首款AI CRM NeoAgent产品矩阵,涵盖6大智能体,实现全新AI式交互 [5] 后端数据重构 - AI Agent对SaaS行业影响深远,SaaS公司可能需提供许可接口,允许AI智能体访问和操作数据,提高数据使用强度 [6] - 销售易推出统一的客户全域数据资产平台,为AI智能体提供多维度实时数据燃料,需解决实时数据处理、算力弹性、数据治理与权限穿透等问题 [6][9] - 百丽集团因后端数据治理基础好,能短时间规模化落地AI Agent,与滴普科技合作实现多模态数据统一管理,摸索出“左右脑”逻辑 [7] 商业模式变化 - SaaS运行逻辑变化为其提供新商业化思路,企业端将围绕许可接口构建新商业生态,从简单使用许可转变为更动态的数据交互和应用集成 [10] - 通用大模型能挖掘新价值,企业更愿为其付费,SaaS从卖软件订阅转向卖业务结果,从“功能收费”转向“价值分成” [10][11] 行业发展趋势 - Agent应用进入工程化落地关键阶段,有望在2025年进入放量元年,AI Agent产品形态创新有强大商业化变现和落地潜力,或将重塑互联网生态 [12]
Llama 4发布:我看到了DeepSeek的影子
虎嗅· 2025-04-06 15:36
文章核心观点 - Llama 4 未追求参数领先,而是通过三款模型重新布局,体现架构、多模态和训练方面的转向,宣告了路线调整 [2][24][25] Llama 4 模型布局 - Llama 4 通过三款模型重新布局,分别为一个实用、一个主力、一个教学,不追求通吃所有任务 [2] 架构转向 - Llama 3 是 Dense 架构,Llama 4 是 MoE 架构 [4] - Scout 为 109B 参数、17B 激活、16 专家 MoE,可部署在单张 H100 上,有 10M token 长上下文,适用于文档分析等任务 [5] - Maverick 为 400B 参数、17B 激活、128 专家 MoE,1M token 长上下文,对标 GPT - 4o,性能不逊色且推理成本仅为其十分之一 [5] - Behemoth 为 2T 参数、288B 激活、16 专家 MoE,不部署不开放,仅用于训练阶段生成训练数据 [5] - 过去 MoE 多为“实验室选项”,自 DeepSeek 大火后,Meta 等厂商开始用于主力模型,推理时 Scout 和 Maverick 都只激活两个,激活量为 17B [7] - MoE 不适合所有任务场景,存在调度复杂等训练难题,但参数使用方式值得设计 [9] 多模态转向 - Llama 3 图像输入依赖外挂 encoder,Llama 4 图像直接作为 token 输入参与语言上下文建模 [10] - 原生多模态结构使 Maverick 在 DocVQA 等任务表现提升,推理成本仅为 GPT - 4o 的十分之一 [12] - Scout 虽为轻量模型,但在 DocVQA、ChartQA 上表现高于同尺寸及部分大模型 [15] - DeepSeek 的 V3/R1 仍未引入图像 token [18] 训练转向 - Behemoth 不对外,作用是为 Scout 和 Maverick 生成训练数据、提供能力示范并优化行为,Meta 更注重训练系统本身 [19][22] - 类似 OpenAI 开发“草莓”训练新 GPT、DeepSeek 开发 DeepSeek - R1 - Light 训练 DeepSeek V3 [23] 跑分成绩对比 Maverick 与其他模型对比 | Category Benchmark | Llama 4(Maverick) | Gemini 2.0 Flash | DeepSeek v3.1 | GPT - 4o | | --- | --- | --- | --- | --- | | Inference Cost($ per 1M input & output tokens (3:1 blended)) | $0.19 - $0.495 | | | | | Image Reasoning(MMMU) | 73.4 | 71.7 | | 69.1 | | MathVista | 73.7 | 73.1 | | 63.8 | | Image Understanding(ChartQA) | 90.0 | 88.3 | | 85.7 | | DocVQA (test) | 94.4 | - | | 92.8 | | Coding(LiveCodeBench) | 43.4 | 34.5 | 45.8/49.23 | 32.33 | | Reasoning & Knowledge(MMLU Pro) | 80.5 | 77.6 | 81.2 | - | | GPQA Diamond | 69.8 | 60.1 | 68.4 | 53.6 | | Multilingual(Multilingual MMLU) | 84.6 | - | - | 81.5 | | Long Context(MTOB (half book) eng → kgv/kgv → eng) | 54.0/46.4 | 48.4/39.84 | | | | Long Context(MTOB (full book) eng → kgv/kgv → eng) | 50.8/46.7 | 45.5/39.64 | | | [14] Scout 与其他模型对比 | Category Benchmark | Llama 4(Scout) | Llama 3.3(70B) | Llama 3.1(405B) | Gemma 3(27B) | Mistral 3.1(24B) | Gemini Flash - l | | --- | --- | --- | --- | --- | --- | --- | | Image Reasoning(MMMU) | 69.4 | No multimodal support | No multimodal support | 64.9 | 62.8 | 68.0 | | MathVista | 70.7 | | | 67.6 | 68.9 | 57.6 | | Image Understanding(ChartQA) | 88.8 | | | 76.3 | 86.2 | 73.0 | | DocVQA (test) | 94.4 | | | 90.4 | 94.1 | 91.2 | | Coding(LiveCodeBench) | 32.8 | 33.3 | 27.7 | 29.7 | - | 28.9 | | Reasoning & Knowledge(MMLU Pro) | 74.3 | 68.9 | 73.4 | 67.5 | 66.8 | 71.6 | | GPQA Diamond | 57.2 | 50.5 | 49.0 | 42.4 | 46.0 | 51.5 | | Long Context(MTOB (half book) eng -> kgv/kgv -> eng) | 42.2/36.6 | | | | | 42.3/3! | | Long Context(MTOB (full book) eng -> kgv/kgv -> eng) | 39.7/36.3 | | | | | 35.1/30 | [17] Behemoth 与其他模型对比 | Category Benchmark | Llama 4 Behemoth | Claude Sonnet 3.7 | Gemini 2.0 Pro | GPT - 4.5 | | --- | --- | --- | --- | --- | | Coding(LiveCodeBench) | 49.4 | | 36.03 | - | | Reasoning & Knowledge(MATH - 500) | 95.0 | | 82.2 | - | | MMLU Pro | 82.2 | - | 79.1 | - | | GPQA Diamond | 73.7 | | 68.0 | 71.4 | | Multilingual(Multilingual MMLU (OpenAl)) | 85.8 | | 83.2 | 85.1 | | Image Reasoning(MMMU) | 76.1 | | 71.8 | 74.4 | [21]
关税刷屏的一周,AI圈也“暗流涌动”:Llama 4来了,O3和O4-mini也要来了,DeepSeek R2和GPT-5也不远了?
华尔街见闻· 2025-04-06 15:01
文章核心观点 本周全球聚焦关税议题,科技界目光集中在AI领域,Meta发布Llama 4系列,OpenAI宣布O3和O4 - mini上线及GPT - 5推迟,DeepSeek与清华联合发布新论文 [1] Meta发布Llama 4系列 - Meta周六发布Llama 4系列模型,全系采用混合专家(MoE)架构,实现原生多模态训练 [2] - 发布模型包括Llama 4 Scout(17B激活参数,109B总参数量,支持1000万 + Token上下文窗口,可在单张H100 GPU上运行)、Llama 4 Maverick(17B激活参数,400B总参数量,上下文窗口100万 + ,性能优于GPT - 4o和Gemini 2.0 Flash)、Llama 4 Behemoth预览(288B激活参数,2万亿总参数量,训练使用32000块GPU和30万亿多模态Token) [7] - Llama 4 Scout和Maverick是开源软件,但新许可证对使用有限制,月活用户超7亿的公司需申请特殊许可并遵守多项品牌和归属要求 [4] - Meta强调Llama 4 Scout和Maverick是“迄今为止最先进的型号”“同类产品中多模态性最好的版本” [6] - Llama 4 Scout速度极快,原生支持多模态,拥有业界领先的1000万 + Token多模态上下文窗口,Int4量化后能在单张H100 GPU上运行;Maverick在多个主流基准测试中击败GPT - 4o和Gemini 2.0 Flash,推理和编码能力与DeepSeek v3相当,但激活参数量不到后者一半 [13] - Llama 4 Behemoth仍处训练中,被定位为“世界上最智能的LLM之一”,有网友指出其训练的性能潜力,在阶段已表现出超越Claude 3.7和Gemini 2.0 Pro的能力 [9] - Meta计划今年投入高达650亿美元扩展其AI基础设施 [10] OpenAI模型动态 - OpenAI首席执行官确认O3和O4 - mini将在未来几周内发布,GPT - 5将在未来几个月与公众见面 [11] - OpenAI改进了O3模型,会让用户满意 [14] - GPT - 5将整合语音、Canvas、搜索、Deep Research等多项功能,成为统一模型战略的核心,是集成多种工具和功能的综合系统,能自主使用工具,胜任复杂任务 [15] - GPT - 5将对免费用户开放无限使用权限,付费用户体验更高智力水平版本,因DeepSeek影响考虑让用户免费使用,发布时间反复推迟 [15] DeepSeek与清华合作成果 - DeepSeek与清华大学研究团队联合发布关于推理时Scaling的新论文,提出自我原则点评调优(SPCT)学习方法,构建DeepSeek - GRM系列模型 [17] - SPCT方法将“原则”变为奖励生成一部分,包括拒绝式微调冷启动阶段和基于规则的在线强化学习优化阶段,引入元奖励模型提升输出准确性和可靠性 [19] - DeepSeek - GRM - 27B在多个RM基准测试中显著优于现有方法和模型,在推理时扩展性方面表现出色,增加推理计算资源有强大性能提升潜力,成果或在DeepSeek R2展示 [21]
击败DeepSeek V3?Meta强势炸场,史上最强Llama 4开源!
格隆汇· 2025-04-06 14:22
文章核心观点 全球科技巨头AI军备赛激烈,Meta推出强大开源AI大模型Llama 4系列并将训练2万亿参数模型,力争成为全球顶尖AI公司 [1][2][19] 分组1:Llama 4系列模型介绍 - Meta于当地时间4月5日推出最强大开源AI大模型Llama 4,是多模态大模型,采用混合专家架构,支持12种语言 [3][4] - Llama 4系列已推出Scout和Maverick两个版本,Scout有170亿活跃参数、16个“专家”模型、1090亿总参数,Maverick有170亿活跃参数、128个“专家”模型、4000亿总参数 [5][6][7] - Scout最高支持1000万上下文输入,在广泛基准测试中分数超过多个模型;Maverick用一半参数使推理编码能力与DeepSeek - v3 - 0324相当,在多项基准测试中碾压同类模型 [8][9][11] - 用户可从llama.com和Hugging Face下载Llama 4 Scout和Llama 4 Maverick模型,很快也将在主流云和数据平台等提供 [12][13] 分组2:Llama4 - Behemoth模型介绍 - Meta正在训练的2万亿参数的Llama4 - Behemoth模型未来几个月面世,是多模态专家混合模型,有2880亿活跃参数、16个专家、总参数量2万亿 [14] - 该模型在多个STEM基准测试中表现优于GPT - 4.5等模型,Meta称其将是未来全球最智能的大模型之一 [15][16] 分组3:Meta公司目标与计划 - 扎克伯格表示Meta目标是建立世界领先人工智能并开源普及,Meta AI得到重大升级 [17][19] - Meta将于4月29日举办首届LlamaCon AI大会,力争赶超竞争对手成为全球顶尖AI公司 [19] - 公司计划今年斥资650亿美元扩建AI基础设施,可能包括近10亿美元在美国威斯康星州中部建立数据中心项目 [19]