Workflow
Scaling Laws(规模定律)
icon
搜索文档
DeepSeek开源引领AI普惠化浪潮
Wind万得· 2025-03-03 06:40
DeepSeek开源策略影响 - DeepSeek成立于2023年,由幻方量化孵化,专注于大语言模型开发,已发布DeepSeek Coder、DeepSeek LLM、DeepSeek V3、DeepSeek R1等多款产品 [2] - DeepSeek V3训练成本仅557.6万美元,性能比肩GPT 4o和Claude-3.5-Sonnet,但成本远低于GPT 4o [2] - DeepSeek R1训练成本仅为同类模型的1/30,性能达到OpenAI o1水平,竞技场评分为1362分 [2][3] - 开源周期间发布FlashMLA、DeepEP、DeepGEMM等代码库,优化DualPipe、EPLB并行策略和3FS文件系统,提升算力效率 [5] - FlashMLA在H800 GPU上实现3000GB/s内存带宽和580TFLOPS计算性能,突破硬件极限 [6] 全球AI大模型进展 - DeepSeek R1发布后7天内用户增长1亿,周活跃用户环比增长超750%,远超Kimi的28%增速 [7] - 武汉市出台政策支持AI关键技术突破,单个项目最高资助2000万元 [7] - xAI发布Grok 3,计算能力提升10倍,支持图像分析和多模态处理,并免费开放 [8] - OpenAI发布GPT-4.5,输入/输出价格达75/150美元/百万token,为GPT-4o的30倍,在事实性问答表现优异但学术推理不及Claude 3.7 Sonnet和DeepSeek R1 [9] - GPT-4.5显示单纯扩大模型规模未必提升全面性能,OpenAI计划将GPT-5转向模型架构优化和功能融合 [10] AI大模型投融动态 - OpenAI拟融资400亿美元,头部企业仍主导资本流向 [14] - 低成本高性能模型改变估值逻辑,中小厂商可通过垂直领域创新获得机会 [14] - 投资重心转向AI应用层(金融、医疗、法律等)和Agent开发,2025年国内亿元级融资包括极睿科技(近1亿人民币B+轮)、源络科技(数亿人民币A轮)等 [15][16]
对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
晚点LatePost· 2024-06-04 18:05
马毅的学术观点与研究方向 - 马毅认为当前AI大模型仅实现局部记忆功能,本质是数据压缩而非真正智能,知识不等于智能,智能应能自我纠正和发现新知识[4][5][51] - 反对Scaling Laws路线,认为单纯扩大数据、算力和参数规模无法实现AGI,现有模型依赖记忆和统计而非因果推理[16][17][22] - 提出智能的简约与自洽原则:规律表达需简洁高效(简约),预测需与外部世界一致(自洽),引用爱因斯坦名言作为理论依据[52][53][54] 白盒大模型技术路径 - 团队开发白盒框架CRATE,用数学解释深度学习网络的压缩过程,目标提升效率并超越黑盒模型[33][34][35] - CRATE在同等参数下性能接近ViT(如CRATE-L参数77.64M,ImageNet-1K准确率71.3%,ViT-S参数22.05M准确率72.4%),新版本CRATE-α通过编码优化已媲美ViT[41][43][47] - 白盒模型可降低试错成本,训练资源仅为经验方法的1/3-1/4,算子更稳定且可解释[38][39][49] 行业现状与批判 - AI行业存在同质化问题,过度追逐Scaling Laws导致研究趋同,国内投入规模大但创新不足[19][21][22] - 批评AI威胁论是"无知或别有目的",指出当前模型无自主意识,危险论调可能阻碍创新[26][28][29] - 工业界更关注实用效果而非理论突破,学界与工业界算力差距加剧模型效果分化[8][9][10] 商业化与教育实践 - 创立忆生科技推动白盒路线产业化,公司定位"下一代智能系统",聚焦完整记忆和闭环学习[83][84][85] - 在香港大学设计AI通识课程,面向所有专业学生教授计算思想,强调正确理解AI基础[81][82] - 认为资源应投向有创造力的年轻人,中国需建立支持年轻团队的创新机制[94][95][96] 历史视角与跨学科启发 - 梳理AI历史发现理论重复现象,如去噪扩散模型本质是250年前的拉普拉斯方法[69][70] - 借鉴神经科学发现,猴子大脑的低维编码与白盒压缩结构相似,闭环反馈机制受生物智能启发[70][71][72] - 区分科学家与工程师思维,前者追求必要性(简约),后者接受冗余(经验试错)[73][74][75]