Workflow
DeepSeek
icon
搜索文档
英国《金融时报》刊文:中国是如何赶上硅谷的
环球网资讯· 2025-05-17 06:58
中国科技竞争力 - 中国已成为美国在科技领域势均力敌的对手,拥有制造业规模、消费市场和科学人才等关键优势 [1] - 到2030年,全球可能普遍使用中国的人工智能应用程序和近乎自动驾驶的电动汽车 [1] - 中国已从模仿美国科技跃升至超越美国科技,硅谷面临挑战 [1] 中国科技突破 - 中国初创公司DeepSeek发布的人工智能模型性能与美国竞争对手相当,但更便宜、更节能 [1] - 中国企业发布全球最快的电动汽车充电技术 [1] - 华为向外国人销售可与苹果最新款手机媲美的手机 [1] 国际评价 - 谷歌前首席执行官埃里克·施密特认为中国在多种技术领域与美国不相上下甚至领先 [1] - 英伟达首席执行官黄仁勋指出中国在人工智能领域"并不落后" [1] - 优步联合创始人特拉维斯·卡兰尼克称线上送餐的未来在中国上海而非纽约 [1] 美国科技地位 - 美国科技巨头曾将中国视为生产中心,现在开始买入中国的技术未来 [2] - 硅谷最大的财富是20多年前创造的,长远看可能面临被淘汰的命运 [2]
突袭Cursor,Windsurf抢发自研大模型!性能比肩Claude 3.5、但成本更低,网友好评:响应快、不废话
AI前线· 2025-05-16 23:39
Windsurf推出SWE-1模型家族 - 公司推出首个针对完整软件工程流程优化的AI模型家族SWE-1 包含三款具体模型:SWE-1、SWE-1-lite和SWE-1-mini [1][6] - 此举标志着公司从应用开发向底层模型研发的战略扩展 距离被OpenAI收购30亿美元后首次技术产品发布 [2] - SWE-1工具调用推理能力接近Claude 3.5 Sonnet 但服务成本更低 付费用户均可使用 [6] 模型技术特点 - SWE-1-lite取代原有Cascade Base模型 质量更优 面向所有用户无限次使用 [6] - SWE-1-mini强调响应速度 为Windsurf Tab被动体验提供支持 [6] - 模型采用"流程感知"训练方法 通过共享时间线实现人机无缝协作 [29][30] 产品性能表现 - 开发者实测显示模型响应迅速高效 但存在规则不明确时产生幻觉的问题 [5][7] - 在对话式SWE任务基准测试中 采用10分制评估人机交互编码能力 [15] - 端到端SWE任务基准测试显示 模型独立解决问题能力达到前沿水平 [18][20] 公司战略方向 - 目标是将软件开发速度提升99% 超越单纯编码功能 覆盖测试/用户反馈等全流程 [9][12] - 通过生产实验盲测验证 模型每日贡献代码行数等指标接近行业领先水平 [21][22] - 将持续投入SWE模型研发 计划超越现有前沿模型性能 [27][33] 编辑器技术赋能 - 编辑器整合终端输出/剪贴板内容/IDE搜索等多元感知能力 [31][32] - 共享时间线设计使模型能持续学习用户行为模式 形成数据飞轮 [30] - 当前已实现文本编辑器感知/终端感知/浏览器基础感知等多维度协作 [31]
杭州市创业投资协会周恺秉:杭州科创崛起离不开两个“微小但重要”的变量
21世纪经济报道· 2025-05-16 21:02
杭州创业投资体系演进 - 周恺秉长期参与杭州科技创新体系建设,自20世纪90年代起持续呼吁加大科技投入,2011年关注创业投资项目退出机制,2015年建议构建"硅谷式"创业生态系统 [1] - 杭州创新公式包含三大核心变量:冒险宽容的文化、市场经济体制机制、活跃的创投资本,同时涉及创业生态、营商环境等多元因素 [3][4] - 杭州"六小龙"企业涌现印证城市包容度与文化交融的关键作用,44家浙江省独角兽企业中杭州占80%(55家中的44家) [5][11] 城市特质与创业生态 - 杭州社会包容度体现在市民交往无地域歧视、普通话普及、倡导"创业失败亦英雄"理念,推动浙商群体从借贷文化转向投资文化 [6] - 地理区位促成南北文化融合:承接江苏山东的稳健与绍兴温州的冒险,形成兼具科学理性与冒险精神的独特创业气质 [6][7] - 第一代企业家以本地人为主(马云、宗庆后等),而"六小龙"创始人中省外籍占比达67%(4/6),反映城市吸引力 [6] 资本生态建设实践 - 政府引导基金2008年率先探索,培育普华资本、华睿投资等本土机构,管理规模从数千万扩展至数百亿元 [8][10] - 创投机构呈现差异化格局:本土天使投资人专注早期(如李治国),红杉高瓴等头部机构布局成长期项目,形成互补 [8][9] - 杭高投通过支持"小而美"基金(规模1-5亿元)培育早期生态,每年全省50%投融资案例(约500个)来自杭州企业 [10][11] 科技金融协同发展 - 杭州银行体系突破传统间接融资模式,成为全国科技金融创新高地,各大银行积极布局科技金融业务 [10] - 创业投资与科技金融共同构成企业支持网络,该模式具备全国推广价值 [10]
安联投资:当下或许是把握收益基金稳健潜力的好时机
智通财经· 2025-05-16 16:17
收益基金概述 - 收益基金聚焦于能产生稳定回报的资产,如派息股、特定类型债券,也可能涵盖商品及其他另类资产 [1] - 这类基金旨在为投资者提供定期收益,因而以纪律化方式管理,投资风格更为审慎稳健 [1] - 许多收益基金分散投资于多个资产类别,以缓冲波动和不明朗市场环境带来的影响 [1] 收益基金的好处 - 收益基金可通过提供定期收益支持投资者的生活方式,也可作为有用工具,帮助投资者满足日常需求,同时应对波动的市场环境 [2] - 在当前股价波动、利率"长期高企"及美国政策难以预测的环境下,这类基金或许比以往任何时候都更具吸引力 [6] 收益基金的投资策略 - 可能配置债券,尤其是利率风险相对较低的债券,如短存续期债券及浮动利率票据 [3] - 债券收益率较近年水平大幅上升,这不仅意味着更佳的潜在回报,也为可能上升的利率提供缓冲 [3] - 投资股票时,收益基金往往聚焦股息理想的公司,这类公司通常规模庞大、业绩稳定且股价波动较小,例如可口可乐和宝洁 [3] - 部分基金(如多元资产基金)会投资于一系列与股股价相关性较低的资产类别,可能包括私募股权、私募信贷等另类资产,或石油、黄金等商品 [3] 当前市场环境下的收益基金吸引力 - 在关税和贸易战威胁全球经济走势、大量资本涌入快速发展但难以预测的科技行业的背景下,收益基金的审慎稳健特征颇具吸引力 [4] - 浮息票据等其他固定收益工具受影响可能较小——其票息会根据短期利率定期调整 [4] - 收益基金可能会配置这类债券及其他债券,如短存续期高收益债券或可转换债券 [4] 多元化的重要性 - 未来几年,股票和债券的合理平衡对财富保护和累积至关重要 [5] - 在主动管理的多元资产收益基金中,基金经理可根据市场情况调整股债配比,以管理风险并提供较稳定的回报 [5] 收益基金的适用性 - 对于偏好较稳定回报、不受价格大幅波动影响,或需要资金维持现有生活方式的投资者来说,收益基金是不错的选择 [6] - 对于回报预期进取或投资期限较长的投资者,倾向投资增长型股票等风险资产的基金可能更合适 [6]
疆亘资本总裁胡仲江:GP从“财务出资人”升级为“生态建筑师”
搜狐财经· 2025-05-16 14:41
DeepSeek的崛起与AI产业变革 - DeepSeek通过70亿级模型实现千亿模型效能,将企业部署成本压缩90%,颠覆传统大模型的算力竞赛逻辑[4] - 技术上将大模型精华浓缩到小模型,产品上做成即插即用的"智能U盘",生态上通过开放基础版吸引开发者再销售定制升级版[4] - 在金融、政务领域推出"合规私有化AGI"方案,如政务部门可用本地服务器训练处理敏感数据的AI助手,银行可快速替代耗时数年的风控流程[4] 中国AI产业现状与投资方向 - 应用层面能用更少数据做出更接地气成果,但核心技术仍受制于国外基础架构,如国产芯片处理复杂AI任务稍显吃力[5] - 投资转向能让AI扎根产业的领域,如电力行业AI调度系统让新能源利用率达95%,中科院实验室AI化学家指挥机械臂完成危险实验[5] - 未来胜负手在于用"手术刀式"垂直智能体在国产化技术栈重建护城河,让AI完成从数字革命到实体重塑的跨越[5] 地方政府与GP合作模式变革 - DeepSeek改变地方政府对"核心竞争力"理解,从税收优惠转向"数据主权"争夺,如浙江、山东整合政务数据形成AI训练资产包[6] - GP角色从"财务出资人"升级为"生态建筑师",需具备数据分析能力帮助政府量化数据价值并设计合规使用框架[6] - 新型合作机制基于价值共创和风险共担,通过对赌协议等方式形成利益共同体,探索数据驱动新商业模式[6][7] 文化自信回归与投资机会 - 传统文化符号以游戏、影视、消费品为载体进入大众生活,文化作为独立生产要素参与价值创造[7] - 文化估值体系重构,IP价值取决于"文化渗透率"而非短期曝光量,需能持续衍生生活方式解决方案[8] - 技术赋能范式转移,AI与区块链成为文化资产化基础设施,破解传统技艺规模化难题并为文化确权[8] 2025年中国一级市场预测 - 投资方向深度转变,专业基金比跟风机构更具优势,企业估值两极分化,缺乏核心技术公司市值可能腰斩[10] - 退出路径重新洗牌,传统上市方式不再可靠,更多转向产业并购,倒逼投资人提前布局产业链关键环节[10] - 国际环境影响显著,国产替代成生死线,最大机会在避开正面交锋的"曲线创新"领域如中国主导物联网标准[10]
R2来之前,DeepSeek又放了个烟雾弹
虎嗅APP· 2025-05-15 21:03
DeepSeek V3技术突破 - 核心观点:通过"软硬一体"协同设计实现极致降本增效,仅使用2048块英伟达H800 GPU即达到行业领先水平 [2] - 关键技术1:采用"多头隐注意力机制"(MLA)压缩KV Cache,显著降低长文本处理的显存占用 [2] - 关键技术2:优化混合专家模型(MoE)架构,通过动态激活专家提升运算效率并控制有效规模 [3] - 关键技术3:引入FP8混合精度训练,在非敏感环节降低计算量和内存占用,速度提升30%且不影响最终性能 [3] - 关键技术4:设计多平面网络拓扑结构,优化GPU集群数据传输路径减少通信瓶颈 [4] DeepSeek Prover V2进展 - 参数规模从7B跃升至671B,实现数量级突破 [5] - 聚焦数学等科学发现领域,挑战人类智力极限的高壁垒场景 [5] 行业竞争格局 - 头部厂商在参数规模、多模态、应用生态展开全方位竞争,技术迭代加速 [6] - 算力成本攀升和商业化路径模糊成为行业普遍挑战 [6] - 未来竞争关键将转向资源利用效率和垂直场景深度挖掘 [6][7] 公司战略定位 - 通过工程优化实现"非顶级硬件配置下的领先性能",为行业提供可行性路径 [4] - 技术路线强调成本效益与特定高价值场景的结合,区别于单纯追求规模扩张 [6][7] - 系列动作预示R2模型将带来性能突破和行业新思路 [7]
梁文锋参与发表回顾性论文:DeepSeek首次揭秘V3模型背后扩展方案
快讯· 2025-05-15 18:57
DeepSeek刚刚发表了一篇名为《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures)的回顾性论文,梁 文锋也是作者之一。这篇论文深入剖析了最新的大模型DeepSeek-V3及其AI基础设施扩展方案, DeepSeek-V3的实践充分证明了硬件-软件协同设计在提升AI系统可扩展性、效率和鲁棒性方面的巨大潜 力。(AI寒武纪) ...
R2来之前,DeepSeek又放了个烟雾弹
虎嗅· 2025-05-15 18:52
DeepSeek V3技术突破 - 公司通过"软硬一体"协同设计实现极致降本,仅使用2048块英伟达H800 GPU即完成模型训练 [2] - 采用"多头隐注意力机制"(MLA)压缩KV Cache显存占用,显著提升长文本和多轮对话处理能力 [2] - 优化混合专家模型(MoE)架构,通过动态激活相关专家提升运算效率并控制资源消耗 [3] - 引入FP8混合精度训练,在保持模型性能同时降低50%计算量和内存占用 [3] - 设计多平面网络拓扑结构优化GPU集群数据传输效率,减少训练瓶颈 [4] DeepSeek Prover V2进展 - 参数规模从7B跃升至671B,实现数量级突破 [5] - 聚焦数学等科学发现领域,展现AI解决高复杂度问题的潜力 [5] 行业竞争态势 - 头部厂商在参数规模、多模态和应用生态展开全方位竞争 [6] - 算力成本攀升和商业化路径模糊成为行业普遍挑战 [6] - 公司技术路线显示效率优化与垂直场景深耕将成为竞争关键变量 [6] 公司战略定位 - 通过工程优化实现非顶级硬件条件下的行业领先性能 [4] - 技术路径为中小玩家提供算力约束下的可行性方案 [4] - 系列动作预示将推出突破性R2模型并带来行业新思路 [7]
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀
雷峰网· 2025-05-15 18:13
DeepSeek-V3 成本效益与架构创新 - 核心观点:通过软硬件协同设计实现大型模型的高效训练与推理,仅需2048个NVIDIA H800 GPU即达到最先进性能 [4] - 采用DeepSeek-MoE与多头潜在注意力(MLA)架构,FP8混合精度训练使内存消耗降低50% [7][8] - MLA通过压缩KV缓存至潜在向量减少内存占用,共享KV、滑动窗口缓存等技术进一步优化存储 [10][11][12] 低精度与计算优化 - 首创FP8训练框架,通信量较BF16减少50%,提出硬件改进建议如提升累加精度至FP32 [16][17][18] - MoE架构使计算成本降至250 GFLOPS/令牌,显著低于密集模型的2448 GFLOPS [13] - 多标记预测(MTP)框架提升推理速度1.8倍,令牌接受率达80%-90% [14] 互联驱动设计 - 针对H800 NVLink带宽限制(400GB/s),采用8张400G Infiniband网卡增强扩展能力 [20][23] - 节点内NVLink(160GB/s)与节点间IB(40GB/s)带宽差异促生节点受限路由策略,减少跨节点流量 [24][26][27] - 提出未来硬件需统一网络适配器、专用通信协处理器以优化资源利用 [29][30] 大规模网络架构 - 部署八平面胖树网络(MPFT),支持16384 GPU理论规模,成本较三层胖树降低41% [32][34][40] - MPFT实现流量隔离与低延迟,专家并行带宽超40GB/s,训练效率与单平面网络持平 [37][44][47] - InfiniBand延迟(2.8μs)优于RoCE(3.6μs),但建议RoCE优化如自适应路由与拥塞控制 [50][51][53] 未来硬件方向 - 需解决互联故障、静默数据损坏等问题,建议校验和验证与诊断工具预装 [59][60][61] - 提出CPU-GPU直连、共封装光学、动态带宽分配等创新方向 [61][64][66] - 内存架构推荐DRAM堆叠加速器与晶圆级集成技术以突破带宽瓶颈 [72]
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 14:04
核心观点 - 提出新型深度思考范式PENCIL,通过交替执行「生成-擦除」机制显著提升大模型复杂推理能力 [1][3] - PENCIL在理论上实现图灵完备性,能以最优空间O(S)和时间O(T)复杂度解决所有可计算问题,传统CoT需O(T)空间导致指数爆炸 [23][24] - 实验显示PENCIL在3-SAT、QBF等NP完全问题上准确率保持≥99%,Einstein's Puzzle任务中25M小模型准确率达97%远超CoT的25% [15][21][22] 交替生成-擦除范式 - 动态擦除机制:引入[CALL][SEP][RETURN]特殊标记,按规则丢弃无用中间结果,上下文长度从数万token压缩至千级 [5][8][9] - 支持递归结构:擦除后的上下文可包含其他特殊标记,实现类似函数调用的多层嵌套 [9] - 三大应用模式:任务分解(子问题处理)、搜索回溯(无效路径清理)、摘要总结(冗长思考压缩) [13] 性能优势 - **准确率**:在n=10的SAT任务中PENCIL准确率99% vs CoT 50%,QBF任务100% vs 73% [15][16] - **计算效率**:相同FLOPs下PENCIL训练收敛速度更快,上下文长度控制在问题规模n的线性增长(O(n))而非CoT的指数级(O(exp(n))) [12][17] - **资源节省**:KV缓存复用机制使自注意力计算量减少,25M参数模型在Einstein's Puzzle上准确率提升3.88倍 [21][22] 理论突破 - 空间最优性:将图灵机模拟的上下文长度从O(T)降至O(S),尤其适合S<<T的NP完全问题(如旅行商问题) [24][25] - 实现路径:通过FASP编程语言构造「思考-总结」循环,证明固定大小Transformer可达成最优复杂度 [28] - 本质差异:传统CoT需保留完整计算历史,PENCIL通过状态摘要实现内存回收 [27]