Workflow
DeepSeek
icon
搜索文档
Cursor技术负责人详解AI编程三大难题:奖励信号、过程优化与经验积累 | Jinqiu Select
锦秋集· 2025-05-31 10:37
核心观点 - AI编程的核心挑战在于让模型真正理解问题并完成多轮调试的复杂认知过程,而非仅生成语法正确的代码片段 [1][3] - 编程领域的强化学习面临动作空间庞大、奖励信号设计困难等独特挑战 [7][8] - 行业正探索通过积累经验、优化工具选择和架构创新来提升AI编程能力 [4][12][15] 强化学习在编程领域的特殊性 - 编程的动作空间远超数学等领域,推理过程直接嵌入代码中 [7] - 编程任务需多轮迭代:编写代码→调用工具→获取反馈→调整代码 [3][7] - 评估标准模糊,用户需求复杂隐含,难以自动判断是否真正解决问题 [7] 编程任务中奖励信号的设计挑战 - "通过测试"作为奖励易被模型绕过,生成能运行但未解决问题的代码 [3][8] - 代码质量成为重要维度,学习人类专家代码可提供指导 [8] - 复杂任务奖励稀疏,需上千次尝试才获一次成功信号 [3][9] 强化学习算法与基础设施的演进 - 过程奖励模型(PRMs)因中间步骤评分不准,逐渐被基于最终结果的奖励取代 [10] - DeepSeek研究显示最终结果奖励支持上万步训练,远超传统RLHF的百步规模 [3][10] - GRPO算法通过生成多个候选答案比较价值,适合编程等复杂领域 [10] 工具在编程强化学习中的作用 - O3模型偏好终端操作,因其极简接口避免配置噪音 [5][12] - 代码静态分析工具提供丰富反馈但部署复杂 [12] - 学习代码库历史Pull Requests可模拟人类工程师熟悉项目的过程 [14] 长上下文、模型架构与未来趋势 - 专业代码库需超长上下文(百万token级)处理分散信息 [15] - DeepSeek的NSA机制分层处理注意力,平衡计算效率与信息捕获 [15] - "乌贼注意力"独立缓存文档键值对,避免重复计算 [15] 状态化工具与记忆机制的实现难点 - 记忆机制面临延迟信用分配问题,存储动作价值需未来场景评估 [17][19] - 当前解决方案转向基于规则的优化方法,放弃端到端训练 [17] 真实世界中的模型评估与人类反馈 - 隐式用户行为(如是否接受建议)比显式点赞更有价值 [5][18] - 观察用户对输出的修改可获取高质量训练信号 [20] - 快速迭代缩短训练-反馈循环能更好锚定实际需求 [20] 编程智能体的未来展望 - 新一代模型如o3通过大量工具调用构建深入理解,但计算成本高昂 [23] - 未来方向是让智能体积累经验,避免每次从头思考 [4][23] - 基于代码库特化的能力将成为核心竞争力 [4][23]
华尔街见闻早餐FM-Radio | 2025年5月31日
华尔街见闻· 2025-05-31 07:18
市场概述 - 特朗普关税政策反复导致投资者紧张 科技业制裁消息后美股指刷新日低 特朗普提及通话后道指转涨 标普纳指收窄跌幅 [2] - 5月标普500涨超6% 纳指涨超9% 创一年半最大月涨幅 标普500创1990年来最佳5月表现 [2] - 特斯拉5月涨超20%但周五跌超3% 英伟达5月涨超20%但周五跌近3% 中概指数跌近3% [2] - 美债迈向2025年首次单月下跌 美元指数反弹但仍连跌五个月 比特币5月涨超10% [2] - 现货黄金勉强连涨五个月 原油两连跌至三周新低但5月美油涨超5% [2] - 亚洲时段AH股走低 创业板收跌近1% 医药股持续走强 恒科指跌超2% 科技股回调 [2] 关税政策 - 特朗普称将把进口钢铁关税提高至50% 日本强烈要求美国重新考虑该政策 [4][9] - 特朗普政府酝酿扩大海外科技业制裁 针对被制裁公司控股超50%的子公司实施出口许可要求 [9] - 欧洲反击瞄准美国科技巨头 德国考虑征收10%数字税 或激化与美贸易争端 [10] - 特朗普团队考虑"B计划"关税政策 可能分两步走:短期内对全球经济征收最高15%关税 随后制定个性化关税 [10] 经济数据 - 美国4月核心PCE价格同比2.5% 创四年多新低 个人支出大幅放缓至0.1% [5][10] - 美国4月商品进口环比下降19.8% 创记录最大降幅 贸易逆差缩窄至876亿美元 [5][10] - 印度一季度GDP意外加速至7.4% 大幅超越预测的6.6% 得益于强劲内需 [17] 公司动态 - DeepSeek成全球第二大AI实验室 与谷歌并列 开源战力封王 编程能力仅次于OpenAI [14] - 台积电评估在阿联酋建设先进芯片工厂可能性 类似美国亚利桑那州超级工厂项目 [14] - 泡泡玛特、老铺黄金成爆款 情绪消费市场规模预计2025年突破2万亿元 [14] - 霸王茶姬Q1净营收同比增长35.4% 净利润同比增长13.8% 但单店月均GMV下滑21.3% [15] - 速腾聚创Q1收入下滑9.2% 但毛利率大幅提升至23.5% 机器人收入接近翻倍 [15] - Anthropic年化营收达30亿美元 较2024年12月的10亿美元显著增长 [19] 资金流向 - 全球股市遭遇年内最大单周净流出95亿美元 新兴市场股票则迎来最大净流入20亿美元 [17] - 韩国股市创10个月新高 摆脱对三星电子等科技巨头的单一依赖 91只成分股创52周新高 [18] 前瞻事件 - 中国5月官方制造业、非制造业、综合PMI即将公布 [20] - 八个欧佩克+国家召开会议决定7月增产政策 [21]
申万宏源研究换帅,80后王胜接任总经理,重点布局智能投研
每日经济新闻· 2025-05-30 22:49
人事任命 - 周海晨不再兼任申万宏源研究总经理,保留执行委员会委员职务,分管研究业务和机构业务,并兼任党委书记、董事长 [1] - 王胜接任总经理职务,全面负责经营管理工作,此前担任副总经理兼首席策略分析师 [1][2] 市场观点 - 中国资本市场将迎来长牛,驱动因素包括:上市公司治理改善、分红回购连续三年超过融资、监管引导及市场参与者共同努力 [3] - 新经济领域(华为、大疆、字节等)崛起,人工智能发展窗口期推动恒生科技指数、科创板等进入"科特估"时代 [4] - 外部不确定性或提升中国商品国际影响力,反内卷政策有望提高劳动力回报并提振内需,ROE回报与龙头品牌效应增强 [4] - 流动性支持来自中央汇金、社保等"耐心资本",居民存款搬家及外资流入可能加速人民币资产重估 [4] 战略方向 - 探索柔性敏捷的组织架构以赋能分析师,强调稳定团队、扎实研究及系统性框架对客户信任的重要性 [5] - 重点建设智能投研体系,基于33年策略研究积累,通过算法工程化改造产业链景气度模型等,实现方法论与大模型融合 [6] - 采用增量学习与模型压缩技术优化垂类模型,应对金融投研的高时效性与高精度需求 [6]
尘埃落定!王胜出任申万宏源研究总经理
券商中国· 2025-05-30 21:05
人事任命与业务展望 - 申万宏源研究总经理职务由王胜接任 周海晨不再兼任该职 转任党委书记兼董事长并分管研究及机构业务 [1] - 新任总经理王胜为同济大学管理学博士 拥有4年建筑+14年策略复合研究背景 14次获《新财富》最佳分析师 跨行业与总量研究能力突出 [2] 资本市场长期展望 - 预判中国资本市场将进入长牛周期 核心驱动包括:上市公司治理改善(连续三年分红回购超融资)、科技企业崛起(华为/大疆/DeepSeek等)、政策引导强化(顶层设计+监管引导) [4] - 外部挑战反促市场韧性增强 新经济领域存在弯道超车机遇 恒生科技/科创板/创业板/北证50将迎来"科特估"时代 [4] - 要素回报提升(劳动力反内卷)与ROE改善将支撑中高速GDP下的长牛 居民存款搬家及外资流入或成增量资金源 [5] 研究业务战略升级 - 提出"研究产品"理念 强调买方思维+客户定制化+政策导向+精品深度+远见战略的五维升级 注重产业链/生态圈跨领域研究 [6] - 智能投研成为体系建设重点 依托33年策略研究积累(申万行业分类/景气度模型等) 通过算法工程化实现方法论与大模型融合 [7] - 垂类模型开发聚焦领域知识注入效率与实时响应 采用增量学习+模型压缩技术适配金融场景高时效需求 [7]
DS-R1更新,实现15%以上性能提升
华泰证券· 2025-05-30 20:47
报告行业投资评级 - 计算机行业评级为增持(维持),计算机应用行业评级为增持(维持)[7] 报告的核心观点 - DeepSeek于5月28日更新R1 - 0528模型,性能提升15% - 26%,接近OpenAI的o3模型,与Google Gemini 2.5 Pro各有高低,且开始支持工具调用,有望在Agent领域探索并打破依赖海外模型现状,推荐标的聚焦Agent和MCP方向[1] 根据相关目录分别进行总结 模型更新情况 - R1 - 0528与旧版R1相比,在数学和代码等领域性能提升15% - 26%,与海外模型相比,各项性能接近o3,与Google Gemini 2.5 Pro各有高低,且幻觉率降低45 - 50% [1][3] - R1 - 0528基座模型是去年12月发布的DeepSeek - V3,与R1旧版本一致,靠后训练Scaling Law提效,投入更多算力提升思维深度与推理能力,用户端模型思考长度变长[2] 模型亮点 - R1 - 0528支持工具调用,在Tau - Bench测评集上与OpenAI o1 - high相当,有望被Agent开发者用于复杂Agent流程编排;蒸馏的Qwen3 - 8B数学性能提高,利好端侧模型进步和部署[4] 推荐标的 - 看好R1 - 0528带来的Agent潜在推动和MCP广泛普及,推荐金山办公、福昕软件、网宿科技、鼎捷数智;其他产业链公司中,MCP工具类有合合信息,Agent客户端类有三六零、卓易信息,2B Agent开发类有汉得信息[5] 重点推荐公司情况 - 金山办公2025年Q1营收13.01亿元(yoy + 6.22%),归母净利4.03亿元(yoy + 9.75%),扣非净利3.90亿元(yoy + 10.72%),得益于产品卡位与AI功能升级,AI商业化有望提速,维持“买入”评级,略下调收入预测,略上调盈利预测[14] - 福昕软件2024年营收7.11亿元(yoy + 16.44%),归母净利2695.83万元(yoy + 129.64%),扣非净利 - 2.02亿元,双转型战略推进使营收符合预期、归母净利优于预期,上调收入预测,维持“买入”评级[15] - 网宿科技25Q1营收12.35亿元(yoy + 10.26%),归母净利1.92亿元(yoy + 38.54%),扣非净利1.50亿元(yoy + 52.60%),营收提速因CDN及边缘计算业务需求放量,净利率提升因公司人效提升、期间费率下降,维持“买入”评级,维持收入预测,上调盈利预测[16] - 鼎捷数智2024年营收23.31亿元(yoy + 4.62%),归母净利1.56亿元(yoy + 3.59%),扣非净利1.38亿元(yoy + 13.18%),业绩低于预期受部分下游客户需求延后影响,看好25年业务提速,维持“买入”评级,下调收入预测,上调盈利预测[17][18]
国际旅行商齐聚杭州 “科技感”成全球推广新名片
中国新闻网· 2025-05-30 20:15
国际旅行商杭州行活动 - 2025 ITB CHINA国际旅行商"杭州行"活动在杭州启幕,来自25个国家和地区的60余位国际旅行商代表参与为期3天的深度考察 [1] - 活动现场展示杭州科技特产,包括智能跟拍飞行相机、脑机接口睡眠仪、百种语言实时翻译眼镜等 [1] 杭州科技与旅游融合 - 法国旅行商对杭州科技产品表示震撼,对比12年前西湖山水印象 [2] - 巴西旅行博主称赞杭州"未来感",提及无人超市、城市灯光秀和DeepSeek等科技企业,计划通过50余万粉丝的社交媒体推介杭州 [2] 年轻游客消费模式 - 年轻人通过短视频攻略、网红博主推荐重塑旅游消费模式,形成"种草—打卡—再传播"闭环生态 [2] - 爆款打卡点能带来游客量指数级增长,社交平台传播效应"如同滚雪球" [2] 韩国市场机遇 - 受直飞班次和机票价格影响,多数韩国年轻游客选择先飞上海,旅行社尝试推荐从上海转乘高铁来杭州的分散线路 [2] - 建议杭州开发更多"可逛可拍"线路和有特色在地产品以吸引年轻游客 [2] 国际推广策略 - 建议通过类似良渚论坛的国际活动吸引全球顶尖学者和行业领袖,借助专家影响力提升杭州国际曝光度 [2] - 杭州市文化广电旅游局表示将优化入境服务设施、开发主题旅游线路,并借助国际赛事、文化论坛等平台强化全球推广 [4] - 计划展现杭州"数字文旅第一城"魅力,结合西湖宋韵与数字经济体验 [4]
重磅!华为发布准万亿大模型
每日经济新闻· 2025-05-30 19:41
华为盘古Ultra MoE模型突破 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE,实现全流程在昇腾AI计算平台训练的准万亿MoE模型 [1] - 披露模型架构和训练方法技术报告,体现昇腾在超大规模MoE训练性能上的跨越 [1] - 针对训练稳定性难题,团队创新设计Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现18TB数据长期稳定训练 [4] - 采用EP loss负载优化方法保证专家间负载均衡并提升领域特化能力,结合MLA/MTP架构及Dropless策略实现效果与效率平衡 [4] 昇腾平台技术进展 - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术,使RL后训练进入超节点集群时代 [5] - 通过自适应流水掩盖策略、算子优化、内存管理等技术迭代,万卡集群预训练MFU从30%提升至41% [5] - 盘古Pro MoE模型以720亿参数量实现媲美千亿级模型的性能,在SuperCLUE榜单中位列千亿级以内国内并列第一 [5] 国产AI全栈自主可控意义 - 实现国产算力+国产模型全流程自主可控训练实践,集群训练系统性能达业界领先水平 [3] - 证明昇腾平台可高效稳定训练国际顶尖水平超大规模稀疏模型,完成从硬件到软件的全栈国产化闭环 [6] 其他国产大模型动态 - DeepSeek-R1-0528模型开源,代码能力媲美OpenAI o3高版本,上下文长度扩展至128k且文本理解能力显著提升 [7] - 腾讯在AI产业应用峰会展示混元大模型矩阵升级,涵盖云基础设施、开发工具及场景应用,推动企业AI化转型 [7][8]
张宇昕:华为云加速行业智能化,繁荣欧洲市场AI生态
新浪财经· 2025-05-30 19:15
华为云全球战略 - 公司以AI助力工业升级为重点,支持各行各业数字化转型和智能化升级 [1][3] - 全球策略聚焦服务于工业企业,帮助制造业提升竞争力 [3] - 海外战略与中国市场发展相辅相成,支持中资制造型企业海外拓展 [3] 欧洲市场布局 - 在欧洲构建AI生态系统,开展学术协同、云生态布局和客户拓展三方面合作 [4][8] - 与欧洲高校及科研机构在人工智能、数据交换、数据安全领域开展学术合作 [4][8] - 通过华为云拓展开发者生态,吸引开发者使用AI技术 [4][8] - 技术应用于欧洲各行各业,通过落地完善生态体系 [4][8] AI技术应用案例 - 盘古气象大模型与欧洲气象局合作,实现台风预测效率提升 [5][11] - 传统预测需3000台HPC服务器计算3-5小时,AI技术仅需1张AI卡10秒完成 [5][11] - 预测精确度显著提升,与实际台风路径几乎完全吻合 [5][11] - 研究成果发表于《自然》正刊,成为首个登上该刊的中国科技公司 [5] - 技术已在国内外气象局商用 [5] 制药行业应用 - AI技术用于分子分析和筛选,大幅缩短药物研发周期 [13][14] - 传统研发需10年,AI技术可缩短至1-2年甚至几个月 [13][14] - 与国内外生物科技企业和研究机构开展合作 [15] 欧洲市场机会 - 欧洲多语言文化环境需要定制化大模型解决方案 [10] - 传统工业行业(生物制药、交通运输、航空航天等)数据经验可转化为AI价值 [10] - 企业有强烈诉求通过AI发挥历史数据价值 [10] 绿色能源布局 - 在可再生能源和清洁能源领域早有布局 [16] - 数字能源技术应用于欧洲数据中心,提升绿色节能效果 [16] - 提供新能源技术和设备解决方案 [16]
DeepSeek再出手!R1升级版性能大提升,美国对手慌了?
金十数据· 2025-05-30 11:52
模型升级内容 - 公司完成DeepSeek R1模型小版本升级 主要强化语义理解精准性 复杂逻辑推理能力 长文本处理稳定性 [1] - 网友测评显示模型理解能力显著提升 激活参数部分可制作交互动画展示 关键信息逻辑更清晰 [1] - 编程能力大幅提升 可一次性生成1000多行无错误代码 性能接近Claude 4 [1] - Hugging Face研究员指出升级后模型在减少幻觉方面有重大改进 显示与顶级模型竞争实力 [1] 模型性能对比 - DeepSeek-V3-0324模型在数学 代码类评测集上超越GPT-4 5和Claude-3 7-Sonnet [1] - V3模型性价比极高 输入价格为Claude-3 7-Sonnet的1/11 GPT-4 5的1/277 且开源可免费商用 [1] - R1-0528版本在LiveCodeBench代码生成排行榜中略低于OpenAI o4 mini和o3推理模型 但超过xAI Grok 3 mini和阿里巴巴Qwen 3 [2] 市场影响 - R1模型1月发布时因多项指标优于西方竞争对手引发全球关注 导致科技股暴跌 [2] - V3模型发布后市场热度下降 焦点转向未发布的R2模型 [2] - R1-0528版本发布再次引发全球媒体关注 被指加剧与OpenAI等美国竞争对手的竞争 [2] - 低成本高性能R1模型推动中国科技股上涨 显示市场对中国AI能力的乐观预期 [2] 未来产品规划 - R2模型预计采用混合专家模型(MoE) 参数量达1 2万亿 单位推理成本较GPT-4大幅降低 [2] - 公司尚未正式确认R2模型发布时间 [2]
对话傅盛:Agent杀死了传统图形界面
创业邦· 2025-05-30 11:34
大模型竞争格局 - DeepSeek-R1模型上线彻底改变国内大模型竞争格局,开源、低成本特性迫使"大模型六小虎"调整策略甚至放弃基础模型研发[5] - 基础大模型已如水电般普及,未来领域将只剩少数玩家,应用公司将成为主流[5][11] - 顶级大模型能力差别在3~6个月之间,模型更新速度极快导致技术优势难以持续[15] 创业策略与商业模式 - 创业公司应聚焦场景优先和数据为王,而非迷信通用大模型[4] - 大模型本身缺乏商业模式,初创公司难以长期坚持,除非像OpenAI获得特殊支持[13] - DeepSeek并非典型创业公司,其母公司幻方具备充足资金、数据和算力支持[14] 应用开发趋势 - 用户体验成为最核心指标,应用开发者应更关注用户需求而非底层技术[16] - 开发范式转向以大模型为核心,Agent框架让应用更贴近用户需求[25] - 应用开发思路类似互联网早期,强调快速实现和小步快跑[25][26] 机器人产业发展 - 人形机器人短期内难以产业化,实验室探索可行但落地需聚焦实用场景[5] - 机器人发展分三阶段:基础移动能力(3-5年)、加装手臂(再3-5年)、双足结构(遥遥无期)[34][35] - 机器人产品需跨越从Demo到稳定可复制产品的三大鸿沟,每个阶段可能耗时数年[36] AI技术应用实践 - 全员AI转型成为趋势,组织需调整考核体系和岗位设置以适应新技术[40][42] - AI特种兵模式兴起,非技术人员可通过AI工具快速完成编程等复杂任务[40] - 技术最内核部分往往变成公用基础设施,商业价值体现在应用层面[13] 全球化视野 - 中国科技企业国际声望提升,应用开发能力在全球具备明显优势[8][9] - 创业者应多关注硅谷生态和GitHub创新,结合中国执行力实现软件出海[44][46] - 硬件出海是中国公司的重要机会,需重视合作伙伴关系[47]