DeepSeek

搜索文档
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 16:04
项目背景与团队 - 北京大学物理学院联合人工智能研究院等多个院系推出全新评测基准PHYBench,由朱华星老师、曹庆宏副院长统筹指导,学生核心团队完成基准设计、项目管理及数据整合 [2] - 项目汇聚200余名学生参与题目编写与测试,包含至少50位全国物理竞赛金牌得主及国际奥赛获奖者,保障了高质量产出 [2] PHYBench核心设计 - 包含500道高质量物理题,覆盖高中物理、大学物理及物理奥赛难度,基于真实物理场景设计 [2][8] - 采用创新评估指标EED Score(表达式树编辑距离),相比传统Accuracy指标具有更细粒度区分能力,500题区分效果相当于1500道0/1评分题目 [10] - 数据集规模在同类高难度评测基准中领先(GSM8K 8.5K题,OlympiadBench 8K题,USAMO仅6题) [8] 评测结果 - 人类专家平均正确率61.9%(EED评分70.5%),前25%受试者达71.4%,显著领先最强AI模型Gemini 2.5 pro(正确率36.9%,EED评分49.5%) [12] - 主流模型表现分层:Gemini 2.5 pro和o3等强推理模型领先,DeepSeek-V3基座模型表现亮眼,QwQ-32B等小型蒸馏模型表现不佳 [14] 能力分析框架 - 提出PP×RR分析模型:物理感知(PP)环节暴露符号理解缺陷,鲁棒推理(RR)环节显示草稿冗长且易犯低级错误 [16][17] - 典型错误包括量纲混淆(占比38.7%)、符号误用(21.3%)等物理感知问题,以及代数错误(17.5%)等推理缺陷 [16] 行业意义与展望 - 突破现有基准依赖生僻知识点或抽象数学题的局限,建立更贴近实际场景的评估体系 [2] - 计划拓展跨学科内容和未解科学谜题,推动AI向具备物理世界认知能力的"智能伙伴"发展 [20]
日本车企要借助当地技术在中国挽回劣势
日经中文网· 2025-04-28 15:39
日本车企在中国市场的战略调整 - 丰田在中国专用EV上首次搭载华为鸿蒙系统 本田将采用DeepSeek服务 日本车企认为仅凭自身难以在中国智能化竞争中取胜 需吸收中国尖端技术 [2][6] - 丰田全球首发的中国专用纯电动轿车"bZ7"配备华为HarmonyOS智能座舱 实现驾驶信息集成显示 [4] - 本田在中国专用EV系列"烨"中搭载AI企业DeepSeek的语音对话服务 并与宁德时代联合开发车载电池 [6] 智能化技术合作细节 - 华为鸿蒙系统已实现车窗控制 温度调节 座椅位置调整等车辆功能的智能屏操作 类似智能手机交互体验 [6] - 丰田采用Momenta联合开发的L2级驾驶辅助系统"Toyota Pilot" 支持手动/自动模式切换 该技术已成为中国10万元以下车型标配 [6] - 日产新款中国专用EV"N7"和本田"烨"系列均计划搭载Momenta的驾驶辅助系统 三大日系车企在ADAS领域形成技术协同 [6] 市场背景与竞争态势 - 日本车企2020年在华销量达历史峰值488万辆(丰田/本田/日产合计) 但2024年销量较顶峰下降30% 主因电动化转型滞后 [6][8] - 中国新能源汽车渗透率快速提升 竞争焦点转向智能座舱和驾驶辅助 比亚迪等本土企业技术创新速度远超预期 [8] - 丰田高管承认需向中国合作伙伴学习 称"新的汽车文化正在形成" 新冠疫情隔离期间中国智能汽车技术已实现代际跨越 [8] 全球化战略延伸 - 尽管中美对立限制中国开发车型出口 但日本车企认为在华积累的电动化/智能化经验具备全球应用价值 [8] - 丰田计划将中国市场验证的技术反哺全球产品 社长佐藤恒治强调"在中国锻炼出的商品技术将应用于全球市场" [8]
不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门
量子位· 2025-04-28 14:36
DeepSeek R2传闻与模型融合技术发展 - 坊间传闻DeepSeek即将发布R2模型,参数规模达1.2T万亿,训练数据5.2PB,可能高效利用华为芯片,但信息真实性待验证 [1] - 开源社区推测R2的基础模型可能是新版DeepSeek V3-0324,发布时间或在4月底,依据是R1与V3的间隔周期 [4] R1T-Chimera融合模型特性 - 德国TNG团队推出非官方融合模型R1T-Chimera,基于MIT协议开源,结合DeepSeek V3-0324共享专家与R1/V3路由专家,能力接近R1但输出token减少40% [5][6][8][9][14] - 模型融合后表现优于预期,思考过程更紧凑有序,未出现融合缺陷,但技术细节尚未公开 [15][16] - 在三维空间推理测试中,R1T-Chimera耗时101秒(原版R1为13秒),通过计算得出解决方案,但过程中存在旋转/弯曲甘蔗等误区 [17][18][19][20][22][23] 行业模型融合技术动态 - Kimi K1.5技术报告探索长/短思维链模型权重平均融合法,无需重新训练 [27] - Sakana AI提出基于进化算法的block级融合方法,早于行业布局 [31][32] - 模型融合技术可能成为2025年大模型发展趋势,多团队跟进验证 [34] 资源与社区参与 - R1T-Chimera模型权重可通过HuggingFace下载,OpenRouter提供免费在线试玩 [13][36] - HuggingFace创始人建议关注官方更新,以获取最新动态 [3]
对话合思CEO马春荃:AI的世界的第一性原理就是降本增效
搜狐财经· 2025-04-28 14:32
行业动态 - DeepSeek在2025年春节期间发布低成本高性能开源多模态模型Janus-Pro与DeepSeek-R1推理模型,挑战OpenAI的全球主导地位并推动各行业AI接入潮 [2] - AI智能体能力每7个月翻一倍,价格每年下降10倍 [5] - AI技术加速"无需报销"智能化进程,但完全自动化仍需在知识库与模型结合、幻觉控制、多代理协同三方面持续努力 [19] 公司战略 - 合思定位为财务"AI训练师",帮助企业拥抱AI并挖掘更多净利润 [5] - 公司聚焦财务数智化平台,核心解决收支管理中的资金流、信息流、票据流问题,为IT部门提供标准化脚手架和元数据层 [19] - 目标客户群体主要为规模较大企业,因其核算复杂度高且管理成本降低空间显著 [31] 产品与技术 - 通过AI技术将工作流环节转化为智能体替代人工操作,例如差旅行程规划中综合动线、交通工具、住宿偏好等因素给出最优解 [15] - 构建三层财务系统能力:建模层支持动态报表组装、执行层用AI agent实现智能风控、决策层建立模型驱动的数字大脑 [24] - 采用体验型发布会形式,通过低代码平台和prompt工程窗口让客户现场构建财务AI应用以理解技术边界 [27] 管理理念 - 企业经营核心是盈利,需通过科学资源调度和资金配置实现,决策优化是底层逻辑 [9] - 有效激励措施应平衡服务稳定性与客户满意度,如美甲店案例中采用高底薪+年度评价奖金模式实现单店年利润400万 [11] - 业财融合推动企业管理从管控/服务导向转向以经营为核心的智能化决策模式 [15] 市场趋势 - 几乎所有客户都在提出AI智能化需求,行业正处于从流程驱动到模型驱动的转型阶段 [24] - AI应用未来将收敛至专业服务商,因其需兼顾技术理解与市场需求匹配 [28] - AI如同电力革命创造而非消灭可能性,财务人员需从基础执行转向管理决策角色 [24]
震惊!传DeepSeek R2参数暴涨至1.2万亿、便宜97.3%!
是说芯语· 2025-04-28 13:12
技术突破与市场反应 - 投资平台"韭研公社"首次披露R2参数细节,包括1.2万亿参数和97.3%成本降幅,引发技术圈与资本圈震动[2][4] - HuggingFace CEO发布含DeepSeek仓库链接的神秘帖子,进一步引爆猜测[2] - 华为昇腾概念股应声大涨,拓维信息等供应链企业单日涨幅突破10%[4] - DeepSeek的HybridMoE3.0架构通过动态激活机制,让1.2万亿参数的实际计算量降至780亿[5] - 华为昇腾910B芯片集群的算力利用率达到82%,首次在硬件效率上逼近英伟达A100水平[5] 技术架构与成本优势 - DeepSeek的1.2万亿参数通过MoE架构实现动态激活,仅7%的参数在单次计算中被调用[6] - 完全搭载华为昇腾910B芯片,单卡成本降至A100的60%[6] - 通过青海数据中心集群获得20%的电价补贴,训练成本从GPT-4o的2.6美元/百万token暴跌至0.07美元[6] - 昇腾生态开始打破英伟达的垄断格局,国产算力产业链迎来历史性机遇[7] 核心公司及其关联逻辑 算力基建与硬件支持 - 拓维信息:华为昇腾生态核心代工厂,承接DeepSeek超算中心50%以上基建订单,2025年AI服务器产能预计突破10万台[7] - 中科曙光:国产液冷服务器龙头,为DeepSeek杭州训练中心提供液冷系统,单机柜功率密度达40kW,能耗成本降低30%[8] - 鸿博股份:运营华北最大算力节点,储备3000P异构算力,独家承担DeepSeek-R2北方区域推理任务[9] - 浪潮信息:为DeepSeek提供5000+台混合架构服务器(H800+昇腾910B),部署于北京亦庄智算中心[10] - 寒武纪:思元590芯片完成DeepSeek框架适配,算力密度提升40%,2025年订单能见度超50亿元[11] 多模态应用与垂直场景合作 - 东方国信:联合开发工业大模型,中标宝钢智能炼钢项目,钢铁冶炼能耗下降12%[12] - 科大讯飞:教育场景接入DeepSeek-Math模型,推出AI数学辅导应用"星火助学",覆盖全国3万所学校[13] - 拓尔思:与DeepSeek合作开发金融舆情大模型,已在中信证券部署智能研报生成系统,错误率降低90%[14] - 金山办公:WPS智能写作集成DeepSeek-Writer API,提升公文生成效率[14] 股权关联与资本纽带 - 浙江东方:通过旗下基金参与DeepSeek天使轮投资,创投业务利润贡献占比18%,潜在股权增值空间达20倍[15] - 华金资本:珠海国资旗下投资平台,参与DeepSeek Pre-A轮融资,受益于粤港澳大湾区政策倾斜[16] 数据与算力生态合作 - 每日互动:作为幻方量化二股东,提供超4亿日活设备用户行为数据,牵头浙江大数据计算中心支持算力[17] - 润泽科技:提供廊坊数据中心3000+机柜资源,采用间接蒸发冷却技术降低运营成本15%[18] 光通信与硬件技术 - 中际旭创:800G光模块批量供应DeepSeek北美节点,CPO方案降低能耗35%[19] - 天孚通信:独家供应光引擎组件,月出货量突破10万只,市占率超60%[20] 行业趋势与未来展望 - AI产业从"参数军备竞赛"转向"效率优化",从"依赖进口算力"转向"自主创新生态"[22] - 中小企业的AI创新将迎来黄金时代,算力成本不再是门槛[6] - 技术突破的意义在于让先进技术走出"象牙塔",成为赋能千行百业的工具[22]
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
量子位· 2025-04-28 11:43
多模态大模型几何解题能力评估 核心观点 - 首个从几何原理视角评估多模态大模型几何解题能力的双语基准GeoSense发布,包含5层知识架构和1789道精细标注的几何问题 [1][6][7] - 创新性提出GPI(几何原理识别)和GPA(几何原理应用)指标,弥补传统评测仅关注答案正确性的不足 [11][12] - 评测显示Gemini-2.0-Pro-Flash综合表现最佳,开源模型中Qwen-VL系列领先 [25][28][29] 评测体系设计 - **知识架构**:覆盖148个几何原理(65定义/47定理/36公式),分平面几何与立体几何5层级 [6] - **数据集**:1789道双语问题标注5556个几何原理对应关系,23位专业人员参与质量把控 [7][9] - **评估指标**: - GPI量化模型识别必要几何原理的能力(正确识别比例) [15][16] - GPA通过F1 score衡量原理与视觉元素的匹配应用 [18][20] - ACC保留传统答案正确性评分 [22] 模型表现分析 - **头部模型**: - Gemini-2.0-Pro-Flash三项指标平均分65.3,公式类GPI达87.4 [26][28] - Qwen2.5-VL-72B开源最优(AVG 60.1),较7B版本提升17% [26][35] - **短板领域**: - 平面几何理解普遍薄弱,如Claude3.5-Sonnet在TMPF原理的GPA仅32.5 [32] - 定义/定理类表现显著弱于公式类(如InternVL2.5-78B定义类ACC仅29.8) [46][48] - **规模效应**:模型参数量与表现正相关(Qwen2.5-VL从7B到72B提升8.8分) [35] 关键发现 - **能力瓶颈**:几何原理识别(GPI)是主要限制因素,GPI每提升5%可带动ACC提高7.7% [37][39] - **复杂问题挑战**:所需原理数量增加时,闭源模型GPI下降更显著(如GPT-4o复杂问题ACC仅51.7) [41][42] - **计算优势**:模型在公式类表现突出(Gemini-2.0公式类GPI 87.4 vs 定义类64.2) [26][47]
兰德:2025人工智能算法进展:进步调查与近期未来预测报告
欧米伽未来研究所2025· 2025-04-28 05:43
人工智能算法改进的本质与维度 - 算法改进定义为在特定任务上带来更好性能或减少计算资源需求的变化,改进可能是主观或客观的[3] - 强度边际改进关注效率,包括减少输入需求或在相同输入下获得更好性能[3] - 广度边际改进涉及新能力或应用领域的扩展,如解决新问题类别[3] - 改进可发生在训练阶段、训练后调整阶段或推理阶段,训练阶段改进尤为重要[3] 人工智能算法进步的历史与现状 - 算法进步在人工智能性能提升中贡献50%到100%的改进[4] - 大型语言模型性能提升中5%到40%归功于算法改进[4] - Transformer架构和缩放定律是带来性能提升的关键创新[4] - 算法进步速度无明确共识,部分研究预测每年半个数量级的改进[4] 算法改进的主要渠道 - 高影响潜力渠道包括数据合成与优化以及数据效率提升[6] - 数据合成与优化涉及生成合成数据或精简现有数据以改善训练数据集[6] - 数据效率提升包括开发计算成本更低或迭代效果更好的算法[6] - 潜在突破性渠道是开发更符合商业实用性能衡量标准的替代训练标准[7] 算法进步的案例:DeepSeek-V3 - DeepSeek-V3采用专家混合架构,实现高效推理和经济高效的训练[8] - 模型仅需2.788M H800 GPU小时完成训练,优于其他开源模型[8] - 采用多头潜在注意力机制、新负载平衡策略和多标记预测训练目标[8] - 训练后进行监督微调和强化学习以与人类偏好保持一致[8] 人工智能算法的近期未来发展 - 三种可能情景:数据限制成为瓶颈、算法无法有效扩展、算法与数据协同发展[9][10][11] - 数据限制情景下小型专注系统可能主导市场[9] - 算法无法扩展情景下小型系统可能占据主导地位[10] - 协同发展情景下大型模型可能继续主导并出现实质性突破[11] 人工智能进展的指标与政策思考 - 人工智能性能已接近或超过人类在九个技术性能基准上的表现[12] - 基准性能趋于稳定可能表明平台期或转向更复杂挑战[12] - 政策制定需关注数据隐私、共享规定或增加基础研究投资[12] - 安全和伦理问题日益重要,需技术与政策层面共同努力[12] 未来知识库资源 - 未来知识库拥有超过8000篇重要资料,每周更新不少于100篇[15] - 精选报告包括牛津、麦肯锡、斯坦福等机构的前沿研究[16] - 涵盖人工智能安全、超级智能、能源与人工智能等主题[16]
“杭州六小龙”的招聘迷局
吴晓波频道· 2025-04-27 23:18
核心观点 - 文章探讨以"杭州六小龙"为代表的中国新生代科创企业如何在"极客精神"与"商业扩张"之间寻找平衡[2][9] - 极客精神代表专注、创新和技术驱动,而扩张意味着规模化和商业化,两者存在天然矛盾[5][6] - 科创企业需要在驾驭资本洪流的同时保持极客初心,才能实现长期成功[47] 企业案例 强脑科技 - 专注于脑机接口技术,国际地位与马斯克的Neuralink相当[2] - 招聘理念以"寻找真正的极客"为核心,目前在招职位不超过20个[4][7] - 创始人工作重心在研发和严格筛选面试者,保持"小而精而美"的极客状态[2][4] 宇树科技 - 半年内在中国一线城市成立三家子公司,被视为规模化扩张开端[12] - 招聘延伸至销售、公关等非技术岗位,显示技术落地野心[12][13] - 目标是让四足机器人从春晚表演转变为能赚钱的商品[13] 智元机器人 - 成立仅一年团队规模已达1000多人,外包和实习生占比近50%[14] - 在招职位超过200个,涉及多个职能领域[14] - 快速扩张可能带来管理盲区和战略失误风险[14] DeepSeek - 团队控制在150人左右,实行精英化策略[24] - 拒绝融资和上市,招聘需求极为克制[24] - 实行"三无政策":无固定团队、无汇报关系、无年度计划[27] - 废除KPI考核,岗位分工在工作中自然形成[27] 游戏科学 - 《黑神话:悟空》开发团队仅140人,远少于传统游戏大厂[27] - 保持极客基因,初始团队只有7人[27] OpenAI - 从非营利研究机构转向商业化过程中面临挑战[28] - 2024年营收37亿美元但亏损50亿美元,GPT-5训练成本可能超10亿美元[28] - 员工从11人增至1500人,人力成本约15亿美元[28] - 商业化过程中超过20位关键人员离职[28] 群核科技 - "杭州六小龙"中首个谋求IPO的公司[33] - 研发团队615人,占员工总数44.3%[30] - 2023年营收6.64亿元,2024年平均月活跃访客8630万[30] - 现金及等价物仅余2亿元,面临盈利压力[33] - 大量招聘销售人才,BOSS直聘上需求超360个[35] 行业观察 - 科创企业扩张可能导致管理问题,如图森未来团队从2000人降至解散,市值从160亿跌至1.13亿美元[14][18][19] - 过度追求规模可能扼杀创新,如谷歌"20%时间"政策逐渐失效[39] - 纯粹依赖小型团队难以形成商业势能,如Pebble最终败给Apple Watch[40][41] - 新兴共生模式出现,如腾讯元宝接入DeepSeek后日活增长20倍[43] - 大公司与小企业深度耦合,如亚马逊云服务与Stability AI合作[45] - "技术换生态"的共生模式正在改写传统商业规则[46]
程序员工资比其他行业高?主要还是透支了未来
菜鸟教程· 2025-04-27 19:06
| | | DeepSeek公开招聘职位信息汇总 | | | --- | --- | --- | --- | | 职位名称 | 面向群体 | 申请要求 | 薪酬水平 | | 深度学习研究员 校招&实习 | | 熟练掌握至少两 | 8-11万元/月,一年14薪 | | | | 种编程语言;在 | | | | | 国际顶会或期刊 | | | | | 发表相关论文; | | | | | 知名比赛成绩 | | | 资深ui设计师 | 经验不限,本科 | 优秀的艺术类教 | 4-7万元/月,一年14薪 | | | | 育背景:有互联 | | | | | 网或科技公司UI | | | | | 设计工作经验; | | | 深度学习研发工 | 在校/应届,本科 力;工程能力; | 较强的工程能 | 4-7万元/月,一年14薪 | | 程师 | | | | | | | 知名比赛成绩 | | | 数据架构工程师 | 在校/应届,本科 | | 4.5-6.5万元/月,一年14薪 | | | | 有搜索、推荐、 广告等业务数据 | | | | | 的处理经验;有 | | | | | 规模中文网页 | | | | | 数据收集和清洗 ...
车展对话|本田中国五十岚雅行:“苦战”转型过渡期,加速与中国本土企业在华合作
21世纪经济报道· 2025-04-27 18:48
公司战略转型 - 本田在2025年上海车展展示烨品牌第二款车型GT概念车,体现电动化、智能化转型的核心技术 [1] - 公司宣布与中国科技企业Momenta、DeepSeek及宁德时代达成深度合作,推动"智电一体化"转型 [1] - 2024年被定义为快速向新能源转型的一年,但当前仍处于燃油车为主的过渡期,关键词为"苦战" [2] - 广汽本田和东风本田已启动专门生产新能源汽车的工厂,并发布烨品牌首款电动车型S7、P7 [2] 中国市场策略 - 公司策略核心为"合作"与"本地化",加速与中国本土企业合作,采用"中国速度"应对市场变化 [1][3] - 本田强调需结合中国本土供应商优势与自身技术积淀,开发具有独特价值的产品 [3][4] - 广州研发中心已投入大量人力、设备和资源进行本土化技术开发 [4] 产品与技术亮点 - 烨品牌GT概念车具备媲美F1赛车的操控性和优越性能,注重驾驶乐趣与安全平衡 [4] - 车型采用以驾驶者为中心的AI沉浸式运动座舱,副驾设计为"款待空间"提升出行体验 [4] - 电动车安全设计包括电池结构防护、车身骨骼优化、碰撞能量吸收技术及11处安全气囊 [5][6][7] - 电池安全技术涵盖内部结构设计、碰撞防护及吸能空间优化,延续燃油车时代安全第一理念 [5][6]