OctoCodingBench
搜索文档
我们对 Coding Agent 的评测,可能搞错了方向
Founder Park· 2026-01-16 20:22
我们对 Coding Agent 的评测,可能搞错了方向。 一个反复出现,但常常被忽略的现象是: 用户对 Agent 的不满,往往不是因为它「做不到」,而是因为它「做得不好」。 「做得不好」集中表现在: Agent 不遵循明确给出的指令和潜在的工程规范。比如,系统提示里明确要求「不要使用 emoji」,Agent 却在代码注释里加上 笑脸;用户要求「先备份再修改」,Agent 上手就是一键 [rm -rf] 删除文件。 这些问题的共同特征是: 任务最终可能完成了 , 但过程违反了规范 。 用户要的不只是「能跑的代码」,还有「符合团队协作规范的代码」。 这也暴露了当前主流评测体系的盲区。 学术榜单,不管是 SWE-bench verified ,还是各种基于 terminal 环境的测试,核心理念几乎都是结果导向指标 。 只问两个问题:测试通过了吗?Bug 修复了吗? 这种评估方式,不看模型在沙盒里的输出过程,也不看真实场景的交互体验。 最后的结果是:评估和真实使用场景,完全错位。 为此, MiniMax 开源了一个新评测集:OctoCodingBench。 用来 评测 Coding Agent 在完成任务的过 ...
MINIMAX-WP午前拉升逾10% 宣布开源代码智能体系统性评测集OctoCodingBench
智通财经· 2026-01-16 13:19
公司股价与市场动态 - 公司股价午前拉升逾10%,截至发稿涨8.16%,报387.2港元,成交额达3.52亿港元 [1] 技术进展与行业地位 - 公司近日开源了业内首个专门面向Coding Agent设计的综合性评估基准OctoCodingBench [1] - 评测结果显示,在关键指标“过程合规”方面,部分开源模型表现已快速逼近甚至在某些场景下超越部分闭源模型水平 [1] - 公司以“反共识”的战略定力聚焦模型智力突破,正从行业竞争中脱颖而出 [2] - 公司是上海首批获得大模型备案的企业 [2] 行业趋势与竞争焦点 - 人工智能向Agent时代演进过程中,“数据与评测范式”正逐渐取代单一模型性能,成为行业竞争新焦点 [1] 财务预测与增长前景 - 中信建投预测,2025-2027年公司营收将保持90%以上的高速增长 [2] - 公司Non-GAAP毛利率有望提升至55% [2] - 公司净亏损率预计将持续收窄 [2] 未来展望与市场空间 - 随着推理成本优化与新一代多模态模型落地,公司有望在AI原生应用领域开辟更大市场空间 [2]
港股异动 | MINIMAX-WP(00100)午前拉升逾10% 宣布开源代码智能体系统性评测集OctoCodingBench
智通财经网· 2026-01-16 11:46
公司股价与市场动态 - 公司股价午前拉升逾10%,截至发稿涨8.16%,报387.2港元,成交额3.52亿港元 [1] 公司技术进展与行业影响 - 公司正式开源其研发的代码智能体系统性评测集OctoCodingBench,该评测集为业内首个专门面向Coding Agent设计的综合性评估基准 [1] - 评测结果显示,在关键指标“过程合规”方面,部分开源模型表现已快速逼近甚至在某些场景下超越部分闭源模型水平 [1] - 此现象表明,在人工智能向Agent时代演进过程中,“数据与评测范式”正逐渐取代单一模型性能,成为行业竞争新焦点 [1] 券商观点与公司前景 - 中信建投指出,在生成式AI浪潮下,公司以“反共识”的战略定力聚焦模型智力突破,正从行业竞争中脱颖而出 [2] - 公司是上海首批获得大模型备案的企业,凭借技术深耕与商业化远见展现出强劲发展潜力 [2] - 该行预测,2025-2027年公司营收将保持90%以上的高速增长,Non-GAAP毛利率有望提升至55%,净亏损率持续收窄 [2] - 随着推理成本优化与新一代多模态模型落地,公司有望在AI原生应用领域开辟更大市场空间 [2]
OpenAI据悉正在开发一款对标苹果AirPods的人工智能设备;智谱联合华为开源首个国产芯片训练的多模态SOTA模型丨AIGC日报
创业邦· 2026-01-15 08:26
OpenAI硬件产品布局 - 公司正在开发一款对标苹果AirPods的人工智能设备,内部代号为Sweetpea [2] - 富士康已被告知提前准备生产包括耳机和触控笔在内的五款设备,Sweetpea将被优先生产 [2] - 市场预期该设备将具备拨打电话、播放音频等功能 [2] 国产AI模型与芯片进展 - 智谱联合华为开源新一代图像生成模型GLM-Image,是首个在国产芯片(昇腾Atlas 800T A2)上完成全程训练的SOTA多模态模型 [2] - 该模型基于昇思MindSpore AI框架完成从数据到训练的全流程,实现了图像生成与语言模型的联合 [2] - 在API调用模式下,生成一张图片的成本仅需0.1元,速度优化版本即将更新 [2] AI在医疗健康领域的应用突破 - 美国斯坦福大学研究人员开发出名为SleepFM的人工智能模型,可根据一晚上的睡眠数据预测约130种疾病的发病风险,包括心脏病、痴呆症和部分癌症 [2] - 该模型使用来自6.5万名参与者、总时长近60万小时的多导睡眠图数据进行训练,整合不同的生理信号并梳理其中的关系 [2] - 这是首个使用人工智能分析如此大规模睡眠数据的研究,相关论文发表在《自然-医学》杂志 [2] AI编程能力评估与模型发展 - MiniMax宣布开源面向Coding Agent的新评测集OctoCodingBench,并基于此对现有开源闭源模型进行了广泛评估 [2] - 评估发现所有模型的Check-level准确率(CSR)可以达到80%以上,但Instance-level成功率(ISR)只有10%至30% [2] - 绝大多数模型的指令遵循能力会随着轮次的变多逐渐下降,现阶段模型表现普遍未能达到生产级要求,过程合规仍是盲区 [2] - 开源模型正在快速追赶闭源模型 [2]
AI进化速递 | 智谱联合华为开源新模型
第一财经· 2026-01-14 21:19
开源模型与基准测试进展 - 智谱与华为联合开源首个基于国产芯片训练的多模态SOTA模型GLM-Image [1] - 谷歌宣布推出开源医疗模型MedGemma 1.5 [1] - MiniMax发布OctoCodingBench基准测试,旨在定义Coding Agent的生产级标准 [1] 人工智能产品与工具创新 - OpenAI据悉正开发一款对标苹果AirPods的人工智能设备,内部代号为Sweetpea [1] - Anthropic发布全新智能体工具Cowork,旨在让普通用户能轻松处理非技术性任务 [1] - 爱诗科技发布全球首个通用实时世界模型PixVerse R1,支持最高1080P画质 [1] 行业战略合作与投资 - 视觉中国与PureblueAI清蓝达成战略合作,将围绕“数据供给+GEO营销的全链路服务”展开深度协同 [1] - 凯辉基金领投DeepWisdom新一轮融资,资金将主要用于多智能体系统的持续研发 [1] - AI芯片初创企业Etched以50亿美元估值完成5亿美元融资 [1] 前沿技术研发突破 - 我国首台海底地层空间钻探与监测机器人研发成功 [1]
【太平洋科技-每日观点&资讯】(2026-01-15)
远峰电子· 2026-01-14 20:46
大盘指数与板块表现 - 2025年1月14日,A股主要指数涨跌互现,科创50指数领涨,涨幅为+2.13%,北证50指数上涨+0.98%,创业板指上涨+0.82%,深证成指上涨+0.56%,上证指数下跌-0.31% [1] - TMT板块内部分化显著,领涨板块为SW门户网站(+10.62%)、SW通信应用增值服务(+7.17%)和SW营销代理(+6.74%) [1] - TMT领跌板块包括SW机器人(-0.81%)、SW军工电子Ⅲ(-0.57%)和SW游戏Ⅲ(-0.49%) [1] 国内产业动态 - **半导体材料**:浙江晶瑞SuperSiC成功实现12英寸碳化硅衬底厚度均匀性(TTV)≤1μm的关键技术突破,打通了晶体加工、切割、减薄、抛光、清洗、检测全流程,并实现设备100%国产化 [1] - **新能源材料**:容百科技与宁德时代签署长期采购协议,自2026年第一季度起至2031年,容百科技将为宁德时代国内区域供应合计预计305万吨磷酸铁锂正极材料,协议总销售金额超1200亿元 [1] - **高端装备**:我国首台海底地层空间钻探与监测机器人研发成功,搭载惯性导航、磁信标辅助定位与人工智能算法,在200米范围内三维定位误差小于0.3米,避障成功率高达99.5% [1] - **显示材料**:乐凯光电计划投资建设TAC功能膜涂布生产线项目,设计产品最大幅宽1,540mm,生产车速30m/min,达产后具备年产TAC功能膜1,800万平方米的生产能力 [1] 海外产业动态 - **存储芯片**:据韩媒报道,全球三大DRAM内存原厂的2026年总产能预计在1800万片晶圆上下,相较2025年增长约5%,新一波产能将在2027~2028年正式落地 [2] - **半导体材料**:Wolfspeed宣布成功生产出300毫米(12英寸)单晶体碳化硅晶圆,其平台将统一高容量功率电子制造和高纯度半绝缘衬底能力,支持跨光学、光子、热和功率领域的新型晶圆级集成 [2] - **半导体软件**:西门子收购PCBA测试验证和工程软件公司ASTER,将先进的“左移”设计测试功能整合到其Xpedition和Valor软件组合中 [2] - **半导体出口管制**:美国工业与安全局调整对华及中国澳门地区特定半导体产品的出口许可审核政策,从“原则上拒绝”调整为“逐案审查”,涵盖产品包括英伟达H200芯片及其同等性能产品 [2] 人工智能与前沿科技 - **AI视频生成**:爱诗科技发布PixVerse R1模型,基于Omni原生多模态基础模型,可将视频生成延迟从“秒级”降至“即时”,实现实时交互体验,应用覆盖游戏、影视、娱乐等领域 [3] - **医疗大模型**:百川智能开源新一代医疗大模型Baichuan-M3,在全球权威医疗AI评测HealthBench中以65.1分的综合成绩位列全球第一,在HealthBench Hard上以44.4分夺冠,并具备原生“端到端”严肃问诊能力 [3] - **AI药物研发**:清华大学研发DrugCLIP平台,筛选速度对比传统方法实现了百万倍提升,预测准确率取得显著突破,平台已累计服务多家生物医药企业 [3] - **AI Agent评测**:MiniMax开源首个面向Coding Agent的系统性评测集OctoCodingBench,评测结果显示部分开源模型在过程合规指标上已快速逼近甚至超越部分闭源模型 [3] “十五五”重点产业追踪 - **深空经济**:长征六号改、长征八号甲两枚运载火箭相继发射,将遥感五十号01星、卫星互联网低轨18组卫星精准送入预定轨道 [4] - **高端仪器**:联讯仪器将迎来科创板IPO上会审议,其65GHz采样示波器、120GBaud时钟恢复单元、1.6Tbps误码分析仪组成的1.6T光模块测试套件是全球第二家实现量产供货的产品组合,打破美日企业在高端光通信测试领域的长期垄断 [4] - **脑机接口**:蚌埠医科大学第一附属医院神经内科团队成功实施国内首例磁共振引导多通道深部脑刺激(无创脑机接口)治疗,让一名急性脑梗死致左侧肢体偏瘫的患者肢体无力症状得到明显改善 [4] - **新材料**:甬金股份的钛材业务已顺利投产并进入市场流通,钛材凭借高强度、低密度、耐腐蚀、耐高温等性能在航空航天、医疗、化工等领域广泛应用,目前中源钛业项目已基本满产 [4] 存储与半导体材料价格 - **存储现货价格**:2025年1月14日,国际DRAM颗粒现货价格多数上涨,其中DDR5 16G (2G×8) 4800/5600盘均价为34.075美元,日涨幅2.00%;DDR4 16Gb (2G×8) 3200盘均价为75.000美元,日涨幅2.04%;DDR3 4Gb 512M×8 1600/1866盘均价为4.389美元,日涨幅1.60% [6] - **半导体材料价格**:2025年1月14日,百川盈孚监测的半导体材料价格整体稳定,部分高纯金属价格出现上涨,其中6N高纯钢市场均价为3,450元/千克,日上涨200元;7N高纯钢市场均价为3,950元/千克,日上涨200元 [7] - **碳化硅衬底价格**:当日碳化硅衬底价格保持稳定,例如导电N型6寸D级单晶碳化硅衬底市场均价为2,150元/片,导电N型8寸P级单晶碳化硅衬底市场均价为59,000元/片 [7]