Workflow
Cursor 2.0
icon
搜索文档
惊了!AI开发不用PRD,零代码Demo跑通全流程,效率直接暴涨40%
搜狐财经· 2025-12-06 07:06
传统PRD在AI产品开发中失灵 - 传统PRD在AI项目中失效,核心在于AI的非确定性交互与业务流程的涌现性难以用固定文档定义[5] - AI的“坏脾气”体现在其反应无准头,例如文档要求“语气温柔”,但AI可能表现为老中医式叮嘱或客服式假客气,这种微妙差异文字无法描述[6] - AI业务流程具有“乱窜”的涌现性,例如医疗项目中患者提及“吃海鲜多”,AI可联动触发尿酸检测建议并锁定药品库存,形成数百个分支的复杂跨端联动,无法用固定流程图定义[8] - 2025年欧盟更新GDPR医疗数据条款,要求AI问诊记录加密存储且不超过6个月,传统文档循环开发模式易在软逻辑与硬合规之间遗漏关键要求[10] AI编程工具革命赋能产品经理 - 2025年AI编程工具爆发,使“代码即需求”成为现实,产品经理无需懂技术即可将想法转化为可运行Demo[3] - Cursor 2.0允许通过自然语言聊天生成代码,例如产品经理可直接要求“写Python脚本连接GPT-4,在医疗场景下首句必须询问过敏史”,调试好的提示词可清晰传递核心逻辑给开发[12] - 字节跳动Trae 2.0的SOLO模式可由AI主导从需求到部署的全过程,生成三端联动原型(如患者聊天框、医生面板、实时病历同步)仅需不到半小时,大幅提升效率[12] - 谷歌Gemini 3.0拥有百万级上下文窗口,可处理整个代码仓库,其生成代码量比同类模型少68%,结合v0.dev草图转代码功能,能帮助UI设计师直观优化AI流式输出的交互体验[13] AI时代产品交付标准升级 - 成熟的产品交付转向“Demo + 文档 + 评测集”组合,Demo用于验证AI人设、语气及交互流程等软逻辑,支持现场修改参数(如调整提示词为“用简练医学术语”)并即时刷新,实现高效敏捷开发[15] - 硬逻辑仍需精简文档严格定义,包括数据字段映射、订单状态流转及API接口等,阿里健康AI医疗项目通过建立包含100个测试场景的“黄金评测集”,要求AI得分90分以上,使需求准确率提升40%[17] - 行业强调需将AI与业务流程及数据深度结合,硬规则必须明确[18] - 交付需避开Demo陷阱,必须附带非功能性需求清单,例如生产环境需符合GDPR加密要求、设计排队系统以支持50人同时请求,并优化成本避免因每次请求产生过高费用[20] AI产品开发范式转变 - AI产品开发核心从比拼PRD文档厚度,转变为比拼想法落地速度[22] - 产品经理角色从“传声筒”转变为“创造者”,核心竞争力在于能快速做出可交互、看得见摸得着的原型[22] - 工具是助力而非万能,软体验靠Demo验证,硬逻辑靠文档落实,合规与性能底线不容丢失[22]
老外傻眼,明用英文提问,DeepSeek依然坚持中文思考
36氪· 2025-12-03 17:14
DeepSeek模型新版本发布 - 公司推出DeepSeek-V3.2和DeepSeek-V3.2-Speciale两大新模型,推理能力显著提升[1] - DeepSeek-V3.2版本能与GPT-5硬碰硬,Speciale版本结合长思考和定理证明能力,表现媲美Gemini-3.0-Pro[1] - 海外研究者反馈DeepSeek推理速度显著提升,但在用英文询问时思考过程仍会使用中文[1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理可减少Token消耗并保持准确性,即使翻译回英语优势依然存在[5] - 在所有评估模型和数据集上,非英语语言推理能实现20-40%的显著令牌降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等,Qwen 3韩语减少量高达73%[9] - 中文表达相同文本含义所需字符量明显少于英文,信息密度更高,但并非最有效率的语言[3][5][9] 长上下文多语言性能表现 - 马里兰大学和微软研究提出多语言基准OneRuler,评估26种语言在128K令牌长上下文理解能力[10] - 实验表明英语在长上下文任务中排名第6,波兰语位居榜首,低资源语言与高资源语言性能差距随上下文长度增加而扩大[10] - Gemini 1.5 Flash展现最佳长上下文性能,英语和中文均未进入排名前五语言[15] 大模型思考语言选择因素 - 国产大模型因训练数据包含更多中文内容,思考过程出现中文属正常现象,如AI编程工具Cursor 2.0核心模型思考过程完全由中文构成[17] - OpenAI的o1-pro模型也会随机出现中文思考过程,尽管其训练过程中英文数据占比更高[20] - 不同语言有不同特性,在大模型中会产生各种现象,中文训练语料日益丰富[24][25]
老外傻眼!明用英文提问,DeepSeek依然坚持中文思考
机器之心· 2025-12-03 16:30
DeepSeek模型新版本发布 - DeepSeek上新两个新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - V3.2版本推理能力能与GPT-5硬碰硬,Speciale结合长思考和定理证明能力表现媲美Gemini-3.0-Pro [1] - 海外研究者反馈DeepSeek推理速度显著提升 [1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理能减少Token消耗并保持准确性 [7] - 研究评估了DeepSeek R1、Qwen 2.5和Qwen 3模型在七种目标语言中的表现 [8] - 与英语相比,非英语语言推理能实现20-40%的Token降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等 [11] - Qwen 3表现更显著,韩语的token减少量高达73% [11] 中文推理特性分析 - 海外用户发现即使用英文询问,DeepSeek在思考过程中仍会使用中文 [1] - 评论普遍认为汉字信息密度更高,表达相同含义所需字符量明显更少 [4][6] - 中文相比英文能够节省推理token成本,但并非最有效率语言 [12] 长上下文多语言性能比较 - OneRuler基准包含26种语言,用于评估LLM在长达128K令牌的上下文理解能力 [12] - 英语在长上下文任务中排名第6,波兰语位居榜首 [14] - 英语和中文均未进入长上下文性能排名前五的语言 [18] 训练数据对思考语言的影响 - 国产大模型采用更多中文训练语料,思考过程出现中文是正常现象 [20] - AI编程工具Cursor的Composer-1模型思考过程完全由中文构成 [21] - OpenAI的o1-pro模型也会随机出现中文思考过程 [25]
Z Product | Product Hunt最佳产品(10.27-11.2),Cursor 与 Vercel 霸榜
Z Potentials· 2025-11-09 11:01
文章核心观点 - 文章总结了2024年10月27日至11月2日期间Product Hunt平台上最受欢迎的十款AI相关产品,这些产品覆盖了代码开发、社交媒体营销、支付计费、邮件管理、内容创作、分布式计算、无代码构建和智能语音代理等多个领域[1][2] - 所有上榜产品均展示了AI技术在不同垂直行业的深度应用和商业化潜力,核心价值主张集中在通过AI提升效率、降低技术门槛和实现业务流程自动化[6][11][16][21][29][33][40][45][50][54] - 产品数据表现(Upvote和Comment数量)反映了市场对AI工具的热度,其中开发工具和效率提升类产品(如Cursor 2.0, v0, Superinbox)获得了较高的社区关注度[8][13][19][24][31][35][43][48][52][56] 产品目录总结 TOP1: Cursor 2.0 - 产品定位为集成多智能体和自研模型的AI代码编辑器,核心价值在于通过自研编码模型Composer和多智能体并行协作界面提升代码编写、审查和自动化工作效率[3][6] - 目标用户为对智能编码助手有高要求的开发者、工程团队及追求极致自动化和代码质量控制的技术公司[6] - 核心功能包括Composer自研编码模型、多智能体并行支持以及集成浏览器Agent、语音模式等,解决了传统AI编程助手功能分散、协作低效的问题[6][7] - 数据表现方面,获得了689个Upvote和42条Comment[8] TOP2: v0 by Vercel - 产品定位为面向网页全栈开发的协作型AI设计与工程平台,核心价值是以AI实时协助优化UI生成、代码迭代和全栈架构,降低开发门槛[9][11] - 目标用户涵盖独立开发者、创业团队、技术公司及需要快速交付高质量web应用的产品经理和技术负责人[11] - 核心功能亮点包括AI驱动的全栈设计与代码辅助、多人协作空间以及端到端可视化流程,解决前后端沟通协作缓慢、设计与工程割裂等痛点[11][12] - 数据表现方面,获得了589个Upvote和44条Comment[13] TOP3: Postiz - 产品定位为面向社交媒体管理者的多渠道AI自动发布工具,核心价值在于利用智能代理支持将内容自动调度至20多个社交平台[14][16] - 目标用户为企业品牌、数字营销团队、内容创作者及社交媒体运营者,特别适合多账号管理和需提升发布效率的用户[16][17] - 核心功能亮点包括支持20+主流社交媒体的自动排程发布、集成多渠道发布平台(MCP)以及开放连接ChatGPT、Claude等AI和自动化工具[17][18] - 数据表现方面,获得了561个Upvote和61条Comment[19] TOP4: Sentra by Dodo Payments - 产品定位为面向AI、SaaS及数字产品的支付与计费集成平台,核心价值在于通过智能代理Sentra自动处理SDK/API集成,实现无缝账单和支付管理[20][21] - 目标用户是数字产品公司、SaaS创业团队和需要全球支付方案的技术企业,尤其关注合规和个性化自动化需求的企业客户[21][22] - 核心功能亮点包括支持150+国家、30+支付方式的无缝集成、覆盖多样计费模式自动化以及内置实时营收分析和客户动作自动执行[22][23] - 数据表现方面,获得了531个Upvote和64条Comment[24] TOP5: Superinbox - 产品定位为基于AI的邮箱管理优化工具,核心价值在于利用AI学习用户写作风格,自动草拟高质量回复,同时智能整理Gmail/Outlook收件箱[25][29] - 目标用户主要是繁忙的专业人士、企业团队和需要高效邮箱管理的用户,追求节约时间和提升沟通质量[29][30] - 核心功能亮点包括AI学习用户写作习惯自动生成个性化回复、智能归档与标签自动整理收件箱以及无缝集成在现有邮箱无需新应用[30] - 数据表现方面,获得了513个Upvote和86条Comment[31] TOP6: Dynal.AI - 产品定位为专注于将创意、链接、PDF及图片快速转化为可发布的LinkedIn帖子的智能内容生成工具[32][33] - 目标用户为需要建立个人品牌、活跃在LinkedIn社区的专业人士、内容创作者及市场营销人员[33] - 核心功能亮点包括从多样化素材智能提炼关键信息、基于用户语气的动态文案生成以及自动匹配视觉元素生成整体吸引力高的帖子内容[33][34] - 数据表现方面,获得了461个Upvote和80条Comment[35] TOP7: Parallax by Gradient - 产品定位为面向开发者和AI研究者的分布式AI计算平台,核心价值在于让用户轻松构建自有的多设备AI集群,跨硬件配置共享运行大型语言模型[37][40] - 目标用户包括AI工程师、数据科学家、研究机构及需规模化运算的技术团队,尤其关注高效利用异构设备的集群计算[40][41] - 核心功能亮点包括跨设备低门槛集群搭建、兼容多种大型语言模型支持调度优化以及支持本地和远程设备无缝协同[41] - 数据表现方面,获得了444个Upvote和60条Comment[43] TOP8: Base44: The all-new builder - 产品定位为新一代智能无代码应用构建平台,核心价值在于通过智能引擎理解用户需求,自动执行网页搜索、智能文件检索等,实现上下文感知的全流程应用构建[44][45] - 目标用户面向创业者、中小企业主、产品经理及缺乏编程能力的创意工作者,促进技术门槛极大降低和创作效率提升[45][46] - 核心功能亮点包括智能理解用户指令实现自动化生成、集成网页搜索和智能文件查找支持实时数据调用以及无代码环境支持视觉化设计[46][47] - 数据表现方面,获得了448个Upvote和21条Comment[48] TOP9: Animation Builder by Unicorns Club - 产品定位为面向创业者的社交成长与融资社区,其免费动画生成器帮助用户轻松将创业里程碑转化为TikTok风格的动态短视频[49][50] - 目标用户为初创企业创始人、产品团队以及希望通过生动内容吸引关注的创业社区成员[50] - 核心功能亮点包括支持关键创业数据自动转化为动态动画、所见即所得编辑操作简单以及免费使用便于早期团队快速生成内容[50][51] - 数据表现方面,获得了439个Upvote和69条Comment[52] TOP10: Peakflo AI Voice Agents - 产品定位为企业级智能语音助手,设计用于自动处理业务运营电话,具备人类对话能力和持续记忆[53][54] - 目标用户为需要高频电话互动的客户服务团队、企业运营管理部门及追求数字化转型的中大型企业[54] - 核心功能亮点包括具备类人对话能力与持续上下文记忆、支持自动触发业务逻辑动态响应客户请求以及实时与CRM、ERP等系统集成[54][55] - 数据表现方面,获得了438个Upvote和79条Comment[56]
微软瞄准“超级智能”新赛道,科创AIETF(588790)回调迎布局时点
新浪财经· 2025-11-07 11:08
指数与ETF表现 - 截至2025年11月7日10:34,上证科创板人工智能指数下跌1.86% [3] - 指数成分股中复旦微电领跌4.40%,芯原股份下跌3.04%,海天瑞声下跌2.96%,云天励飞下跌2.80%,奥比中光下跌2.68% [3] - 科创AIETF(588790)下跌1.88%,最新报价0.78元,近3月累计上涨22.73% [3] - 科创AIETF盘中换手1.65%,成交9977.83万元,近1月日均成交4.16亿元,居可比基金第一 [3] - 科创AIETF近半年规模增长32.46亿元,新增规模位居可比基金1/10 [4] - 科创AIETF近1周份额增长1.44亿份,新增份额位居可比基金2/10 [5] - 科创AIETF最新资金净流出2370.83万元,但近5个交易日内有4日资金净流入,合计流入1.40亿元,日均净流入2800.34万元 [5] 行业动态与技术进展 - 微软公司寻求发展更强大的"超级智能"AI形式,目标在医学和材料科学等领域取得进展,由穆斯塔法·苏莱曼领导"人文超级智能"团队 [3] - 科大讯飞于11月5日举办讯飞星火AIPC产品发布会暨生态合作伙伴交流活动,并与伟仕佳杰、南天东华、华数传媒、华胜天成、联通数科、商海文天等多家企业完成合作签约 [3] - AI编程平台Cursor升级至2.0版本并推出自研模型Composer,专为低延迟编码优化,多数任务可在30秒内完成,输出速度超过200 token/s [4] - Cursor 2.0模型采用MoE架构与原生MXFP8低精度训练体系,结合强化学习实现代码修复与测试能力,支持最多8个Agent并行协作 [4] - 全球AI生态呈现加速扩张态势,产业端、资本端与政策端动作交织,AI投资呈现"基础设施升级+应用落地+资本化推进"三大主线 [4] 指数构成与权重 - 上证科创板人工智能指数从科创板市场选取30只市值较大的为人工智能提供基础资源、技术以及应用支持的上市公司证券作为指数样本 [5] - 截至2025年10月31日,指数前十大权重股分别为澜起科技、金山办公、寒武纪、芯原股份、石头科技、晶晨股份、恒玄科技、复旦微电、云天励飞、道通科技 [5] - 前十大权重股合计占比70.92% [5]
老黄亲自站台,英伟达编程神器,Cursor 2.0自研模型狂飙4倍
36氪· 2025-10-30 15:33
核心产品升级:Cursor 2.0与自研模型Composer - Cursor发布2.0版本,核心是推出首款自研编码模型Composer,改变了长期依赖外部模型的局面[1][6] - Composer模型的速度是同等模型的4倍,专为低延迟智能编码打造,大部分任务可在30秒内完成,速度达到200 Tokens/秒[1][2] - 模型采用专家混合架构,并通过强化学习对软件工程进行专项优化,能自发习得执行复杂搜索、修复错误等能力[9][13] 功能与交互改进 - 重构了IDE交互逻辑,引入多智能体模式,可最多并行运行8个智能体,使用git worktrees或远程机器防止文件冲突[2] - 引入全新的代码审查功能,便于查看Agent在所有文件中的更改,无需来回切换文件[3] - 新增语音模式,支持动嘴编程,并改进上下文收集,Agent可自我收集上下文,无需手动附加[5] 技术架构与基础设施 - 公司基于PyTorch和Ray构建了定制化训练基础设施,以支持大规模环境下的异步强化学习[14] - 通过结合MXFP8 MoE kernels与专家并行等技术,能够在数千张NVIDIA GPU上以极低通信开销扩展训练,并实现更快推理速度[15] 市场定位与早期反馈 - 公司估值为百亿美金,此前受困于依赖Claude等外部模型及其收费模式,导致营收贡献给模型厂商,利润空间受限[6] - 英伟达在GTC 2025大会上提及公司产品,称其软件工程师都在使用Cursor,将其视为提升生产力的编程搭档[6] - 早期测试开发者反馈产品速度很快,但智能程度有观点认为不如Sonnet 4.5和GPT-5,多智能体模式适合宽屏使用[16][26][30][33] 行业竞争格局 - AI编程领域竞争激烈,存在Claude Code、Codex等众多工具[34] - 公司主要优势是较早占领了AI编程工具的市场心智,通过魔改VSCode和套壳API达到百亿美金估值[34]
Cursor 2.0来了,多agent并行,自研模型30秒跑完多数任务,MXFP8训练
36氪· 2025-10-30 12:35
产品升级概述 - 知名AI编程平台Cursor宣布升级到2.0版本,推出了包括自研编程模型Composer、用于并行协作多个Agent的新界面等15项升级 [1] 自研编程模型Composer - Composer模型专为低延迟的Agentic编程打造,大多数任务回合在30秒内完成,其速度达到同等智能模型的4倍,每秒输出的token数超过200个 [1] - 在内部评估中,Composer的智能水平超过最佳的开源编程模型(包括Qwen Coder和GLM 4.6),速度优于现有的前沿轻量级模型(包括Claude Haiku 4.5和Gemini Flash 2.5),但其智能水平仍低于GPT-5和Claude Sonnet 4.5 [1] - Composer是一个专家混合模型,支持长上下文的生成与理解,通过在多样化的开发环境中进行强化学习,对软件工程进行了专项优化 [35] 用户界面与交互体验 - Cursor 2.0的UI界面围绕Agent进行重新设计,不再以文件为核心,开发者可以聚焦目标,让不同的Agent分别处理实现细节 [3] - 用户仍可打开文件或一键切换回经典IDE视图以深入查看或编辑代码 [3] - 改进的提示词界面进行了全面优化,文件和目录以内嵌标签形式展示,复制和粘贴带有上下文标签的提示内容更加便捷,同时简化了上下文菜单 [25] 多Agent并行处理能力 - Cursor 2.0支持并行运行最多8个Agent,它们可以在不同的工作区中互不干扰地工作,用户还可以让多个Agent同时尝试解决同一问题,再择优采用最优方案 [3][6] - 多Agent并行功能使用git worktrees或者远程虚拟机完成,以避免文件冲突,每个Agent都会拥有专注的隔离代码库副本 [7] 浏览器集成与前端开发 - Agent可以控制Cursor内置的浏览器,通过导航、点击、输入、滚动、截屏等操作,完成测试应用、评估无障碍性、将设计转为代码等复杂任务 [9] - 新增的原生浏览器让Cursor 2.0能自动测试其工作并迭代直到产出正确结果,用户可以直接选中网页元素让Cursor修改 [5] - Cursor对浏览器工具进行了优化以提升效率并减少token使用,优化方向包括更高效的日志处理、图像级可视化反馈、智能提示、开发服务器感知等 [12] 代码审查与测试功能 - 改进的代码审查功能把所有修改聚合到一个界面,用户更容易查看Agent对多个文件所做的所有更改,而无需在各个文件之间跳转 [13] - 新增的原生浏览器功能让Cursor 2.0能自动测试其工作并迭代,直到产出正确结果 [5] 安全性与团队管理 - Cursor推出了沙盒终端功能的macOS版本,macOS版本的Agent命令和未列入允许列表的shell命令将默认在安全沙盒中运行,该沙盒环境拥有对用户工作区的读写权限,但无法访问互联网 [16] - 团队管理者可以在Cursor中自定义命令和规则,这一上下文将自动应用于所有团队成员,而无需存储在本地编辑器中 [19] - 企业管理员可以在团队级别统一配置沙盒终端的标准设置,包括沙盒可用性、Git访问权限以及网络访问策略 [28] 性能与基础设施优化 - Cursor使用语言服务器协议来实现特定于语言的功能,如今大幅提升了所有语言的LSP加载和使用性能,这一提升在Agent场景和查看代码差异时尤为明显 [22] - 对于大型项目,Python和TypeScript LSP默认运行速度将会更快,内存限制会根据可用RAM动态配置,公司还修复了一些内存泄漏问题,并提高了整体内存使用率 [22] - Cursor基于PyTorch和Ray构建了定制化训练基础设施,以在大规模环境下支持异步强化学习,并采用了MXFP8 MoE kernels、专家并行和混合分片数据并行,在原生低精度下完成训练 [40] 企业版特定功能 - 企业团队现在可以直接通过Web控制台分发Hooks,管理员能够新增Hooks、保存草稿,并灵活指定不同操作系统所适用的Hooks [29] - Cursor为企业用户提供了详细的审计日志功能,帮助团队跟踪关键操作、变更记录与合规性事件 [30] - 公司为企业用户使用Agent浏览器功能提供了额外支持,如MCP黑白名单管控等安全功能 [9] 模型训练与开发理念 - 在研发过程中,公司试验了一个代号为“猎豹”的原型Agent模型以更好地理解高速Agent模型的影响,Composer是该模型的智能升级版 [31] - 公司鼓励模型在工具使用上做出高效选择,并在可能的情况下最大化并行处理,通过减少不必要的回复、避免无依据的陈述来训练模型成为更有帮助的助手 [38] - 模型在强化学习时会自发习得一些有用能力,例如执行复杂搜索、修复linter错误,以及编写并运行单元测试 [39]
刚刚,Cursor 2.0携自研模型Composer强势登场,不再只做「壳」
机器之心· 2025-10-30 09:41
Cursor 2.0 版本发布 - Cursor 发布重大更新,包括首个自研编码模型 Composer 和用于并行协作多个智能体的新界面 [2] 自研模型 Composer 的意义 - Composer 的发布标志着公司从依赖第三方模型的“AI外壳”向“AI原生平台”的战略转型 [3][4] - 此举旨在打破长期依赖 Claude、GPT 等第三方模型的瓶颈 [3] 模型 Composer 的性能特点 - 模型生成速度达到每秒 250 个 token,是领先快速推理模型的两倍,是同类前沿系统的四倍 [9] - 模型智能程度匹敌中端前沿系统,但速度遥遥领先 [6][9] - 模型专为低延迟的智能体式编码打造,大多数任务回合在 30 秒内完成 [11] - 模型通过覆盖整个代码库的语义搜索等工具进行训练,在处理大型代码库方面能力显著更强 [12] 模型 Composer 的技术架构 - Composer 是一种混合专家模型,支持长上下文的生成与理解 [16] - 模型通过在多样化开发环境中进行强化学习,针对软件工程进行专项优化 [16] - 训练鼓励模型高效使用工具并最大化并行处理,模型自发习得执行复杂搜索、修复错误等能力 [19] - 公司构建了新的基准测试 Cursor Bench,以更贴近开发者实际使用价值的方式评估模型 [16] Cursor 2.0 的多智能体界面 - 新界面彻底以“智能体”为中心,用户可专注于结果,让智能体处理细节 [22] - 系统能够轻松并行运行多个互不干扰的智能体,并可利用多个模型尝试同一问题以提升结果质量 [22] - 新版本开始解决代码评审与变更测试这两个新的瓶颈 [24][25] - 构建了原生浏览器工具,使智能体可以测试其工作并持续迭代直至产出正确结果 [26] 训练基础设施 - 公司基于 PyTorch 和 Ray 构建了定制化训练基础设施,以支持大规模异步强化学习 [28] - 通过结合 MXFP8 MoE kernels 与专家并行等技术,将训练扩展到数千张 NVIDIA GPU,并实现更快的推理速度 [28] - 重写了虚拟机调度器,以支持在云端并发运行数十万份隔离的沙盒编码环境,实现了训练与生产环境的无缝统一 [28] 市场反馈与应用 - Composer 已被公司自身的工程团队在日常开发中使用,表明其成熟度和稳定性 [20] - 本次大版本更新获得了大量关注,早期体验开发者给出了积极反馈 [30][31][36]
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
量子位· 2025-10-30 09:06
产品发布与核心升级 - Cursor 2.0正式发布,并首次搭载了公司内部研发的大模型Composer [1][2] - 新模型Composer专为低延迟编码打造,能在30秒内完成大多数交互任务,比同行快400% [3][12] - 产品界面逻辑从“以文件为中心”切换为“以Agent为中心”,支持多个Agent同时运行、互不干扰 [6][7] 核心技术能力 - Composer模型基于强化学习训练,是一个大型MoE模型,训练过程在完整的Cursor环境中进行,使其能直接使用生产级工具 [21][22][25][26] - 模型生成代码的速度达到每秒250个tokens,比当前最快的推理模型快约两倍,比其他模型快四倍 [19][20] - 模型展现出涌现行为,能自动运行单元测试、修复代码格式错误,并可自主完成多步代码搜索与调试流程 [31] 新功能特性 - 新增原生浏览器工具,模型可以自己动手测试代码、调错、迭代,直到结果完全正确 [4] - 支持语音生成代码功能,用户无需敲键盘,可直接通过语音将思路转化为代码 [5] - 多Agent协作的基础架构建立在Composer的底层能力之上,允许让多个Agent同时尝试同一问题并择优采用 [32] 模型性能与评估 - 模型性能通过内部测试套件“Cursor Bench”评估,该系统根据真实开发者使用场景打造 [17] - 评估不仅关注代码正确性,还评估模型是否遵守抽象层次、风格规范和工程实践 [18] - 即便面对体量庞大、结构复杂的代码库,模型也能保持高水准的推理与理解能力 [13] 行业定位与战略 - 此次发布标志着公司从依赖GPT或Claude等外部模型,转向使用自研基座模型 [9][10][11] - 公司战略是发挥在应用端的产品优势,让模型直接在与用户相同的真实环境中运行,而非与头部基座模型直接竞争 [35][36]