Workflow
开源模型
icon
搜索文档
硅谷今夜学中文,Cursor被曝「套壳」国产,AI顶级人才全是华人
36氪· 2025-11-03 11:36
行业人才结构变化 - 硅谷AI顶尖人才中华人比例显著提升,例如Meta新成立的超级智能实验室44人团队中近一半为华人[27] - OpenAI等重要AI公司的核心贡献者名单和会议现场也出现大量华人身影[3][37] - 华人科学家在关键项目中担任重要角色,如Meta首席科学家赵晟佳是ChatGPT初始团队成员和GPT-4核心贡献者[31],研究负责人宋飏是扩散模型技术奠基者[35] 中国开源模型技术实力 - 在Artificial Analysis Intelligence指数榜单上,中国开源模型如MiniMax-M2、DeepSeek-V3.1、Qwen3-235B-A22B、GLM-4-6、Kimi K2等稳居第一梯队,超越Meta的Llama系列[15] - DeepSeek V3-1在Coding指数榜单上表现优于谷歌Gemini 2-5 Pro[17] - 在智能体榜单上,Kimi、GLM和Qwen也排名前列[19] 海外公司对中国模型的应用 - 知名投资人Chamath Palihapitiya团队将大量工作负载从Bedrock迁移到Kimi K2,因为性能更优且成本更低[11] - Cursor发布的Composer模型在思考过程中频繁使用中文,被质疑是基于中国开源模型微调[4][8] - Windsurf直接承认使用GLM-4-6的定制版本进行微调和强化学习[8][55] - Vercel提供GLM-4-6的API服务,因其在nextjs-org/evals中排名第三且是前五名中唯一的开源模型[47] - Airbnb的客服AI由13个模型组成,很大程度上依赖Qwen来支持,认为其比OpenAI产品更好更便宜[49] 成本与性能优势 - 中国开源模型能以20%的成本提供80%的性能,在某些领域如编码甚至能提供100%-110%的性能而成本依然低廉[57] - 自研模型难度与成本过高,使得海外公司更倾向于在开源SOTA模型上进行二次训练[14] - 模型量大管饱、性能好且价格便宜成为海外公司选择中国模型的主要原因[11]
最新外国「自研」大模型,都是套壳国产?
36氪· 2025-11-01 13:02
Cursor公司Composer模型发布 - Cursor发布2.0版重大更新,推出首个自家代码模型Composer以及用于并行协作多个智能体的新界面[4] - Composer是使用强化学习训练的大型MoE模型,能够出色处理实际代码且速度非常快[4] - 在内部基准测试中,该模型在编码任务上达到行业前沿水准,生成速度比同类模型快四倍[7] 模型技术来源推测 - 新模型Composer在思考时大量输出中文,行为与国产模型极其相似,引发对其基于中国AI模型开发的猜测[4][9] - 有分析认为Cognition的SWE 1.5模型是基于智谱AI的GLM大模型进行开发和改进的[11] - 网友对SWE 1.5进行“越狱”后,模型直接回答自己是智谱AI开发的GLM大模型[11] - 业界观点认为Cursor的Composer模型和Cognition的SWE-1.5都是基于中国公司智谱的GLM 4.6模型进行定制精调[16] 模型开发策略分析 - 分析指出WindSurf和Cursor的新模型都是经过微调而非从零训练,这对于开源社区是胜利[17] - 从头训练基础模型成本极其高昂,许多资源更雄厚的公司都未能成功,因此后期投资强化学习是合逻辑的选择[17] - Cursor和WindSurf团队被认为没有足够资金建设庞大训练集群,也没有足够数据和团队支持从零建立大模型[18] 中国开源模型市场地位 - 英伟达CEO黄仁勋指出开源模型已变得非常强大,大大加速AI应用进程[21] - 2025年以来,阿里的通义千问模型已占据开源模型大部分市场份额,领先优势持续扩大,衍生模型数量全球第一[21] - 在AI社区HuggingFace趋势榜上,排行前列的模型都出自中国公司,包括MiniMax、DeepSeek、Kimi、百度等[23] - 在第三方基准平台ArtificialAnalysis上,排行前列的也大多数是国产模型[24] 行业格局影响 - 中国开源基础模型已具备足够能力支持西方产品开发,全球AI正进入多极化竞争新格局[20] - 不论在模型技术水平还是全球开发者接受度上,国内开源大模型都已确立领先地位,正在改变全球AI竞争格局[26] - 开源模型推理能力、多模态能力、专业领域能力的提升,使其不仅帮助开发者,甚至已成为初创公司的命脉[23]
最新外国「自研」大模型,都是套壳国产?
机器之心· 2025-11-01 12:22
Cursor和Cognition新模型发布及性能表现 - Cursor发布2.0版重大更新,推出自家代码模型Composer及用于并行协作多个智能体的新界面[5] - Composer是使用强化学习训练的大型MoE模型,在内部基准测试中编码任务达行业前沿水准,生成速度比同类模型快四倍[6][8] - Cognition推出快速智能体模型SWE-1.5,参数量达数千亿,编码性能接近SOTA,比Haiku 4.5快6倍,比Sonnet 4.5快13倍[9][11] 新模型与中国AI模型的关联证据 - 分析发现Cursor的Composer模型思考时讲中文,行为与国产模型极其相似[6] - 对Cognition的SWE-1.5进行"越狱"后,模型直接回答自己是智谱AI开发的GLM大模型[14][15] - 业界分析认为SWE-1.5基于智谱GLM 4.6模型定制,Cursor的Composer也带有中国式推理痕迹[20][21] - Cerebras官宣推出zai-glm-4.6作为新编码模型,进一步证实与中国模型的关联[24] 开源策略与行业影响分析 - 系统架构师指出从头训练基础模型成本极高,Cursor和Windsurf团队选择在后期训练阶段投资强化学习是合理逻辑[24][25] - 许多大型实验室已建立强大规模,独立开发难以成功,基于开源模型微调成为可行路径[25] - 呼吁美国公司回归开源理念,而非发布功能受限的专有模型[27] - 中国开源基础模型已具备支持西方产品开发的能力,全球AI进入多极化竞争新格局[28][29] 中国开源模型的行业地位 - 英伟达CEO黄仁勋表示开源模型已变得非常强大,加速了AI应用进程[30] - 2025年以来阿里通义千问模型占据开源模型大部分市场份额,衍生模型数量全球第一[30] - 在HuggingFace趋势榜上,排行前列的模型都出自国内公司,包括MiniMax、DeepSeek、Kimi、百度等[32] - 在第三方基准平台ArtificialAnalysis上,排行前列的也大多数是国产模型[33] - 国内开源大模型在技术水平和全球接受度上确立领先地位,改变全球AI竞争格局[35][36]
中国AI的性价比,已成全球杀器
凤凰网· 2025-10-31 14:47
中国AI模型的全球市场竞争力 - 中国AI模型凭借高性价比和开源策略正快速获得全球市场认可,爱彼迎CEO表示在实际生产中大量使用阿里巴巴的Qwen模型,因为它比OpenAI模型更快、更经济[1] - 硅谷传奇投资人查马斯·帕里哈皮蒂亚已将核心业务负载从美国AI模型转向中国的Kimi K2模型,理由是性能足够强且比OpenAI和Anthropic便宜太多[2] - 海外研究团队与企业选择中国AI模型被视为开源策略与性价比的双重胜利[3] 中国AI模型的开源生态与市场渗透 - 阿里巴巴通义已开源200余个模型,全球下载量超3亿次,千问系列衍生模型突破10万个,成为全球最大的开源模型家族[4] - MiniMax发布的新模型M2在智能代理任务上接近GPT-5水平,并主打限时免费策略,已登顶HuggingFace Trending榜单[4] - 据《经济学人》报道,在硅谷路演的AI初创公司中有80%可能在使用中国开源模型,而三年前OpenAI还垄断市场话语权[4] 全球企业对性价比的追求 - 塞浦路斯的AI工具平台Latenode表示DeepSeek整体质量相同但价格便宜17倍,使其在智利和巴西等资金和计算能力不充裕地区特别有吸引力[4] - 汇丰银行、渣打银行等国际金融机构已开始内部测试DeepSeek模型,全球最大石油公司沙特阿美将DeepSeek系统直接部署在其数据中心[4] - 亚马逊AWS、微软和谷歌等美国云服务巨头也在向客户提供DeepSeek服务[4] 海外科技巨头的算力焦虑与成本压力 - 微软继今年5月裁员6000人后又宣布削减9000个岗位,此次调整为两年来最大规模,裁员涉及不同部门、地区及各经验层级员工[5] - 高端AI芯片价格高昂,一枚英伟达H100芯片售价可达数万美元,在营收增长放缓下,裁员成为平衡成本与算力需求的必选项[6] - 全球电子商务巨头亚马逊宣布计划裁减约1.4万名公司职员,旨在通过将资源重新分配到优先领域让公司更加强大[6] AI芯片市场格局与资本集中 - 英伟达股价上涨3.2%,市值首次站上5万亿美元,成为史上第一家市值跨越这一里程碑的上市公司,从4万亿美元到5万亿美元仅用时113天[6] - OpenAI正在筹备上市,最快于2026年提交IPO申请,或将成为人类资本史上最大一次融资事件,但每赚1美元就要花费2.25美元[7] - OpenAI开始向重度用户出售Sora生成式AI视频工具的额外使用积分,否则GPU资源将无法支撑用户增长[7] 中国AI模型的技术创新 - DeepSeek发布的全新多模态模型DeepSeek-OCR提出利用视觉模态压缩长文本上下文的新方法,为光计算和量子计算在LLM领域的引入提供了技术路径[8] - Kimi提出新的混合线性注意力架构Kimi Linear,能将KV缓存减少75%同时将吞吐量提升6倍,是一个即插即用替代方案[8] - 英伟达CEO黄仁勋表示Qwen是世界级的语言模型,DeepSeek在推理架构上的突破是革命性的[5]
Wan2.2-Animate又火了,5分钟让抠脚大汉秒变高冷女神。
数字生命卡兹克· 2025-10-30 09:33
模型核心功能与效果 - 阿里开源模型Wan2.2 Animate能够通过一张人物照片和一段自录视频,生成极其自然的换脸视频,表情和动作复刻效果良好 [1] - 模型不仅能用于生成娱乐内容,其技术上限很高,能够复刻复杂的表情,实现高度自然的效果 [4][6] - 当前模型存在局限性,例如在手部动作较多的场景下,手指部分容易出现崩坏 [12] 技术应用场景 - 模型可用于生成虚拟形象舞蹈视频,相较于传统MMD技术更为便捷 [11] - 在影视二创领域有广泛应用潜力,例如实现角色替换,让不同演员出演经典影视片段 [12][13] - 结合变声工具如海螺和剪映,可以同时替换形象和声音,生成高度逼真的合成内容 [9] 技术优势与行业影响 - Wan2.2 Animate为开源模型,区别于Runway、Viggle等非开源方案,降低了使用门槛 [14] - 该技术将过去需要昂贵动捕设备和专业动画师才能实现的表情和动作捕捉,变成了普通人点几下鼠标即可完成的任务,极大降低了创作门槛和成本 [25] - 技术为电影制作、特效、数字替身及虚拟演员等领域打开了全新的想象空间,未来或能看到已逝演员在新电影中"复活" [25][26] 使用方式与技巧 - 用户可通过通义万相官网在线使用该模型,选择角色替换或动作模仿功能,上传参考图和参考视频即可生成内容 [14] - 模型提供两种主要模式:动作模仿是让参考图中的主体在原有背景中模仿视频的动作;角色替换则是用参考图中的主体替换视频中的主体,并保留视频背景 [15][16] - 为实现只换脸不换背景的效果,可采用额外流程:从视频中截取一帧,结合角色图在其他工具上生成与视频背景完全一致的图,再将此图作为参考图输入模型 [17][18][20]
288亿独角兽!复旦女学霸创业3年,被黄仁勋和苏妈同时押注
深思SenseAI· 2025-10-30 09:04
公司概况与市场地位 - 公司是AI推理服务提供商与推理层基础设施平台,定位为让模型运行更快、更便宜、更稳定,把推理变成类似云计算的计量服务 [5] - 成立3年时间,年收入已达2.8亿美元,公司估值达40亿美元,是AI推理赛道增长最快的独角兽 [1] - 目前已服务超过10,000家企业客户,每天处理超10万亿tokens,客户包括Cursor、Notion、Uber、Samsung、Shopify等明星产品 [1][5] 融资情况 - 2025年10月28日,公司宣布完成2.54亿美元C轮融资 [1] - 本轮融资由Lightspeed、Index Ventures和Evantic领投,英伟达、AMD、红杉资本、Databricks等知名机构跟投 [1][5] 创始团队与技术渊源 - 创始人乔琳是PyTorch框架的核心创建者,职业生涯始于IBM研究,后在LinkedIn担任技术主管,在Meta担任AI平台架构关键负责人,领导超300人工程师团队 [3][5] - 创始团队由六位参与过Meta PyTorch项目的资深工程师与一位前谷歌AI专家组成,堪称“梦之队” [6] - 公司核心洞察是“训练是科研的浪漫,推理才是产业的现金流”,创新焦点从“构建”转向“应用” [1][8] 核心产品与服务 - 第一类产品是Serverless推理云,面向开发者提供“即开即用”的API,按token计费,兼容数百个开源与私有模型 [11] - 第二类产品是专属部署方案,针对金融、医疗等高合规行业,提供独立GPU资源和专用网络隔离,按GPU秒计费 [11] - 第三类产品是微调与评测服务,提供从数据治理、训练微调到在线评测的一体化能力,按训练token计费 [12] 技术优势与性能表现 - 自研的Fire Attention推理引擎与Fire Optimizer可在硬件与算法之间自动搜索超过十万种配置组合,使推理速度提升10–40倍、成本下降数十个百分点 [12] - 以客户Cursor为例,在公司的推测解码技术支持下,模型处理代码的速度提升13倍,从“等半天”变成“几秒钟” [14] - 技术底座建立在深度GPU优化与架构级创新上,把延迟、吞吐、成本这些工程参数转化成企业可以签约的服务条款 [9][12] 市场竞争与差异化 - 直接竞争对手包括Together AI、Replicate、Groq、Baseten Labs等初创公司,以及AWS、Google Cloud、Azure等云巨头 [15] - 差异化优势不是“最快”或“最便宜”,而是“最优化”和“最易用”,支持数百个开源模型,跨多云多区域运行 [16] - 护城河是“客户数据+定制化能力”的飞轮,每个客户的微调数据都在优化系统,越用越好 [16] 行业趋势与未来战略 - 生成式AI带来的范式转移让创新焦点从“构建”转向“应用”,推理的市场规模将远超训练 [8] - 公司预测2025年将成为“Agent年”和“开源模型年”,各行业将涌现大量解决垂直问题的AI智能体 [20] - 未来核心战略是强化Fire Optimizer系统,特别强化在推理质量上的能力,通过个性化定制提升模型效果 [20] - 终极愿景是让每个开发者都能定制模型、注入数据,全面提升推理能力,让AI控制权回到构建者手中 [21][22]
黄仁勋演讲揭露,全球开源模型阿里通义市占率第一
经济观察网· 2025-10-29 18:51
开源模型的重要性与行业趋势 - 开源模型已变得非常强大,大大加速了AI应用的进程,开发者、研究者、全球的公司都需要开源 [1] - 随着开源模型的推理能力、多模态能力、与专业领域融合等不同能力的提升,开源模型不单单对开发者们极其有用,甚至已成为初创公司的命脉 [1] - 开源模型极其重要,初创公司需要开源模型,国家同样依赖开源模型 [1] 阿里通义千问的市场地位与表现 - 2025年以来,来自中国的阿里通义千问Qwen已占据开源模型的大部分市场份额,并且领先优势还在持续扩大中 [1] - 在黄仁勋展示的全球开源模型数量中,英伟达与阿里通义千问断层领先 [1] - 爱彼迎Airbnb布莱恩·切斯基称大量依赖阿里通义千问,认为阿里通义比OpenAI更好更便宜,硅谷都在用 [2] 全球科技公司对阿里通义千问的应用与评价 - OpenAI前CTO Mira Murati创业公司Thinking Machines在最近披露的首篇研究博客中称,受到通义千问的极大启发,新研究成果38处提及Qwen [2] - Apple机器学习科学家Awni Hannun在苹果处理器芯片上完成千问3全系列模型测试,表示苹果机器学习框架与千问3是最佳搭档,开发者可以在苹果多终端上适配部署千问3,包括Mac、 iPhone等 [2] - 亚马逊也在使用阿里通义千问布局人形机器人 [2] - 美国AI专家Nathan Lambert表示,硅谷建立在阿里千问Qwen之上 [2]
硅谷大佬带头弃用OpenAI、“倒戈”Kimi K2,直呼“太便宜了”,白宫首位AI主管也劝不住
36氪· 2025-10-28 18:39
行业趋势:从闭源模型向开源模型迁移 - 硅谷正从昂贵的闭源模型转向更便宜的开源替代方案,这一结构性转变引发热议[1] - 知名企业家Chamath Palihapitiya证实其团队已将大量工作负载从亚马逊云科技Bedrock迁移至Groq平台上的中国模型Kimi K2,原因是性能更优且成本显著更低[1][5] - 行业观点认为性能和成本正在改写AI堆栈游戏,有评论称OpenAI可能未预见到这种情况的发生[2] 成本优势:中国开源模型的竞争力 - DeepSeek 3.2 EXP模型将API成本降低高达50%,收费标准为每百万次输入28美分,每百万次输出42美分[3] - Anthropic的Claude模型同类服务收费约3.15美元,价格是DeepSeek新模型的10到35倍[3] - 成本考量是切换到开源模型的核心原因,Palihapitiya表示既付不起3美元一个输出token的费用,也承担不起后续其他成本[2][11] - 多家初创公司正在测试或已投入使用DeepSeek模型,主要原因就是价格优势明显[3] 技术部署与运营模式 - Groq接入中国模型的做法是获取模型源代码,在美国本土数据中心进行部署和分支开发,由美国人操作[2][13] - 服务模式通过开放API实现"token进、token出",与OpenAI、ChatGPT等闭源模型模式相同但成本更低[2][14] - 企业可以选择在自有基础设施上运行模型,确保数据留在自己基础设施内,增强安全性[15] - 模型切换存在技术挑战,需要几周甚至几个月时间进行微调与工程适配,不同模型间的优化调整无法直接迁移[2][6] 中美AI产业竞争格局 - 当前所有领先的开源大模型都来自中国,包括DeepSeek、Kimi和阿里巴巴的通义千问Qwen[8] - 美国在闭源模型、芯片设计、芯片制造、半导体制造设备及数据中心环节领先,但开源模型领域落后于中国[8] - 高性能闭源模型都是美国的,高性能开源模型都是中国的,形成明显的地域技术路线分化[9][10] - Meta为Llama模型投入数十亿美元,但Llama 4发布后评价不尽如人意,有消息称Meta可能放弃开源转向闭源[8] 模型性能与技术特点 - Kimi K2是由月之暗面开发的混合专家大型语言模型,总参数量达1万亿,激活参数量为320亿[1] - DeepSeek 3.2 EXP模型搭载DSA功能,能加快大型任务的训练与推理速度[3] - 多家知名平台已接入Kimi K2模型,包括Vercel、AI编码助手Cline和Cursor、Perplexity和GensparkAI应用[1] 能源成本与未来发展 - 能源行业预测电价未来五年可能翻倍,这将使AI成本问题转化为能耗问题[10] - 未来架构革新可能让成本和能耗降低10倍到1万倍,对模型能耗需求和每token成本产生重大影响[4][5] - 提出交叉补贴方案,让科技公司按更高费率缴纳电费,由拥有数千亿现金流的科技巨头承担成本压力[11]
硅谷大佬带头弃用 OpenAI、“倒戈”Kimi K2!直呼“太便宜了”,白宫首位 AI 主管也劝不住
AI前线· 2025-10-28 17:02
硅谷AI模型使用趋势转变 - 硅谷正从昂贵的闭源模型转向更便宜的开源替代方案,这一趋势在Reddit上引发热议[2] - 知名投资人Chamath Palihapitiya透露其团队已将大量工作负载从Bedrock迁移至Groq平台上的中国模型Kimi K2,原因是性能显著更优且成本远低于OpenAI和Anthropic[2][6] - 多家知名技术平台如Vercel、Cline、Cursor、Perplexity和GensparkAI已宣布接入Kimi K2模型[2] Kimi K2模型技术特点 - Kimi K2是由月之暗面团队开发的混合专家大型语言模型,总参数量达1万亿,激活参数量为320亿[2] - 该模型采用Groq平台部署,通过开放的API实现"token进、token出"的服务模式[3] DeepSeek模型成本优势 - DeepSeek 3.2 EXP模型将API成本降低高达50%,收费标准为每百万次输入28美分,每百万次输出42美分[5] - 相比之下,Anthropic的Claude模型同类服务收费约3.15美元,价格是DeepSeek新模型的10到35倍[5] - 该开源模型已在亚马逊云科技和谷歌云平台上可用,多家初创公司正在测试或已投入使用[5] 模型迁移的技术挑战 - 将工作负载从一个模型切换到另一个模型需要几周甚至数月时间,因为模型需要经过微调与工程适配才能在同一个系统正常工作[3][7] - AI模型迭代速度快,用户面临是否承受迁移麻烦或等待其他模型迎头赶上的复杂博弈[7] 中美AI开源领域竞争格局 - 当前高性能闭源模型主要来自美国,而高性能开源模型主要来自中国,形成结构性竞争[11] - 中国在开源AI模型领域投入力度大,代表作品包括DeepSeek、Kimi和阿里巴巴的通义千问Qwen[10] - 美国在闭源模型、芯片设计、芯片制造、半导体制造设备和数据中心等其他技术环节保持领先[10] 开源模型部署与安全考量 - Groq接入中国模型的做法是获取模型源代码,在美国本土数据中心进行部署和分支开发,由美国人操作[3][16] - 企业可将开源模型部署在自有基础设施上,实现数据本地化,避免数据传回中国的风险[15][18] - 模型安全通过社区竞争循环保障,各大安全公司和云服务商积极测试寻找漏洞[18] AI发展面临的能源挑战 - 能源企业负责人预测未来五年电价可能翻倍,这将直接影响AI运营成本[12] - 科技公司可能面临更高的电费费率,通过"交叉补贴"方式承担数据中心能耗成本[13] - 成本问题将逐渐转化为能耗问题,对科技巨头构成潜在公关危机[12]
“比OpenAI更好更便宜!”爱彼迎CEO一句话引爆硅谷,阿里AI正悄然拿下全球科技巨头
第一财经· 2025-10-22 18:01
文章核心观点 - 阿里巴巴通义千问模型凭借其成本效益和性能优势 正从全球AI巨头特别是OpenAI手中赢得关键客户和市场份额 标志着由OpenAI主导的AI时代走向终结 一个更加多元开放的竞争格局正在形成 [1][2][3] 全球科技巨头采用情况 - 爱彼迎CEO公开表示公司大量依赖通义千问 认为其比OpenAI模型更好更便宜 并解释技术选型基于成本与效率的务实考量 凸显硅谷对经济高效开源模型的青睐 [1] - 苹果公司计划在中国市场的核心产品线中引入通义千问以支持AI功能 英伟达CEO公开称赞其为最好的开源AI模型 马斯克也曾对其视觉模型生成效果表示赞赏 [2] - 亚马逊在其人形机器人操控系统中采用通义千问模型 用于帮助机器人更精准地理解环境和规划行动 表明其应用已从软件扩展至实体机器人领域 [2] 阿里巴巴战略与市场影响 - 阿里巴巴CEO明确提出将通义千问打造为AI时代的Android 通过全面开源与全球开发者共建开放生态 该战略已取得显著成效 [3] - 通义千问系列模型全球累计下载量突破6亿次 并催生了超过17万个衍生模型 反映出其生态的活跃度和广泛影响力 [3] - 全球科技巨头的实际应用投票表明 AI行业正从一家独大转向多元竞争 更快更便宜且足够好的开源模型成为主流选择 [3]