Workflow
Claude Sonnet 4.5
icon
搜索文档
Alibaba slashes Qwen3-Max model charges up to 50% as China's AI price war rages on
Yahoo Finance· 2025-11-14 17:30
Alibaba Group Holding has slashed charges for its biggest artificial intelligence model by as much as half, triggering speculation of another price war in China's highly competitive AI market. Qwen3-Max, the first trillion-parameter model from Alibaba Cloud, was one of the company's most expensive models on its release in September, with tiered pricing that charged a minimum of US$0.861 per million input tokens and US$3.441 per million output tokens for application programming interface (API) users. Alibab ...
外媒再议中国 AI:开源破局硅谷,成全球开发者新选择
环球网资讯· 2025-11-14 14:44
美国彭博社11日称,几个月来,一直有传言称,低成本、开源的中国人工智能模型可能会将全球用户从 美国产品中吸引过来。但现在看来,它们也正在悄然赢得硅谷的青睐。报道举例称,Airbnb首席执行官 布莱恩·切斯基承认,他没有将Airbnb的旅行应用程序与OpenAI的ChatGPT集成,是因为相关的连接工 具"尚未完全准备就绪"。切斯基表示,他们"非常依赖"阿里巴巴旗下的Qwen产品线:"它非常好,而且 速度快、成本低。" 韩国《朝鲜日报》11月7日称,全球知名AI基准测试机构Artificial Analysis发布的最新数据显示,中国初 创公司MiniMax(稀宇极智)凭借其上月发布的开源推理模型MiniMax M2,在全球开源人工智能综合 性能评估中荣登榜首。这款采用低成本、高效率策略的AI模型,通过在任务执行过程中仅激活解决问 题所需的参数(即所谓的"专家混合模型"),显著提升了计算效率和响应速度。在性能方面,这款大模 型的速度超越谷歌旗下Claude Sonnet 4.5近一倍,而价格仅为其8%。 该报道称,尤其值得注意的是,在此次评估中,中国模型占据了最高排名的大部分席位——包括 DeepSeek 和阿 ...
再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前
华尔街见闻· 2025-11-12 21:05
模型性能与市场定位 - 月之暗面Kimi K2 Thinking模型在多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5 [1] - 模型API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5价格的四分之一 [9] - 发布后不到48小时内,模型在Hugging Face的下载量已超过5万次,成为该平台最热门的开源模型 [21] 技术架构与成本控制 - 模型采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍 [9] - 团队使用配备Infiniband的H800 GPU进行训练,强调对每张显卡性能的极致利用 [9] - 针对460万美元训练成本的传闻,公司回应称并非官方数据,且由于研究和实验成本占比较大,真实训练成本难以量化 [7][9] 产品特性与设计理念 - 当前版本更看重绝对性能而非token效率,模型能够连续执行200-300次工具调用来解决复杂问题 [11][13] - 采用端到端智能体强化学习训练方式,支持交错的“思考-工具”模式,这是开发过程中的主要挑战之一 [14] - 模型采用Modified MIT许可证,当被用于超过一亿月活用户或2000万美元月收入的商业产品时,需注明使用了Kimi K2模型 [18] 未来发展规划 - 对于K3的发布时间,公司给出了一个幽默且非具体的回应 [14] - 在多模态能力方面,公司决定先发布文本模型,因为训练视觉语言模型需要更多时间获取数据和调整训练 [15] - 公司透露KDA是其最新的实验性架构,相关理念可能应用于K3,该架构采用3:1的比例混合KDA和MLA路线,以优化性能、速度和显存占用 [22] 行业观点与竞争策略 - 公司拥抱开源,其理念是相信AGI应该是一种导致团结而不是分裂的追求 [17] - 对于是否会发布更大规模闭源模型,公司暗示会考虑模型安全性因素 [19] - 对于DeepSeek的OCR技术路线,公司联合创始人表达了不同看法,倾向于寻找更通用且与具体模态无关的方法来提升模型效率 [22]
国产模型新盛况!王座易主:Kimi K2 Thinking开源超闭源
机器之心· 2025-11-07 12:26
模型发布与市场反响 - 月之暗面开源发布新一代大模型Kimi K2 Thinking,引发全网广泛讨论[2] - 模型发布不到半天,官方推文阅读量达到170万,高热度导致服务器多次出现算力不足情况[10][19] - 该事件被行业专家称为又一次“DeepSeek时刻”,可能成为国产大模型发展的拐点[6][10] 模型性能与基准测试 - 模型在多项基准测试中表现达到SOTA水平,性能超越GPT-5、Claude Sonnet 4.5等先进闭源模型[3][5] - 在超难基准人类终极考试上,Kimi K2 Thinking取得44.9分,其Heavy版本分数可进一步提升至51%,超过Grok4、GPT-5、Claude 4.5等模型[11] - 模型在自主网络浏览能力、对抗性搜索推理、Agentic搜索、Agentic编程、写作和综合推理能力方面均有全面提升[10] 技术架构与成本优势 - 模型总参数量高达1万亿,其中激活参数为320亿,是迄今为止最大的开放权重模型之一[32] - 采用INT4权重量化技术,使生成速度提升约2倍,实现高性能低成本推理[13][32] - API定价具有显著优势,输入价格为百万token 0.15美元(缓存命中)/0.6美元(缓存未命中),输出为百万token 2.5美元,比GPT-5低一个数量级[15] - 解决同样问题时,准确率比Claude 4.5 Sonnet更高,成本仅为其六分之一[16] - 模型训练成本为460万美元[34] 核心功能特点 - 具备持续多轮“一边搜索一边思考”的能力,这是目前DeepSeek不具备的特色功能[13] - 作为首个推理模型,可执行200-300次连续工具调用,在数百个步骤中进行连贯推理[32] - 采用Agent驱动模式,基于多轮强化学习范式,模型行为根据与外界交互的反馈持续更新[38][39] 实际应用测试表现 - 在前端可视化测试中,使用p5.js创建动画效果惊艳且运行丝滑,而GPT-5在相同测试中直接罢工[22][23] - 在著名的“鹈鹕骑车”SVG测试中表现不佳[24][25] - 写作能力出色,能精准模仿林黛玉和王熙凤的风格创作吐槽文章[26][27][28] - 综合推理能力强,对复杂逻辑题能快速反应,推理过程严谨无误[29][30] 行业影响与开源策略 - 知名AI基准测试机构认为该模型位置可放在GPT-5之前,可能促使AI社区设计新基准[42][46] - 模型采用修改后的MIT许可证,授予完整商业和衍生权利,是目前授权最宽松的前沿模型之一[47] - 许可证附加条款要求月活跃用户超1亿或月收入超2000万美元的应用需在界面标注“Kimi K2”[48]
1万美元实盘交易!全球首个AI投资大赛收官:中国大模型全盈利,美国GPT-5亏损超62%垫底【附大模型行业前景分析】
搜狐财经· 2025-11-05 15:41
AI大模型投资比赛结果 - 全球首个AI大模型实时投资比赛“Alpha Arena”历时17天,吸引了中美六款顶尖AI大模型参与,每款模型使用一万美元初始资金进行真实交易[2] - 中国模型Qwen3-Max以超过20%的收益率夺冠,另一中国模型DeepSeek v3.1位居第二,两者是全场唯二盈利的模型[2] - 四款美国模型全部亏损,其中GPT-5亏损超60%,排名垫底,中国模型在本次比赛中实现全盈利并完胜美国模型[2] 中国大模型行业竞争格局 - 中国大模型市场呈现“百模大战”态势,竞争异常激烈,涵盖通用大模型、行业大模型和端侧大模型等多种类型[3] - 百度、阿里、华为等科技巨头与DeepSeek、智谱清言等初创企业共同推动市场多元化竞争格局,促进技术快速迭代和创新[3] - 截至2024年第一季度,中国人工智能大模型累计发布数量达478个,数量排名仅次于美国[4] 中国AI科研实力与发展前景 - 中国AI研究人员数量从2015年不足万人增长至2024年的5.2万人,年复合增长率达28.7%,中美两国研究人员合计占全球近六成[4] - 中国科学院以585篇高影响力论文位居全球科研机构榜首,显示中国科研力量正在不断崛起[4] - 语言大模型被认定为人工智能的“主赛道”,初步测算到2030年中国大模型市场规模将超过2200亿元,年复合增速在40%以上[4] 行业战略定位 - 人工智能大模型被视为新质生产力的代表,大模型与超级计算的融合发展非常重要,需要认真布局考虑[6]
AI大模型实时投资比赛落幕,阿里千问Qwen夺冠;微信支付为中小商家推出AI菜单识别功能丨AIGC日报
创业邦· 2025-11-05 08:08
AI大模型投资能力评估 - 阿里千问Qwen在AI大模型实时投资比赛Alpha Arena中以22.32%的收益率夺得冠军[2] - 该比赛集合全球六大顶尖模型,在真实市场上进行为期17天的无人工干预自主交易[2] - Qwen和DeepSeek是比赛中唯二实现盈利的模型,而四大美国顶尖模型全部亏损,GPT-5亏损超62%[2] AI行业竞争格局与战略动向 - 法庭文件显示,OpenAI曾在2023年11月讨论由竞争对手Anthropic提出的合并提议,该提议将使Anthropic接管OpenAI的领导权[2] - OpenAI联合创始人伊利亚·苏茨克沃几乎是董事会中唯一反对这项交易的人,合并讨论最终因实际障碍无果而终[2] AI应用落地与商业化进展 - 微信支付为中小商家推出AI菜单识别功能,商户拍照上传菜单后,AI可自动识别并生成收款码中的收款项[2] - 顾客扫码后可点选付款项并自动计算金额,简化了点餐支付流程[2] AI硬件市场发展趋势 - 谷歌、苹果、Meta等科技巨头正加快布局AI眼镜市场,将其视为下一代人机交互入口[2] - AI眼镜市场正朝两个方向发展:作为手机配件增强功能,或作为独立设备最终替代智能手机[2] - 2025年上半年全球AI眼镜市场出货量达406.5万台,同比增长64.2%,预计到2029年出货量有望突破4000万台[2]
Anthropic projects $70B in revenue by 2028: Report
Yahoo Finance· 2025-11-05 00:48
财务业绩与展望 - 公司预计2028年营收达700亿美元,现金流达170亿美元 [1] - 公司预计今年营收达38亿美元,其API收入规模是对手公司的两倍 [3] - 公司预计今年毛利率达到50%,2028年提升至77%,较去年负94%大幅改善 [8] - 公司Claude Code产品年化收入接近10亿美元,较7月的4亿美元大幅增长 [3] 营收增长路径 - 公司预计明年年度经常性收入(ARR)将翻倍甚至近三倍增长,目标在2025年底达到90亿美元ARR [2] - 公司为2026年设定了200亿至260亿美元的年度经常性收入(ARR)目标 [2] 商业策略与合作伙伴关系 - 公司与微软合作,将其模型集成至Microsoft 365应用和Copilot中 [4] - 公司扩展了与Salesforce的合作伙伴关系,并计划向德勤和科森特的数十万员工部署Claude助手 [4] - 公司专注于积极的B2B战略,通过推出更小、更具成本效益的模型(如Claude Sonnet 4.5和Haiku 4.5)来吸引大规模部署AI的企业 [5] 产品发展与创新 - 公司扩展了Claude for Financial Services,并推出Enterprise Search功能,使企业能将其内部工作应用与Claude连接 [5] 融资与估值 - 公司可能依靠增长进行更多融资,上一轮融资于9月筹集130亿美元,估值达1700亿美元 [6] - 若再次融资,公司目标估值可能在3000亿至4000亿美元之间 [6] 行业竞争对比 - 公司的主要竞争对手近期估值为5000亿美元,预计今年营收130亿美元,2027年营收目标1000亿美元 [9] - 与竞争对手预计在2029年前累计消耗1150亿美元现金流并面临巨额亏损不同,公司预计到2028年将实现正现金流 [9] 财务状况备注 - 公司的公开债务包括25亿美元的信贷额度和15亿美元的作者团体版权诉讼法律和解金 [7]
全球首个AI投资大赛收官:阿里千问夺冠,美国四大模型均亏损
观察者网· 2025-11-04 22:52
比赛结果与模型表现 - Alpha Arena AI大模型实时投资比赛历时17天 阿里千问Qwen以22.32%的收益率夺冠 账户价值达12,232美元 [2][5][8] - DeepSeek v3.1以4.89%的收益率位列第二 账户价值10,489美元 成为全场唯二盈利的大模型 [2][5][8] - 美国四大顶尖模型全部亏损 GPT-5亏损62.66%垫底 账户价值仅3,734美元 Gemini 2.5 Pro亏损56.71% Claude Sonnet 4.5亏损30.81% Grok 4亏损45.3% [2][7][8] - 比赛初期DeepSeek v3.1领先 Grok 4通过激进策略一度将差距缩小至1美元 10月21日至22日成为转折点 六大模型收益率一度全部告负 [3] - 在转折点后 Qwen3-Max和DeepSeek v3.1自动改写投资策略 在其他模型持续亏损情况下脱颖而出 Qwen3-Max最终超越DeepSeek夺冠 [5] 比赛设计与特点 - 比赛由Nof1于10月18日发起 向六大顶尖模型提供1万美元初始资金及实时金融市场数据 全程无人工干预 [2] - 采用统一输入方式 所有模型接收相同市场数据和提示词 交易记录和持仓实时公开保证公平性 [3] - 允许AI模型通过"聊天互动"辩论市场走势 展示决策逻辑 是AI处理实时变动现实世界任务的真实评测 [2][3] - 参赛模型包括Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4 [2] 行业背景与意义 - 根据OpenRouter 7月榜单 阿里通义千问以10.4%市场份额超越OpenAI的4.7%位列全球第四 DeepSeek跻身全球前五 [9] - 成长最快前10大模型中有9个是开源的 Qwen3-Coder调用量以近5000亿Tokens高居第一 通义千问包揽前三并在前十中占据五席 [9] - 行业人士指出 阿里千问和DeepSeek的实战表现证明中国模型在解决实际问题方面具有强大潜力 [9] - 李开复认为DeepSeek推动了中国大模型开源生态的形成 开源模式高度契合中国企业学习特性 有望助力中国在AI领域缩小与美国差距 [9]
投资大赛:阿里千问、DeepSeek赚了,GPT-5大亏
南方都市报· 2025-11-04 21:41
比赛概况与结果 - 首届由美国AI研究实验室nof1发起的AI大模型交易大赛于11月3日结束,比赛为期两周,6家领先大模型各获得1万美元初始资金,在无人类干预的真实市场中进行自主交易[1] - 交易标的为加密货币衍生品(永续期货),币种包括比特币、以太坊、狗狗币等,模型仅能使用数值市场数据输入,无法获得新闻或市场消息[5] - 最终两家国产大模型实现盈利:阿里千问Qwen3 Max以22.3%收益率排名第一,盈利2232美元;DeepSeek Chat V3.1以4.89%收益率排名第二,盈利489.08美元[1] - 其余四家模型均大幅亏损:Claude Sonnet 4.5亏损30.81%,Grok 4亏损45.3%,Gemini 2.5 Pro亏损56.71%,GPT 5亏损62.66%[2] 模型交易行为分析 - 在做空倾向上,Grok 4、GPT-5和Gemini 2.5 Pro的做空频率远高于同行,而Claude Sonnet 4.5几乎从不做空[6] - 在持仓时间上,不同模型差异较大,Grok 4的持仓时间最长;在交易频率上,Gemini 2.5 Pro最活跃(238笔交易),Grok 4最不活跃[3][6] - 在仓位规模上,阿里Qwen 3的仓位规模始终最大,通常是GPT-5和Gemini 2.5 Pro的数倍[6] - 在退出机制方面,Qwen 3的止损与止盈距离最窄,Grok 4与DeepSeek V3.1则最宽;在持仓数量上,Claude Sonnet 4.5和Qwen 3通常一次只维持1-2个活跃仓位[6] 比赛过程与行业意义 - 比赛过程中出现显著波动,DeepSeek V3.1从10月26日起长期保持最高盈利,但在11月4日被阿里Qwen 3反超;Claude和Grok频繁调仓未能返回正区,Gemini和GPT-5持续下滑[7] - 主办方指出举办比赛的原因为:现有静态基准测试存在不足,仅测试固定数据集上的模式匹配能力,忽略了长期决策、运行鲁棒性和适应性,且测试结果易被模型记忆导致价值降低[7] - 比赛旨在真实、动态、竞争激烈的环境中测试模型的决策能力,参赛模型代表中美两国闭源和开源供应商的最新技术水平[5][7]
首届AI交易大赛落幕,6个AI炒币2周:Qwen、DeepSeek赚钱,GPT-5血亏6000刀
36氪· 2025-11-04 19:13
大赛概况 - 首届Nof1 AI模型交易大赛于2025年10月17日启动,11月3日结束,旨在衡量AI投资能力,被誉为“币圈版的图灵测试” [1] - 参赛模型为6款代表中美两国闭源和开源供应商最新技术水平的大模型,包括DeepSeek Chat V3.1、Grok 4、Gemini 2.5 Pro、GPT-5、Qwen3 Max、Claude Sonnet 4.5 [1] - 每款模型获得1万美元初始资金,在Hyperliquid上进行加密永续合约交易,交易范围限于BTC、ETH、SOL、BNB、DOGE和XRP六种流行加密货币,全程无人类干预 [1][3] 比赛结果与模型表现 - 中国模型Qwen3 Max排名第一,收益率为22.3%,胜率为30.2%,总盈亏为$2232,总交易次数为43次 [3][5][9] - 中国模型DeepSeek Chat V3.1排名第二,收益率为4.89%,胜率为24.4%,总盈亏为$489.08,总交易次数为41次 [3][5][9] - 美国模型Claude Sonnet 4.5亏损30.81%,Grok 4亏损45.3%,Gemini 2.5 Pro亏损56.71%,GPT-5亏损62.66% [4][5] - 中国模型在风险控制与趋势识别上更为领先,而美国系模型普遍亏损严重 [12] 交易策略分析 - Qwen3 Max整体偏“进攻型”,Sharpe值为0.273,展现高风险高回报的进取型交易策略,最大盈利达$8,176 [5][9] - DeepSeek Chat V3.1策略理性稳健,Sharpe值为0.359为所有模型中最高,显示出色的风险控制能力,最大盈利$7,378 [5][9] - Gemini 2.5 Pro交易次数达238次为所有模型最高,极度活跃但胜率仅25.6%,Sharpe值-0.566,反映过度交易且回报低效 [5][10] - GPT-5交易存在较大波动且亏损严重,Sharpe值-0.525,最大盈利仅$270.77,缺乏有效的市场判断和风险管理 [5][11] 行业影响与市场观点 - 币安创始人赵长鹏评论认为,若所有人使用相同AI模型交易可能导致同质化操作,影响市场动态,但也可能通过购买力推动价格上涨 [7] - 预计因AI交易表现引起关注,未来将有更多人研究AI在交易中的应用,交易量会大幅增加 [7] - 比赛选择加密资产因市场全天候开放、数据丰富易于获取、Hyperliquid快速可靠且易集成,支持透明审计 [3]