claude 4

搜索文档
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
量子位· 2025-07-17 10:43
大模型长上下文性能研究 核心发现 - 主流大模型在输入长度增至1万tokens时准确率普遍降至50%,且性能衰减呈非均匀断崖式下降[4][10][21] - 性能衰减受语义关联性、干扰信息、文本结构等多因素影响,其中低相似度组在1万tokens时准确率比高相似度组低20个百分点[18][21] - 不同模型衰减节点存在差异:GPT-4.1可能在短文本即出现性能骤降,Claude系列则表现出更强的长文本稳定性[7][28] 实验设计方法论 - 采用改进版NIAH测试框架,通过四项对照实验控制任务复杂度并隔离输入长度变量[16][17] - 实验数据源包括保罗・格雷厄姆散文和arXiv论文,设置10²至10⁴tokens的输入长度梯度[18][31][37] - 评估指标采用GPT-4.1验证的准确率(与人类判断一致性超99%)[18][33] 关键影响因素 语义关联性 - 针-问题相似度实验显示:低相似度组在1万tokens时准确率降至40%-60%,比高相似度组低20个百分点[18][21] - 针-干草堆相似度对模型影响不统一,但长文本下所有模型性能均显著下滑[31][34] 干扰信息 - 多重干扰项使模型在1万tokens时准确率比基线低30%-50%[26][29] - GPT系列易生成自信错误答案,Claude系列倾向弃权,Gemini和Qwen波动最大[28] 文本结构 - 连贯结构文本在1万tokens时部分模型准确率降至30%-40%,打乱结构则维持50%-60%[40][42] - 逻辑结构复杂度与性能衰减正相关,揭示模型处理长文本逻辑的缺陷[35][41] 行业技术动态 - Chroma团队开源测试代码,覆盖18个主流开源/闭源模型包括GPT-4.1、Claude 4等[8][49] - 研究验证了现有基准测试将输入长度与任务难度混谈的局限性[13][15] - 行业正探索1M上下文窗口技术(如Gemini 1.5 Pro),但实际长文本处理能力仍存瓶颈[12][44]
AI应用拐点已至,聚焦Infra与大场景
长江证券· 2025-07-16 21:52
报告行业投资评级 - 看好丨维持 [8] 报告的核心观点 - 海外大模型持续更新性能提升,带动海外AI应用落地及大模型调用量提升,催生算力基础设施需求;国产应用增长但增速缓和,随着国产大模型迭代升级有望加速落地;应重视AI应用相关投资机遇,关注中国特色infra和AI应用落地大场景 [2][7] 各部分总结 海外大模型持续更新,性能提升加速AI落地 - 4月以来xAI、谷歌、Anthropic等海外知名大模型厂商密集更新大模型并提升性能,如7月10日发布的Grok - 4多项基准测试超越,学术领域表现顶尖 [16] - GPT - 5或近期发布,作为行业先行者的OpenAI新一代大模型或提升整体行业天花板 [19] - 各厂商技术路线和训练数据有差异,产品效果和领域特点不同,如Claude 4系列大模型编程性能领先 [21] 模型性能提升,带动海外应用调用爆发式增长 - 海外大模型调用量爆发式增长,如谷歌AI Token月均调用量从2024年4月的9.7万亿增长至2025年4月的480万亿,OpenRouter平台大模型整体调用量较年初大幅增长388.32% [25] - 大模型调用量提升催生算力基础设施需求,训练和推理算力需求同步爆发,大厂Capex有望高增带动算力基础设施产业进入高景气周期 [28] 国产大模型保持追赶,应用落地有望提速 - 国产应用保持增长但增速缓和,2025年6月夸克/豆包/DeepSeek/腾讯元宝/Kimi智能助手等国内AI应用MAU分别为15618/12594/9410/4095/2352万,同比上月有不同变化 [31] - 国产大模型持续迭代,随着DeepSeek、Qwen、Minimax等厂商新一代大模型升级,有望缩小与海外差距,加速国产AI应用落地 [34] 投资建议:聚焦Infra与大场景 - 海内外AI应用落地趋势加速,AI应用迎来落地拐点,应重视相关投资机遇 [38] - 推荐关注中国特色infra,重点关注IDC及国产算力产业链;重视AI应用落地大场景,如教育、司法、医疗医药等领域AI应用 [7]
计算机行业点评:模型能力持续迭代,驱动国产算力景气提升
华源证券· 2025-07-15 17:48
报告行业投资评级 - 看好(维持) [4] 报告的核心观点 - 月之暗面 7 月 11 日发布 Kimi K2 大模型并开源,总参数量达 1 万亿,激活参数为 32B,在三项基准测试中取得开源模型中的 SOTA 成绩 [5] - 模型能力持续迭代推动互联网等厂商资本开支提升,海内外厂商资本开支增长,算力产业链景气度增强 [5] - 国内 AI 芯片供给多元,芯片生产应用持续推进,驱动 AIDC 产业链发展 [5] - 政策鼓励智算中心建设,驱动国产算力发展 [5] - 大模型持续迭代带动 AI 算力需求增长,AI 芯片、服务器等环节有望持续受益,维持对计算机行业“看好”评级 [5] 根据相关目录分别进行总结 事件 - 月之暗面 7 月 11 日发布 Kimi K2 大模型并开源,总参数量达 1 万亿,激活参数为 32B,在三项基准测试中取得开源模型中的 SOTA 成绩 [5] 需求侧 - 模型厂商持续迭代模型性能,发布多个模型更新版本,驱动海内外厂商提升资本开支 [5] - 海外 2025Q1 亚马逊等资本开支持续增长,投向 AI 基础设施;国内字节 2025 年资本开支预期达 1500 亿元,阿里预期三年内投入 3800 亿元进入云及 AI 硬件基础设施建设 [5] 供给侧 - 英伟达推出 B30 降规版本 GPU,国产芯片方面华为昇腾 910C 量产在即,海光深算系列产品进展顺利,寒武纪云端产品有应用领域,沐曦等一级厂商筹备上市 [5] 政策侧 - 2025 年政府工作报告提出持续推进“人工智能 +”战略,2024 年相关意见提出发展多元化算力资源,多地出台政策推动智算中心行业发展 [5] 投资分析意见 - 大模型持续迭代带动 AI 算力需求增长,AI 芯片、服务器、零组件、IDC 等环节有望持续受益,维持对计算机行业“看好”评级 [5] 建议关注相关公司 - AI 芯片:海光信息、寒武纪、龙芯中科、景嘉微 [5] - 服务器整机:工业富联、中科曙光等多家公司 [5] - 零组件:散热、铜连接、电源相关公司 [5] - 算力租赁:宏景科技、协创数据等多家公司 [5] - 数据中心:云赛智联、奥飞数据等多家公司 [5]
Kimi K2发布两天即“封神”?80%成本优势追平Claude 4、打趴“全球最强AI”,架构与DeepSeek相似!
AI前线· 2025-07-14 15:42
模型性能与市场表现 - Kimi K2在OpenRouter平台的token使用量两天内超越xAI的Grok 4 [1] - 总参数量达1万亿(1T),激活参数32B,支持非英伟达硬件流畅运行 [3] - 在代码、Agent、工具调用基准测试中取得开源模型SOTA成绩 [3] - 开发者实测显示其编码能力与Claude 4相当但成本仅20% [7][8] 技术架构创新 - 采用MuonClip优化器实现万亿参数模型高效训练,Token利用率显著提升 [16][19] - 架构与DeepSeek-V3相似但减少注意力头数量并增加MoE稀疏性 [17][19] - 引入qk-clip技术解决训练不稳定性问题 [19] - 通过大规模Agentic Tool Use数据合成和通用强化学习增强智能体能力 [20] 实际应用表现 - 前端开发中可生成兼具设计感的代码并自主完成组件库开发 [13] - Python数据分析任务可一次性完成且成本仅几分钱 [11] - 在创意写作和角色扮演评测中超越o3和R1模型 [14][15] - 工具调用能力获前Anthropic工程师认可,支持并行可靠调用多工具 [14] 行业竞争动态 - 与DeepSeek在技术路线三次"撞车",包括注意力机制改进和数学证明模型 [20] - 公司战略重心转向基础模型研发,暂停广告投放并布局AI医疗产品 [21] - 联合创始人公开表态将Kimi K2视为应对DeepSeek竞争的关键成果 [21] 开发者反馈 - API兼容OpenAI和Anthropic格式,可驱动Claude Code实现85%原版能力 [7][8] - 用户实测显示其生成网站和前端代码效果超预期且提示词简单 [11][13] - 被评价为"Claude 3.5 Sonnet后首个可在生产环境放心使用的非Anthropic模型" [14]
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
猿大侠· 2025-07-12 09:45
Grok-4性能展示 - 成功通过六边形小球编程测试 展示对物理规律的理解能力 小球穿墙为设计者故意行为[2][3][4] - 动态生成"Hello World""I am grok"等文字及笑脸符号的复杂动画 体现高级模式识别与生成能力[6] - 在8项综合测试中全部通过 对比产品仅通过2项 优势体现在法律推理 代码翻译 安全测试等领域[12][15][16][18][20][23] 技术突破 - 处理未见过的学术论文时展现类AGI特质 获得Epic创始人Tim Sweeney认可 马斯克附议该观点[9][10][11] - 四轮对话内完成欧拉恒等式可视化网页开发 核心功能仅需两轮交互 显著提升数学概念传达效率[25][26][27][31] - 采用专家调度器(Expert Conductor)提示工程 模拟多领域专家协作环境 52秒内完成复杂任务[55][56][59][60][65] 多模态能力测试 - SVG绘图测试中 美国地图绘制优于部分竞品 避免区块重叠等基础错误[32] - 自主设计专辑封面时保持结构合理性 显著优于抽象化输出的竞品[40] - 三羧酸循环图示准确性不及竞品 但自画像创作体现独特想象力[44][46][50][53] 开发者生态反馈 - 提示词工程师通过对比测试验证其在法律 编程 教育等场景的实用性[12][16][20] - 开源社区积极开发新应用场景 包括宝可梦游戏等潜在方向[66] - Reddit等平台形成系统性评测体系 覆盖视觉推理 知识储备等维度[32][35][40][44]
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
量子位· 2025-07-11 15:20
核心观点 - Grok4发布后迅速引发广泛测试和讨论,展示出强大的多领域能力,包括物理规律理解、法律推理、代码翻译、数学可视化等 [1][6][10][23][30] - 在多项对比测试中,Grok4表现优于OpenAI的o3模型,尤其在复杂任务处理方面优势明显 [13][16][21] - 用户开发出高阶应用方法如"专家调度器",验证了Grok4在模拟专业协作环境方面的潜力 [52][54][62] 技术能力测试 - **物理规律理解**:通过六边形小球测试验证对物理运动的理解,虽然存在穿墙现象但被证实为设计意图 [2][4][11][12] - **法律推理**:用表格清晰展示公司收购中的债务违约连锁反应,结构化和逻辑性优于对比模型 [14][15][16] - **代码翻译**:成功将Python递归函数转换为Go语言并添加西班牙语注释,完成度高于对比模型 [18][19] - **知识可视化**:四轮对话内生成欧拉恒等式交互式网页,帮助用户直观理解复杂数学概念 [23][24][25][29] 多模态能力 - **SVG绘图**:在美国地图绘制中避免区块重叠错误,在专辑封面设计任务中保持基本正确 [30][38] - **生化知识**:三羧酸循环绘制测试中虽不完美但展示出基础生物化学理解能力 [42][44] - **创意表达**:在模型自画像任务中与其他主流模型相比无明显劣势 [48][51] 高阶应用场景 - **专家协作模拟**:通过精心设计的提示工程,Grok4能在52秒内完成跨领域专家协作的问题解决 [52][54][62] - **动态交互**:成功生成小人动画组成"Hello World"等文字,展示动态模式识别和生成能力 [6] - **专业见解**:对未见过的论文问题提供深刻分析,获得行业领袖认可 [7][8][9] 用户创新应用 - **全面测试框架**:提示词工程师设计8项测试覆盖多领域能力,Grok4全部通过而对比模型仅通过2项 [10][21] - **快速原型开发**:两轮对话即可完成数学可视化工具的核心功能开发 [29] - **社区期待**:用户提出更多潜在测试场景如宝可梦挑战,显示产品持续创新空间 [64]
AI们数不清六根手指,这事没那么简单
虎嗅· 2025-07-11 10:54
视觉语言模型的偏见问题 - 核心观点:视觉语言模型(VLMs)并非真正"看"图像,而是依赖记忆中的先验知识进行判断,导致对反常识图像的识别错误[19][20][38] - 实验证据:当展示6根手指图片时,包括GPT-4、Gemini-2.5 Pro、Claude 3.7等主流模型100%错误识别为5根[40][45][63] - 机制分析:模型通过高频关联建立强先验知识(如"阿迪达斯=三条纹"),当视觉输入与常识冲突时优先选择记忆而非真实观察[54][55][64] 行业应用风险案例 - 工业质检:AI可能将罕见零件缺陷误判为光学误差,导致安全隐患[72][73][74] - 医疗领域:肺癌筛查等医疗诊断仍需医生复核AI判断,显示可靠性存疑[77] - 自动驾驶:对非常规交通场景(如异常数量行人)的识别可能失效[77] 技术局限性数据 - 品牌标识测试:修改阿迪达斯条纹数量后,所有模型仍坚持回答3条[39][40] - 动物肢体测试:5腿狮子/3脚鸟等异常图片识别准确率仅2%[43][45] - 国旗测试:美国国旗条纹数识别错误率达92%(模型回答13条vs实际12/14条)[47] 底层机制解释 - 数据训练方式:模型通过吸收数百亿张图片建立关联记忆而非理解[50][51] - 决策冲突:视觉模块与知识模块产生矛盾时,后者权重显著更高[63][65] - 干预无效:明确要求模型"仅根据图片回答"仅提升2%准确率[67][68]
早餐 | 2025年7月11日
快讯· 2025-07-11 07:45
美股市场表现 - 标普和纳指齐创新高,特斯拉因Robotaxi业务扩展收涨4.7% [1] - 英伟达连续三日创新高,市值达到4万亿美元 [1] - 稀土矿股MP Materials收涨近51% [1] - 达美航空恢复今年利润指引后股价上涨12% [1] 关税动态 - 缅甸在8月"大限"前争取特朗普大幅削减关税,提议可能对美国实施零关税 [1] - 巴西总统表示将与美国进行关税谈判,若无效将采取对等反制措施 [1] - 特朗普宣布对铜征收50%关税,8月1日起生效 [1] - 交易商赶在关税生效前将铜运往夏威夷 [1] - 汇丰认为8月1日50%关税将成为沪铜和伦铜市场的转折点 [1] 美联储政策 - 美联储理事沃勒表示可以考虑7月降息,支持继续缩表并增加短期资产比重 [1] - 美联储内部出现分歧,部分人认为关税对通胀影响不会持久,部分人预计影响将持续到明年 [1] 能源行业 - OPEC+正讨论从10月起暂停增产 [1] 人工智能领域 - OpenAI六年来首次发布"开放权重"模型,可能挑战微软的独家协议 [1] - Grok 4正式发布,采用当世最强算力训练,将与GPT-5和Claude 4 Opus竞争 [1] - 马斯克宣布Grok聊天机器人最迟下周登陆特斯拉车辆 [1] 金融科技 - 蚂蚁国际计划引入Circle稳定币,并考虑在多个地区申请牌照 [1] 稀土行业 - 美股稀土股盘前集体大涨 [1] - 稀土磁铁生产商MP Materials获得五角大楼投资,将建厂扩产 [1]
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-11 04:40
视觉语言模型的偏见问题 - 核心观点:当前主流视觉语言模型(如GPT-4、Gemini、Claude等)在图像识别中严重依赖先验记忆而非实际视觉分析,导致对反事实图像(如六指手、四条纹阿迪达斯鞋)的识别准确率极低[5][12][17] - 实验数据:模型在识别异常图像(五腿狮子、三脚鸟等)时平均准确率仅2.12%[15],数国旗条纹错误率超80%[16] - 机制解释:模型通过海量数据训练形成强关联性先验知识(如"狗=四条腿"、"阿迪达斯=三条纹"),视觉输入与记忆冲突时优先选择记忆答案[23][25][26] 多模态模型测试结果 - 跨模型验证:OpenAI o3/o3 pro、豆包、Kimi、Gemini等模型对六指图像均错误识别为五指,仅Claude 4存在部分正确率[4][5] - 响应特征:模型在48秒推理后仍坚持错误结论,人工提示仅提升2%准确率[3][28] - 表格数据:阿迪达斯四条纹被100%错误识别为三条纹,PUMA标识错误率超75%[13] 工业应用风险 - 质检场景:AI可能因罕见缺陷(如零件裂缝)不符合先验知识而误判合格,潜在导致安全事故[30][32] - 医疗领域:肺癌筛查等场景需医生二次验证AI判断,反映模型可靠性存疑[34] - 交通隐患:对异常目标(夜间行人、突发障碍物)的识别可能受偏见影响[35][36] 技术本质分析 - 训练缺陷:模型通过记忆数百亿图片文本建立知识库,而非真正理解视觉元素[18][19] - 认知类比:与人类"雷碧"误认现象类似,依赖快速模式匹配而非细节分析[11][12] - 矛盾机制:视觉模块与知识模块冲突时,模型优先选择高概率常识答案[24][25] 行业启示 - 当前局限:视觉语言模型在反事实识别、细节观察等场景存在系统性缺陷[37][38] - 应用建议:关键领域需保留人工复核机制,不能完全依赖AI视觉判断[34][39] - 发展需求:需突破基于记忆的推理框架,建立真正的视觉理解能力[26][38]
马斯克新发布的“全球最强模型”含金量如何?
第一财经· 2025-07-10 23:07
Grok 4发布 - 埃隆·马斯克在Grok 4发布会上宣布该模型为"全球最强大的AI模型",并称其"几乎在所有学科上都比人类研究生更聪明"[1] - Grok 4将在下周应用于特斯拉车辆[1] - Grok 4在AIME25数学竞赛中取得满分,在"人类最后的考试"(HLE)测试中获得26.9%的高分[1] Grok 4性能表现 - 测评机构Artificial Analysis给出Grok 4人工智能分析指数73分,领先OpenAI o3(70)、谷歌Gemini 2.5 Pro(70)、Claude 4 Opus(64)和DeepSeek R1 0528(68)[2] - 在HLE测试中Grok 4取得24%的历史最高分,超过谷歌Gemini 2.5 Pro之前21%的记录[5] - Grok 4训练量是Grok 2的100倍,强化学习阶段投入算力是其他模型的10倍以上[5] 产品定价与发布情况 - Grok 4订阅费30美元/月,Grok 4 Heavy版本300美元/月,Grok 3维持免费[5] - 发布会比原定时间推迟一小时,此前Grok 3.5模型曾跳票[5][6] - 团队选择跳过Grok 3.5直接发布Grok 4,xAI办公室显示核心员工近期可能都睡在办公室[6] 公司资源与融资 - xAI在美国田纳西州建立"Colossus"超级计算中心,2024年7月启动时配备10万块H100 GPU,2025年2月增至20万块,计划扩展到100万块[10] - xAI完成100亿美元新一轮融资(50亿美元债务+50亿美元股权),2024年公开总融资额达220亿美元(约1579亿元人民币)[10] - xAI与X合并后估值1130亿美元(xAI 800亿+X 330亿)[10] 财务状况与行业竞争 - xAI目前每月消耗10亿美元,截至2025年3月底账面现金40亿美元[11] - 预计2025年营收5亿美元,2026年20亿美元,远低于OpenAI预计的127亿美元[11] - 微软、亚马逊、谷歌和Meta四大巨头2025年AI投资计划高达3200亿美元[11] 未来发展计划 - xAI计划利用X平台数据训练模型以降低数据成本,预计2027年实现盈利[12] - 计划8月发布编程模型,9月发布多智能体,10月发布视频生成模型[12] - OpenAI将在今年夏天发布GPT-5,行业竞争将持续加剧[11]