Workflow
Claude Opus
icon
搜索文档
AI三国杀:OpenAI狂卷,DeepSeek封神,却被Mistral偷了家?
36氪· 2025-12-03 19:55
Mistral Large 3模型发布 - 公司推出MoE大模型Mistral Large 3,采用41B active / 675B total的MoE架构,具备原生图像理解能力、256k上下文长度以及强大的多语言能力[1][3] - 模型在LMArena排名中位列开源模型第6,其ELO得分在开源大模型中稳居第一梯队,与Kimi K2打成平手,仅略低于DeepSeek v3.2[3][6] - 在MMLU、GPOA、SimpleQA、AMC、LiveCodeBench等多项基础任务上,Mistral Large 3(Base)与DeepSeek 37B、Kimi K2 127B保持同一水平,属于开源系第一梯队底模[8] - 模型采用Apache 2.0开源协议,并与NVIDIA深度合作,采用FP4格式并重写了Blackwell的注意力与MoE内核,优化了推理链路[10] - 在真实任务评估中,Mistral Large 3(Instruct)在通用任务和多语言任务里对DeepSeek V3.1、Kimi K2取得53%–60%的胜率[33] Ministral 3小模型系列 - 公司推出Ministral 3系列小模型,包括3B、8B、14B三种规格,每个规格均有base、instruct、reasoning三个版本,全部为多模态且开源[1][11] - Ministral 3的instruct版本在综合智能指数上得分分别为31(14B)、28(8B)、22(3B),全部超越上一代Mistral Small 3.2,且参数量多40%[11] - 小模型经过优化可部署于多种设备,包括DGX Spark、RTX PC、普通笔记本及Jetson等嵌入式板卡,实现从数据中心到边缘设备的覆盖[11][18] - Ministral 14B的底模在数学、知识问答、多语言任务中全面领先Gemma 13B和Qwen 1.8B,其reasoning版本在AIME'25等推理任务上领先Qwen 14B「Thinking」[23][25] - Ministral 14B(Instruction)在WildBench、Arena Hard、数学推理和多模态任务上全面领先Gemma 13B与Qwen 1.8B,指令调优后综合能力几乎碾压同量级模型[28] 性能与基准测试表现 - Mistral Large 3相比上一代Large 2提升了11分,达到38分,但仍未进入GPT-5、Gemini 3、Claude Opus等顶级专有模型所在的第一梯队[13] - 在Artificial Analysis的综合榜单中,前排被GPT-5、Gemini 3、Opus系列占据,DeepSeek和Qwen持续贴近第一梯队,Mistral Large 3则位于两者之间[13] - Ministral 14B(Reasoning)在AIME'25数学推理任务上达到85%的准确率,在数学和代码推理方面几乎是同量级模型的天花板[20][25] 战略定位与行业影响 - 公司战略聚焦于企业市场,首席科学家指出超过90%的企业任务可通过微调的小模型满足,直接针对OpenAI等闭源模型成本高、可控性差的痛点[29] - 公司提供定制化服务,派遣工程师进驻客户公司,帮助构建企业专属AI,目标是用14B模型在企业场景中替代70B、400B的大模型[31] - 公司构建平台化能力,包括Mistral Agents API、Magistral模型系列及AI Studio,形成从模型到工具链的完整生态[33][35] - 公司代表欧洲式“软件制造业”哲学,将AI能力做成标准件供用户随取随用,与美国的“云端神谕”模式形成对比,在全球AI版图中开辟了新路径[37][38]
Bitcoin bounces back, Dell founder gifts $6 billion for 'Trump accounts'
Youtube· 2025-12-03 06:17
股市表现 - 道琼斯工业平均指数上涨近0.5%或超过200点 [2] - 纳斯达克综合指数上涨0.75% [2] - 标准普尔500指数上涨约0.5% [3] - 罗素2000小型股指数在经历上涨后进入窄幅盘整 [3] - 恐慌指数VIX小幅下跌,自几周前波动性恐慌以来持续走低 [3] 债券市场 - 10年期国债收益率下降1个基点至4.08%,昨日上涨8个基点 [4] - 30年期国债收益率下降至4.74%,仅下降1个基点 [4] - 美元指数今日接近持平 [4] 行业板块表现 - 科技板块上涨1.11%,领涨市场 [5] - 工业、通信服务、金融和可选消费板块同样上涨 [5] - 能源板块下跌1.4%,成为最大跌幅板块 [5] - 材料、必需消费品、公用事业、医疗保健和房地产板块下跌 [6] 科技股与半导体 - 苹果公司股价上涨1.1%,有望连续第七日收涨并创下第六个收盘纪录 [6] - 费城半导体指数有望连续第七日上涨 [7] - 英特尔上涨8%,英伟达上涨4%,德州仪器上涨5% [8] - Shopify上涨6%,Snowflake上涨3.5%,MongoDB在纳斯达克100指数中表现突出,上涨23% [8] 加密货币市场 - 比特币上涨超过7%,价格徘徊在92,000美元附近 [11] - 美国证券交易委员会主席提及计划为数字资产公司推出创新豁免 [12] - Vanguard集团宣布将允许主要持有加密货币的ETF和共同基金在其平台上交易 [12] - 以太坊上涨超过9% [13] - 加密货币相关股票反弹,MicroStrategy年初至今上涨超过8%,Robinhood上涨4%,Coinbase上涨超过3% [14] - Coinbase计划于12月17日推出新服务,包括预测市场和代币化股票 [15] 人工智能行业观点 - 美国银行和贝莱德均认为当前人工智能热潮并非泡沫 [43] - 贝莱德指出人工智能建设的速度和规模前所未有,可能引发新的工业革命,推动持续超过2%的增长 [44] - 美国银行指出当前市场广度、高估值与2000年泡沫有相似之处,但推荐股票配置较低,盈利增长支撑高估值,IPO规模较小,投机行为不那么极端 [46] - 人工智能支出规模巨大,已成为宏观故事,可能继续推动国内增长 [44] 汽车行业销售 - 11月汽车销售估计为1570万辆,优于10月但低于去年同期 [65] - 电动车辆销售在10月下降近50%后,11月出现预期中的疲软 [66] - 全年销售节奏预计约为1620万辆,仍高于2024年水平 [67] - 美国消费者继续偏好SUV和大型卡车,中型市场车型如福特Maverick和Ranger表现良好 [69] - 轿车销售持续下滑,但本田和丰田仍保持稳定输出 [70] - 关税影响相对温和,年同比价格增长约4%,其中约1%可归因于关税 [74] 初创公司与投资 - 健康保险公司Curative完成1.5亿美元B轮融资,估值达到13亿美元,计划将业务扩展至全国 [90][92] - 公司采用人工智能优先流程处理日常业务,例如每日接收的10,000页传真,以加快决策速度 [95] - 公司通过零自付费用模式鼓励预防性护理,实现98%的会员参与率,并在6个月内将住院率降低30% [92][102] - 公司目前已盈利,拥有165,000名会员,今年增长100%,并计划持续盈利增长 [104] 企业动态与交易 - Beta Technologies获得Eve Air Mobility为期10年、价值10亿美元的电机供应合同,但股价自上月上市以来下跌超过16% [108] - 华纳兄弟探索公司股价创52周新高,公司收到来自派拉蒙、Skydance、Netflix和康卡斯特的第二轮收购要约 [109] - 雅诗兰黛推出由谷歌Gemini模型驱动的AI气味顾问,使用该工具的在线购物者购买率是未使用者的两倍 [111] 企业战略与财务 - MicroStrategy建立14.4亿美元现金储备,旨在覆盖21个月的股息支付,避免在比特币价格低于1倍资产净值时出售比特币 [112][113] - 公司优先发行永久优先股而非传统债务,以增加购买比特币的资本 [117] - 公司对比特币采取投资策略而非交易策略,在有可用资本时即进行购买 [124] - 公司认为比特币价格下跌时,只要对其业务整体保持乐观,即视为买入机会 [128]
AI是「天才」还是「话术大师」?Anthropic颠覆性实验,终揭答案
36氪· 2025-10-30 18:13
研究核心发现 - Anthropic公司通过“概念注入”实验证实其Claude模型具备初步的内省能力,即模型能在输出前识别并报告被植入的“思想”[1][6] - 这种内省能力目前非常不可靠,在最优实验条件下,Claude Opus 4.1模型仅在大约20%的案例中展现出觉察能力[14] - 研究颠覆了对语言模型能力的传统认知,表明随着AI性能提升(如Opus 4.1和4.0表现最佳),内省功能有望持续进化[5][16] 实验方法与过程 - 研究方法为“概念注入”:首先记录模型对特定概念(如“全大写字母”)的神经激活模式,然后在无关语境中注入该模式向量,并询问模型是否察觉[8] - 关键区别在于模型是在输出概念前就识别出注入行为,表明识别发生在内部认知层面,而非像过去研究那样基于观察自身输出[11][12] - 模型仅能检测以“恰如其分”强度注入的概念,过弱无法触发觉察,过强则导致幻觉或语无伦次[16] 内省能力的实际应用证据 - 在不被明确要求时,模型能主动运用内省能力区分“外部强加”与“内部生成”的内容,例如将人工预填的无关词汇判断为意外失误还是有意识选择[19] - 模型在解释判断时会构建自洽的叙事逻辑,例如声称选择不合逻辑的词汇是为了营造特定氛围[19] - 模型展现出认知控制证据,能根据指令或激励措施(奖励/惩罚)故意增强或抑制对特定概念的内部表征[23][25] 行业影响与公司立场 - Anthropic公司将可解释性定位为部署先进AI系统的关键,首席执行官Dario Amodei立下目标:在2027年前使大多数AI模型问题能被可靠检测[1] - 研究人员强调此项研究具有重要科学价值,但警告企业和高风险用户绝不能轻信模型对自身推理过程的解释,目前不应盲目信任[27] - 研究触及机器意识的哲学争论,公司聘请了AI福利研究员,其估计Claude拥有一定程度意识的概率约为15%,但团队对此持谨慎态度[29][30]
拆解AI深度研究:从竞品分析到出海扩张,这是GTM的超级捷径
36氪· 2025-10-23 10:08
文章核心观点 - 深度研究功能是当前最强大但未被充分利用的AI功能之一,能将需要10多个小时完成的市场进入任务压缩到几分钟 [1][2] - 该功能是首个能端到端解决复杂非工程任务的AI能力,其应用远超学术和投资领域,对任何需审阅大量信息并提炼见解的任务都是游戏规则改变者 [2] - 要获得顶尖结果需对AI进行大量“手把手”指导,编写提示词的方式至关重要,提供的上下文信息可决定成败 [2][3] 深度研究功能的价值与应用 - 深度研究功能将传统上需10多个小时的研究密集型市场进入项目任务时间大幅缩短 [2] - 该功能适用于几乎所有市场进入项目,能审阅大量信息并提炼实用见解 [2] - 通过提供真实的市场进入用例展示工具能力,激励更多人创造性地使用它 [2] 提升深度研究输出质量的技巧 - 输出质量取决于智能体采用的信源,需优先考虑高质量信源如政府数据等一手来源,而非新闻文章等二手来源 [3][4] - 可要求研究智能体为其论断提供文内引用,并在报告中添加表格列出所有信源的用途、类型和数据年份等信息 [4] - 需主动提供所有相关上下文信息,包括公司背景、具体目标和面临限制,以获得定制化洞察 [6][7][8][9] - 在开始前要求AI分享研究计划,以便提前调整方法论和重点领域,避免报告跑偏 [13][16] - 可指定报告格式,如在文档开头和每个章节前加入摘要,先给出关键见解再深入细节,并使用概览表或视觉化图表 [16] 高效深度研究提示词模板 - 高效提示词应包含目标、上下文、内容、风格、信源和指示等部分 [18] - 目标部分需说明最终想完成什么以及具体希望AI做什么 [18] - 上下文部分需包含所有相关背景信息,如公司专注美国市场,技术栈包括Salesforce、Marketo等 [18] - 内容部分可指明最终输出应包含的内容,如详细的“自建 vs 购买”分析 [18] - 风格部分可定义报告格式,如遵循金字塔原则,先陈述核心观点再补充支持性论据 [18] 深度研究工具比较与选择 - ChatGPT是最好用的通用深度研究工具,尤其在发布GPT-5和Agent Mode后,能提供最深度和严谨的内容 [23][24] - ChatGPT主要优势包括主动询问上下文,以及提供最深入的报告并表现出良好判断力 [24][26] - Gemini表现接近ChatGPT且使用限制更宽松,是ChatGPT额度用完时的不错备用选择 [26] - Perplexity适合将研究重点放在特定网站或社交论坛,拥有更精细的信源控制并能更好遵循指令 [26] - Claude、Perplexity和Grok能生成1000到2000字简洁易读的报告,适合刚开始研究某个主题时使用 [26] 市场进入实用案例 - 用例1:为大型内部项目提供分步指南,如建立营销归因模型,帮助公司在不到一小时内迅速上手 [27][28] - 用例2:研究竞争对手广告策略,通过AI审查领英广告库等来源,分析其定位、信息传递和策略 [30][31] - 用例3:对主页或登录页进行审查,结合行业最佳实践和竞争对手分析,提供详细改进建议 [33][34] - 用例4:分析竞争对手产品功能,创建详细的竞品对比报告,用于客户对比页面或广告 [39][40] - 用例5:国际扩张的市场评估,通过制定扩张框架和寻找高质量数据源,对潜在国家进行排名 [41][42] 其他应用灵感 - 使用ChatGPT Agent Mode记录领先公司如何处理产品演示或用户引导流程 [47] - 使用Perplexity对近期发布的产品在社交媒体上的反馈进行快速了解 [47] - 让ChatGPT深度研究编写成功营销噱头和增长技巧报告,并与推理模型合作找出适配方案 [47]
布米普特拉北京投资基金管理有限公司:AI技术或致数百万岗位流失
搜狐财经· 2025-10-18 22:58
核心观点 - 杰富瑞首席市场策略师认为美联储可能低估人工智能技术对就业市场的潜在冲击 [1] - 人工智能的快速发展正在使美联储平衡充分就业与物价稳定的双重使命变得愈加困难 [3] - 人工智能技术可能导致美国就业市场在未来三到四年内面临300万至500万个工作岗位的流失 [6] 经济与政策环境 - 美国经济可能正在经历显著增长阶段,但就业增长表现远未达到理想状态 [3] - 如果出现经济增速达到3.5%或4%的同时失业率持续攀升的情况,将对现行货币政策框架构成严峻考验 [3] - 政策制定者需要更加敏锐地捕捉技术变革对经济结构的深远影响 [8] 人工智能技术进展 - OpenAI的最新模型GPT-5相较于15个月前发布的GPT-4模型,表现成绩几乎提高了三倍 [8] - GPT-5及竞争对手Anthropic的Claude Opus模型已经接近行业专家的工作质量 [8] - 人工智能领域的专家认为相关市场的投资仍处于早期阶段 [6]
短短几分钟,AI轻松通过了CFA三级考试
华尔街见闻· 2025-09-25 12:09
AI模型在金融专业考试中的突破性表现 - 多个前沿AI模型已能在几分钟内通过CFA三级考试,而人类通常需要数年时间和约1000小时学习才能完成[1] - 研究测试了23个大型语言模型,发现包括o4-mini、Gemini 2.5 Pro和Claude Opus在内的前沿推理模型能够成功通过CFA三级模拟考试[1] - 此次突破标志着AI技术克服了两年前在CFA三级考试论述题环节遭遇的重大障碍[3][4] 领先AI模型的具体考试成绩 - Gemini 2.5 Pro在综合表现(选择题和论述题)中以2.1分位居榜首,并在论述题评分中获得3.44分的最高成绩[2][5] - 国产KIMI K2模型在多选题中表现最佳,正确率高达78.3%,超过谷歌的Gemini 2.5 Pro[6] - 在选择题部分,Gemini 2.5 Pro正确率为77%,o4-mini为68%,Claude Opus 4为60%[2] 技术策略与性能效率分析 - 采用"思维链提示"技术的前沿推理模型成功应对了此前令AI头疼的论文题型[2][4] - 研究采用了零样本、自我一致性和自我发现三种提示策略,其中自我一致性策略取得73.4%的最佳表现评分[9] - Llama 3.1 8B Instant获得5468的最佳成本效率评分,而Palmyra Fin以0.3秒的平均响应时间成为速度最快的模型[9] 行业影响与未来展望 - AI技术的快速发展已使其具备"专业金融决策所需的专业化、高风险分析推理能力"[4] - 业内专家认为该项技术绝对有未来改变整个行业的可能[2] - 尽管AI在标准化考试中表现出色,但完全替代人类金融专业人士仍存在局限,特别是在情境理解和意图判断等方面[10]
短短几分钟,AI轻松通过了CFA三级考试
华尔街见闻· 2025-09-25 11:35
AI模型在金融专业考试中的突破 - 多个前沿AI模型(包括o4-mini、Gemini 2.5 Pro和Claude Opus)已能在几分钟内通过CFA三级模拟考试,而人类通常需要数年时间和约1000小时学习才能完成[1] - 研究测试了23个大型语言模型,特别关注其是否具备“专业金融决策所需的专业化、高风险分析推理能力”[3] - 两年前AI模型在CFA三级考试的论述题环节遭遇重大障碍,但最新研究证实该技术瓶颈已被克服[3] 领先AI模型的具体表现 - Gemini 2.5 Pro在综合表现(选择题和论述题)中以2.1分位居榜首,并在论述题评分中获得3.44分的最高成绩[2][4] - 国产KIMI K2模型在多选题中表现最佳,正确率高达78.3%,超过谷歌的Gemini 2.5 Pro和GPT-5[5] - 在处理复杂金融问题时,推理模型的表现显著优于传统的非推理模型[3] 关键技术与策略 - 采用“思维链提示”技术的前沿推理模型成功应对了此前令AI头疼的论文题型[2][3] - 研究采用了零样本、自我一致性和自我发现三种提示策略,其中自我一致性策略取得73.4%的最佳表现评分[7] - 在成本效益分析中,Llama 3.1 8B Instant获得5468的最佳成本效率评分,而Palmyra Fin以0.3秒的平均响应时间成为速度最快的模型[8] 行业影响与未来展望 - 该技术被认为绝对有未来改变整个行业的可能[2] - 业内专家认为AI完全替代人类金融专业人士仍存在局限,例如在情境理解和意图判断等方面机器还难以准确评估[11] - 人类在理解客户肢体语言和各种暗示方面仍具优势[11]
别再乱试了!Redis 之父力荐:写代码、查 bug,这 2 个大模型封神!
程序员的那些事· 2025-07-21 14:50
核心观点 - LLM作为编程辅助工具能显著提升效率,但需人类主导协作流程才能达到最佳效果[4][6][12] - 前沿LLM如Gemini 2.5 PRO和Claude Opus在代码审查、知识补充、设计优化等方面展现博士级能力[4][9][15] - 当前阶段LLM无法独立处理复杂任务,需通过精准提示和全量上下文输入实现价值最大化[6][7][16] LLM协同编程优势 - 代码质量提升:在Redis Vector Sets实现中通过Gemini/Claude审查提前消除潜在bug[4] - 开发效率飞跃:LLM可快速生成一次性测试代码,验证方案可行性并缩短迭代周期[4] - 知识边界拓展:帮助程序员快速掌握68000汇编等非擅长领域技术[5] 最佳实践方法论 - 上下文供给:需提供完整代码库、设计文档及头脑风暴记录,避免RAG机制削弱性能[7][8][16] - 模型选择策略:复杂问题推荐同时使用Gemini 2.5 PRO(语义理解)和Claude Opus(代码生成)[9][15] - 流程控制:禁止使用智能体自动化,需人工介入代码迁移与信息过滤[10][12][16] 行业争议焦点 - 智能体效用分歧:部分开发者认为Codex等智能体在移动场景下具备实用价值[19][20] - 领域依赖性:编程语言和问题领域显著影响LLM应用效果,需具体案例验证[23][24] - 提示工程成本:严谨的提示词设计所需脑力投入可能接近直接编程[25]
员工每天花1000美元也要用ClaudeCode!创始人:太贵了,大公司专属,但它比 Cursor 猛!
AI前线· 2025-06-14 12:06
产品定位与核心优势 - Claude Code定位为终端环境下的代理式编程工具,无需更换IDE或学习新工具,直接在原有工作环境中使用[5] - 产品设计源于公司内部工程师多样化技术栈需求,选择终端作为通用入口以兼容所有开发者[5] - 在处理大型代码库时表现突出,无需额外索引或复杂配置即可开箱即用[9] - 被评价为让Cursor、Windsurf、Augment等工具显得过时,代表编程体验的范式变革[2][13] 技术能力与用户体验 - 采用Claude 4系列模型驱动,理解指令能力显著提升,首次执行准确率大幅改善[14][15] - 支持GitHub Actions集成,可直接在PR中@Claude自动修复问题或编写测试[16] - 通过Claude.md文件实现指令记忆与团队共享,支持全局/个人/项目级配置[24][25][26] - 工作流分为自动化处理简单任务与人工参与复杂任务两种模式[19][20] 市场反馈与定价策略 - 内部测试阶段DAU呈垂直上涨,发布三个月后获企业用户广泛采用[7][9] - 基础使用月费50-200美元,纳入Claude Max订阅计划后实现"无限量"使用[9][10] - 用户承认其能力超越Cursor等工具,但价格成为阻碍大规模采用的主因[1][2] - 公司内部工程师单日使用成本可超1000美元,反映高频使用的经济门槛[1] 行业影响与未来方向 - 推动开发者角色从代码编写者转变为技术决策主导者[4][18] - 代表编程语言演进后的体验变革,进入提示词驱动的新时代[13][18] - 计划拓展工具集成范围,支持更多CI系统和聊天工具场景化调用[27] - 采用"规划-执行"工作流,显著提升复杂任务处理效率[22][23] 开发历程与产品哲学 - 产品本身使用Claude Code进行多轮编写与重构,实现自我迭代开发[8] - 强调内部测试重要性,产品细节体现开发团队实际使用经验[8] - 创始人认为编程演进路径从打孔卡到提示词具有历史延续性[12][13] - 设计理念聚焦降低开发者认知负荷,通过自然语言交互完成编码[11][18]
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
OpenAI o3-pro模型性能评测 - o3-pro在复杂推理测试中成功解答歌手Sabrina Carpenter歌曲名的字母谜题耗时4分25秒[2] - 与o3相比o3-pro在相同测试中仅能答对部分字母[3] - 前OpenAI AGI团队负责人Miles Brundage公开支持o3-pro的推理能力并暗讽苹果对AI推理的质疑[4][5] 模型基准测试表现 - 官方测评显示o3-pro成为OpenAI当前最强编码模型[8] - LiveBench榜单显示o3-pro与o3编码平均分仅差0.07分(76.78 vs 76.71)[11] - 智能体编码得分o3-pro显著落后o3(31.67 vs 36.67)[11] - 亚马逊云科技前高管指出o3-pro在智能体和工具使用方面存在不足[12] 上下文处理能力 - 短上下文场景下o3-pro表现优于o3[15] - 192k超长上下文处理Gemini 2.5 Pro得分90.6显著高于o3-pro的65.6[16] - 上下文长度测试显示o3-pro在60k以下场景保持94.4分以上表现[17] 实际应用案例 - 前苹果工程师Ben Hylak通过输入公司历史会议记录等完整背景信息o3-pro输出精准业务规划[24][25] - o3-pro在工具调用和环境认知方面表现提升能明确说明功能边界[30][31] - 相比o3的虚假承诺o3-pro更诚实地说明功能限制[33][35] - 在SQL等特定任务上o3表现仍优于o3-pro[38] 模型特性分析 - o3-pro需要更丰富的背景信息输入否则易出现过度思考[37] - 与Claude Opus和Gemini 2.5 Pro相比o3-pro输出质量更高维度不同[39] - OpenAI通过强化学习路径提升模型"何时使用工具"的决策能力[39] - 系统提示和语境设置对o3-pro表现影响显著[40][41] 商业动态 - o3模型价格下调成为昨日重要新闻[13] - 前苹果工程师Ben Hylak透露已提前一周接触o3-pro进行测试[23]