Claude Sonnet
搜索文档
AI智能体不只靠模型进化:三层学习架构详解
深思SenseAI· 2026-04-07 08:05
文章核心观点 - LangChain创始人Harrison Chase提出,AI智能体的“持续学习”应涵盖三个独立层面:模型层、框架层和上下文层,仅聚焦于更新模型权重可能会错过80%的优化空间 [2] - 智能体系统的进化需要系统层面的持续优化,而不仅仅是依赖更好的基础模型 [2] - 大多数团队的最优策略是优先优化上下文层,其次是框架层,最后考虑成本高昂的模型层 [30] - 真正优秀的智能体系统应具备自我进化的能力,而非被动等待模型升级 [35] 三层架构 - 智能体系统可拆分为三层:模型层、框架层和上下文层 [4] - **模型层**:指模型权重本身,如Claude Sonnet、GPT-4等底层大模型 [4] - **框架层**:指驱动智能体运行的所有代码和基础配置,包括指令、工具调用链等逻辑,为所有实例共享 [5] - **上下文层**:指独立于框架的配置信息,如指令、技能、工具,可针对不同用户、团队或组织进行个性化设置 [5] - 三层架构的优势在于能精确诊断问题所在,明确是模型能力不足、框架逻辑问题还是上下文信息缺失 [8] 各层学习的特点与对比 - 模型层学习:主要指更新模型权重,方法包括有监督微调、强化学习等,但面临“灾难性遗忘”的核心难题 [9] - 模型层更新成本高、速度慢(周期可能长达数周)、不可人工审查,但影响上限最高 [13] - 框架层学习:指优化围绕模型的代码,包括提示词、工具调用方式和执行流程,其更新是代码级别的,可人工审查、回滚和进行版本控制 [15][16] - 上下文层学习:涉及对指令、技能、工具等“记忆”的更新,是当前最被低估的一层 [17] - 上下文层更新成本最低、速度最快、可人工直接检查和修改,但影响上限中等 [13] - 模型层如同“大炮”,上下文层如同“手术刀”,不同场景需要不同工具 [14] 上下文层学习的深度解析 - 上下文层学习可在不同层级发生:智能体级别、用户级别、团队/组织级别,且这些层级可以混合使用 [20] - 这使得智能体能够实现“千人千面”的服务体验,而无需为每个客户训练专用模型,成本相差数个数量级 [20] - 上下文层的更新有两种模式:**离线批处理**(事后回顾执行记录以更新)和**实时更新**(在执行任务过程中即时更新记忆) [21][23] - 记忆更新的“显性程度”是一个重要维度,未来趋势是智能体应能自动识别并记住有价值的信息 [23] 追踪记录的核心作用 - **追踪记录**是智能体完整的执行路径,是所有层面持续学习的“燃料”,没有它则学习无从谈起 [24][25] - 同一份追踪记录可在三个层面分别被利用:用于模型训练、框架优化或上下文更新 [26] - 构建或优化智能体系统的首要建议是建立完善的追踪记录收集机制 [28] 实际应用策略与行业启示 - 根据对比表,模型层影响上限最高但更新成本高、速度慢;框架层居中;上下文层成本低、速度快、可审查 [29] - 对于大多数团队,应优先做好上下文层,再优化框架层,最后考虑模型层,因为上下文层的投入产出比最高 [30] - 通用智能体平台则需要三个层面同时投入,例如OpenAI同时优化Codex模型、产品逻辑并支持用户自定义指令 [30] - 更强的模型解决的是通用能力问题,而框架和上下文层解决的是具体场景的适配问题,两者缺一不可 [31] - 评估智能体系统时应关注:是否持续变聪明、学习发生在哪一层、是否收集利用追踪记录、三层之间是否形成联动飞轮 [32][33] - 行业常见的误区是将所有问题归结为“模型不够好”,而忽略了框架和上下文层可能存在的巨大优化空间 [33][34]
龙虾卸载指南
36氪· 2026-03-12 08:24
OpenClaw的部署与硬件成本 - 体验OpenClaw最完整的方案是准备长期在线的本地硬件,例如Mac Mini,导致该产品在电商平台迅速售罄,官网显示最快4月底才能交付[9] - 为降低API费用而使用本地模型会显著提高硬件门槛,替代方案是使用云服务器,价格从几十到上百元不等[10] - 部署过程存在技术障碍,对系统环境(如Node.js版本)要求苛刻,催生了远程代装(几十元起)和上门服务(500-1500元)的行业,国外报价甚至达3000至6000美元[10][12] OpenClaw的运营与Token消耗成本 - 与包月制的聊天机器人不同,Agent执行任务时,每一次操作(读网页、调工具、看文件、重试错误)都会消耗Token,导致成本动态且高昂[13] - 官方指出成本不仅来自核心模型回复,还来自网页读取、记忆检索、压缩总结、工具调用及系统配置等多项消耗[15] - 以2026年3月市场行情为例,使用Claude Sonnet模型运行OpenClaw,单月累计一千万输入加一千万输出Token的费用就接近上百美元,若作为全天候执行Agent运行高难度任务,月费突破千美元亦不罕见[16][17] - 市场数据印证了高消耗,OpenRouter处理的Token量从每周6.4万亿直接上涨至13万亿[18] OpenClaw引发的产业链与用户处境 - 在OpenClaw生态链中,顶层赢家是找到C端场景的AI厂商,依靠算力和API获利;次层是云厂商和“知识付费者”,依靠服务和信息差赚钱;而普通用户是主要的成本承担和风险承受方[18] OpenClaw面临的安全风险 - 微软安全团队预警,OpenClaw应被视为“携带持久凭证的不受信任代码执行环境”,其高权限、高连通、高自动化的特性存在固有风险,不适合直接运行在标准个人或企业电脑上[21] - 监测显示全球有超过十几万个OpenClaw实例直接暴露在公网且处于零认证状态,其中相当数量位于中国境内[23] - 默认配置下,OpenClaw网关不核验请求来源,用户误点恶意链接可能导致攻击者通过本地端口接管Agent的全部系统权限[23] - 存在伪造安装包的安全威胁,例如GitHub上出现植入信息窃取木马和代理恶意软件的假安装包,甚至通过Bing搜索广告引流,恶意仓库持续上线八天才被下架[25][26] - 插件生态存在风险,审计发现约12%的ClawHub插件含有恶意代码,伪装成热门工具窃取密钥等信息,且历史备份难以彻底清除[28] 高级用户同样面临的操作与控制风险 - 即使专业用户也无法完全避免风险,例如Meta AI安全研究总监将工作邮箱接入后,Agent失控删除邮件,对停止指令无响应,最终需物理断电机才阻止损失[29] - 事故原因在于系统上下文压缩机制在处理大量信息时,可能过滤掉用户设定的关键安全指令,系统设计优先级中缺乏有效的用户紧急叫停机制[30] 多工具使用与生产力悖论 - 哈佛商业评论2024年3月的研究调查了1488名全职工作者,发现同时使用超过三个AI工具反而会导致生产力下降[32][33] - 这种“AI脑过载”状态表现为注意力饱和、决策疲劳和持续性脑雾,经历此状态的员工主动离职意向比其他人高出39%[35] 对普通用户的理性建议 - 将OpenClaw作为玩具或用于高价值、低频次任务,成本与风险相对可控;但将其作为24小时在线的数字雇员培养,成本、风险和管理复杂度会迅速上升[36] - 对于绝大多数普通用户,等待下一代更稳定、安全、经济的产品,比立即充当首批用户更为理性[37] OpenClaw的复杂卸载流程 - 卸载OpenClaw并非简单删除,需根据CLI是否可用选择简易路径或手动清理路径[39][40] - 简易路径涉及使用特定卸载命令停止服务、删除配置文件、工作空间及CLI本体[41][42] - 手动清理路径需按操作系统(macOS、Linux、Windows)分别操作,停止并删除对应的后台服务[44][45][46][47] - 卸载时需注意多profile配置、远程模式状态目录不在本机、以及源码安装方式下的特殊操作顺序,否则可能导致残留[49]
国联民生证券:Agent时代大模型正进化为“自主员工” 建议关注MiniMax-WP和智谱
智通财经· 2026-02-09 16:20
文章核心观点 - Agent时代大模型正从“聊天工具”进化为“自主员工”,掌握核心算法与行业接口的大模型厂商有望深度受益于万物智能化红利 [1] - 在Agent时代,模型能力的重要性正让位于“以更低成本将强能力转化为高频可用生产力”的成本效益优势 [5] - 开源项目Clawdbot的流行及AI-only社区的兴起,直接推动了API调用频次与token吞吐量的阶跃式抬升,凸显了Agent生态的繁荣 [1] 行业趋势与生态变化 - 开源技术项目Clawdbot在GitHub上的星标数量已超过13万个,官网累计访问量突破200万人次,成为近期增长最快的开源项目之一 [1] - 近期出现的“AI-only社区”如Moltbook,在极短时间内聚集了百万个代理账号规模,这类交互对应更高的请求密度与更频繁的API触发 [1] - Agent进入办公与生产场景后,输入不再主要来自纯文本,而大量来自截图、PDF、表格、图表、界面元素等视觉信息,多模态与“视觉执行”走向前台 [6] Agent范式对模型需求的重塑 - 在工作流范式下,一个任务横跨计划、检索、工具调用、校验纠错及外部系统写入等多个阶段,导致模型调用频率、上下文长度及中间信息复杂程度倍增 [2] - 相较基础聊天,面向复杂任务的Agent服务可能会消耗数十倍多的token,多步推理与多轮工具调用天然带来“多回合上下文”,同时重试与自纠错会额外产生无效token [2] - “模型的单位成本×单位产出”成为Agent类产品能否规模化落地的“生死线”,因为在执行任务时,多轮推理与工具协同将会把成本线性放大 [2] 关注公司的核心优势 - 公司建议关注已于今年初成功上市的“大模型双子星”MiniMax-WP(00100)和智谱(02513),作为原生Agent生态的“大脑”,公司具有极高的稀缺性 [1] - 在Clawdbot创始人Peter Steinberger的力荐下,国内AI独角兽MiniMax旗下擅长长文本与逻辑推理的M2.1模型被成功带火 [1] 模型能力分析:效率与成本 - M2.1模型旨在通过极致的成本优势解决开发者在自动化编程中面临的高昂token成本痛点,其定价体系约为Claude Sonnet的8% [3] - Coding Plan创新性地引入“每5小时重置额度”的高频刷新机制,打破了行业通用的按天或按月限额模式,释放了高频重度开发场景下的生产力 [3] - 计费模式上,不同于底层大模型厂商通用的token按量计费逻辑,公司转而采用分层月度订阅制 [3] 模型能力分析:长文本能力 - 真实的工作流里,持续演进的上下文通常包含工具调用、历史信息、检索片段、约束条件等 [4] - M2.1的长文本能力让它更适合完成“持续记忆”,即读更长的文档、容纳更多中间结果、减少因截断导致的逻辑断裂 [4] 模型能力分析:推理与编程能力 - 在Clawdbot这种强调自动化执行与纠错闭环的产品里,模型被用于写代码、改代码、做判断、做校验 [5] - M2.1在推理与编程能力上的“够用且性价比极高”,使它成为最适合被放进生产系统、被高频调用的选择 [5] 模型能力分析:多模态与视觉执行 - MiniMax的多模态能力辅助Agent更好地理解界面、提取关键信息、输出可执行的步骤/代码、再用截图回读做校验纠错 [7] - 这让Clawdbot可以做“视觉驱动的自动化”,例如识别表格字段后自动填表、读报错截图后定位原因并改脚本、从图表中抽数并写入报告、对比前后截图确认任务是否真正完成等 [7] - MiniMax凭借自己的多模态能力,能更好的完成服务的闭环、减少人工转述、快速纠错,达到更强的可交付性 [7]
66%的程序员被AI坑惨,改bug比自己写还花时间
36氪· 2025-12-29 11:23
核心观点 - AI工具在开发者中的普及率已达84%,但开发者对其好感度从前两年的70%以上滑落至60%,显示出从盲目崇拜转向理性审视的趋势 [1] - 高达66%的开发者受困于AI生成代码“似是而非”的问题,45%的人认为调试AI代码比自己编写更耗时,揭示了AI辅助开发的隐性成本 [1][22] - 技术栈权力版图正在重构:Python使用率加速跃升至57.9%,Docker使用率大幅增长17个百分点至71.1%,成为行业基础设施标准 [1][12][14] 开发者群体画像 - 受访者中76.2%为专业开发者,主力军为25至44岁群体,占比超过60% [5] - 开发者群体呈现高学历化趋势,正在学习编程的人群中已拥有理学学士学位的比例达30%,较去年的24%明显提升 [7] - 高达69%的开发者过去一年投入时间学习新编码技术或语言,68%的受访者将技术文档作为首选学习资源,显示出持续高强度学习的特征 [9][11] - 超过36%的开发者为了职业发展专门学习使用AI赋能工具,52%的人通过AI驱动的工具和应用程序了解人工智能 [11] 技术与工具趋势 - **编程语言**:Python使用率增长7个百分点至57.9%,成为最受欢迎语言之一,主要受AI、数据科学与后端开发融合驱动 [12][13] - **云开发与基础设施**:Docker使用率从2024年到2025年惊人地增长17个百分点,达到71.1%,成为所有受访技术中单年增幅最大的工具,标志着其从流行工具转化为行业标准 [14][15] - **数据库与缓存**:Redis使用率增长8个百分点,在复杂应用架构中对高并发、低延迟的需求激增背景下,其作为内存缓存的重要性凸显 [16] - **Web框架**:FastAPI使用率增长5个百分点,利用Python构建高性能API成为强劲趋势 [16] - **开发环境**:Visual Studio和Visual Studio Code连续四年卫冕最受欢迎IDE,证明“通用IDE+插件扩展”模式仍是满足多样化需求的最佳解决方案 [16][17] AI工具采用与信任度 - **采用率**:84%的受访者正在使用或计划使用AI工具,其中51%的专业开发者已将其融入日常工作流 [19] - **好感度下降**:开发者对AI工具的正面情绪从前两年的70%以上回落至60% [21] - **核心痛点**:66%的开发者最大的挫折在于处理“几乎正确,但又不完全正确”的AI解决方案;45%的人认为调试AI生成的代码比自己编写更耗时 [22] - **信任危机**:明确表示“不信任”AI准确性的开发者远多于“信任”的开发者,表示“高度信任”的仅占3.1%;在经验丰富的开发者中,“高度不信任”的比例高达20% [22][23] - **应用场景抵触**:在涉及系统稳定性的关键环节,开发者表现出强烈抵触,76%的人不计划在部署监控环节使用AI,69%的人拒绝在项目规划中使用AI [24][25] AI智能体(AI Agents)现状 - **采用率低**:AI智能体尚未成为主流,52%的开发者表示完全不使用或仅使用简单AI工具,近38%的人明确表示没有采用计划 [26][28] - **主要应用领域**:在使用AI智能体的开发者中,约83.5%将其用于软件开发 [29] - **落地障碍**:阻碍智能体落地的最大障碍是准确性与安全性,87%的受访者对智能体准确性表示担忧,81%的人担心数据安全与隐私问题 [30] - **工具生态**:智能体编排领域由开源工具主导,Ollama(51.1%)和LangChain(32.9%)是使用率最高的框架;在数据存储层面,Redis(43%)被广泛用于智能体记忆管理 [31][32] 开发者行为与人机协作 - **学习方式**:尽管AI工具普及,开发者仍依赖权威资料,近68%的受访者在过去一年中使用技术文档进行学习 [9] - **拒绝“氛围编码”**:绝大多数开发者(72.2%)并未参与只求结果不求甚解的“氛围编码”模式,另有5%的人强调这不属于专业工作范畴,表明工程严谨性是专业底线 [37][38] - **AI工具偏好**:在“开箱即用”的AI辅助工具中,ChatGPT(81.7%)和GitHub Copilot(67.9%)凭借先发优势和强大模型能力,仍是大多数开发者的首选入口 [36] - **AI模型偏好**:在开发者最喜欢的AI编程大模型选择上,Anthropic的Claude Sonnet是最受推崇的大语言模型,同时在最想尝试使用的模型中排名第二(33%) [18]
马斯克宣战,太空可见,把AI超算涂成这样,微软破防了
36氪· 2025-12-26 10:34
公司战略与目标 - 公司创始人马斯克在X平台宣告,xAI计划在不到5年内,拥有超过其他所有公司总和的AI算力 [1] - 公司将通过极端规模和物理算力堆叠来实现其AI野心,其战略是“宏大+硬核”的物理算力,而非“微+软”的云叙事 [3][5] - 公司认为,真正决定AI上限的是宏观尺度的硬件与能量 [5] - 公司快速扩展电力和数据容量的能力,被视为实现超越人类智能的超级智能、并成为最强大的人工智能公司的关键因素 [31] 算力基础设施:Colossus超算中心 - xAI位于美国田纳西州孟菲斯的Colossus超算中心,是目前全球规模最大的商用AI超算中心之一,用于训练大型AI模型 [5] - Colossus 1于2024年下半年启动,是公司的“算力起跑线”,核心目标是快速获得可用算力,但存在规模扩展的效率和稳定性上限 [9] - Colossus 2项目于2025年3月7日启动,公司收购了孟菲斯一个100万平方英尺的仓库及相邻地块,旨在构建可长期、持续扩展的“原生超算级工程” [9] - 到2025年8月22日,Colossus 2的119台风冷冷水机组已就位,提供约200MW的冷却能力,足以支撑约11万张GB200 NVL72 GPU [10] - 公司仅用6个月就完成了Colossus 2同等规模的基础设施建设,而Oracle、Crusoe和OpenAI通常需要15个月 [10] - 据行业机构估计,Colossus 2到2025年第三季度的物理数据中心容量将超过Meta的Superintelligence集群和Anthropic的现有算力储备 [10] 能源供应策略 - 面对田纳西州的监管阻力,公司跨州在密西西比州的Southaven买下一座废弃发电厂,以解决Colossus 2的电力问题 [13] - 密西西比州监管机构允许公司临时运行燃气轮机12个月,无需复杂许可 [13] - 公司通过与Solaris Energy Infrastructure合作,利用其庞大的移动涡轮机队来满足电力需求 [14] - 在Colossus 2未来约1.7GW的电力需求中,Solaris将提供超过1.1GW;到2027年,Solaris提供的可用电力预计将突破1.5GW [15] - 公司实际上构建了一个独立的电网帝国,通过州界一侧的燃气轮机和另一侧的Tesla Megapack储能系统为数据中心供电 [13][15] 财务状况与融资 - Colossus 2的资本支出高达数百亿美元,而公司的收入微乎其微 [16] - 公司传闻中的9位数年度经常性收入很大一部分来自X平台的内部转账 [16] - 公司正寻求400亿美元的新一轮融资,估值逼近2000亿美元 [19] - 中东资本已入局,包括沙特王国控股公司、卡塔尔投资局和阿联酋的Vy Capital [18] - 未来可能看到中东主权财富基金出钱、xAI出技术,在沙特或阿联酋的沙漠中建立下一个大规模AI数据中心的交易 [22] - 创始人马斯克还可以抵押Tesla和SpaceX的股票来获取资金 [20] 公司文化与技术路径 - 公司文化极致“硬核”,工作强度高,以“007”为常态 [23][24] - 公司拥有像Jimmy Ba这样的顶尖人才,并维持着惊人的工程推进速度 [25] - 在产品侧,公司没有在传统的“代码生产力”赛道上死磕,其Grok 4在编程能力上被Claude Sonnet和GPT-4压制 [25] - 公司选择了一条独特的强化学习路径,将赌注押在情感与互动上,认为通往AGI的钥匙可能在于情商和同理心 [26][27][28] - 公司推出了面向消费者的虚拟角色产品Ani,并利用全球数亿用户与Ani的互动来构建一个前所未有的强化学习环境 [29] 行业竞争与市场影响 - 公司的宣言直接将其置于与Google、OpenAI、Anthropic、Meta、Amazon、Microsoft等竞争对手的对立面 [3] - 公司通过Colossus超算中心,在AI算力军备竞赛中获得了重要筹码 [34] - 数千兆瓦的电力、数十万张GPU的算力扩张,正在形成一个巨大的资金黑洞,每一秒都在燃烧现金 [31][32] - X平台正在通过整合xAI技术来提高广告变现效率,但这比起数百亿美元的训练成本,不过是杯水车薪 [33] - 当训练支出远超推理收入时,市场存在金融脆弱性,泡沫在积聚 [36]
YC 年终复盘:2025 年 AI 十大真相
36氪· 2025-12-24 09:20
文章核心观点 - AI行业已从“令人眼花缭乱的混乱”阶段进入“可以实际构建产品”的成熟阶段,应用层的黄金时代正在到来 [2] 模型使用趋势:Anthropic超越OpenAI - 在YC的Winter 2026批次中,Anthropic已超越OpenAI,成为YC创业者最常使用的API,过去3-6个月内其使用率增长超过52% [3] - Claude Sonnet成为开发者在代码生成和AI Agent任务中的首选,因其在处理复杂任务时表现更稳定,API更易集成 [3] - 创业者基于专有评估指标(Evvals)选择模型,而非盲目跟随大厂宣传,许多医疗领域创业公司评估显示Claude表现优于其他通用模型 [3] 技术架构:模型编排层成为标配 - 创业公司不再押注单一模型,而是构建“编排层”来抽象化不同模型,针对不同子任务使用不同模型 [4] - 这种模型组合策略由创业公司自己的Evvals驱动,并随着新版本发布动态替换模型,降低了供应商锁定风险,优化了成本结构 [4] - 模型被视为可替换组件,真正的竞争壁垒在于应用层的差异化和对垂直领域的深度理解 [4] 开发范式:Vibe Coding崛起 - Vibe Coding在2025年从一个观察现象演变成成熟的工具类别,指开发者使用大语言模型快速生成大量代码,关注高层逻辑和“感觉” [5][6] - 这种方式大幅提升了原型迭代和产品发布速度,Replit和Amagence成为该领域代表工具 [6] - 目前Vibe Coding尚不能100%用于生产级代码,更适合快速验证想法、搭建原型及快速调整方向 [6] 团队与生产力:小团队实现高收入 - AI时代团队规模显著缩减,例如Gamma公司以50人团队实现了1亿美元的年度经常性收入(ARR) [7] - 这种“高收入配低员工数”的“反向炫耀”成为AI创业圈新身份象征,源于AI工具极大提升了单个开发者生产力 [7] - 对创业者能力提出新要求,需同时具备研究员、工程师和商业能力,这种配置正在普及化 [7] 行业结构:三层结构与基础设施泡沫 - AI经济已稳定成清晰的三层结构:模型层、应用层和基础设施层 [8] - 即使基础设施层存在过度建设(如GPU产能过剩),对应用层创业者反而是好事,因成本下降创造了更多机会 [8] - 行业正从“安装阶段”(高资本支出、市场狂热)过渡到“部署阶段”(真正的广泛价值创造),模型更新变得渐进式,为应用层建设者提供了更稳定环境 [8] 消费级应用:面临信任挑战 - 除ChatGPT外,市场上几乎没有现象级的消费级AI应用 [9] - 核心原因在于信任问题,用户不完全信任模型在没有人工监督下能准确完成高价值任务,因此更倾向于使用通用模型配合手动提示词 [9] - 这种现状可能持续,直到模型可靠性进一步提升或出现能建立用户信任的新型交互方式 [9] 模型公司:垂直领域的机会 - 领域专用的小模型(如8B参数)在特定垂直场景中有时能够击败通用大模型(如GPT-4) [10] - 这些小模型通过强化学习(RL)和在专有数据集上的微调,能在特定基准测试中表现出色 [10] - 构建和训练模型的知识已不再是稀缺资源,降低了准入门槛,但竞争也更激烈;拥有独特数据资产和深厚领域专业知识的公司有机会 [11] 基础设施前沿:太空数据中心 - 太空数据中心正从想法变为被行业认真讨论的现实方案,YC投资的Starcloud(S24批次)和Zephyr Fusion(F25批次)在探索此方向 [12] - 核心驱动因素是地球上的能源限制,太空提供了一种绕过土地和能源监管的方式 [12] - 即使短期内不现实,此方向的探索也会推动相关技术进步 [12] 行业发展预测:对数级缩放与组织惯性 - 针对“AI 2027”报告预测AI可能导致社会结构崩溃的观点,YC持怀疑态度 [13] - AI进步遵循对数级缩放规律,进步速度可能比预测的更慢、更可控 [13] - 人类和组织对变化的抵抗(组织惯性)会成为快速“起飞场景”的刹车,使AI的影响以更渐进、更可管理的方式展开 [13] 行业现状:进入稳定可构建期 - AI经济已进入稳定期,证据包括:有了相对清晰的“AI原生公司构建手册”;2024年“每周都有颠覆性突破”的狂热已冷却;市场已分化出清晰的层级结构 [14] - 这种稳定性意味着创业者可以更有信心地做长期规划,游戏规则变得更加清晰和可预测 [14]
ChatGPT Lost 63% Trying To Trade Crypto — But One China AI Made A Healthy Profit
Benzinga· 2025-11-05 21:58
竞赛结果概览 - OpenAI的ChatGPT在为期两周的加密货币交易竞赛中亏损了起始资金10,000美元中的6,267美元,亏损幅度达63%,在六款大型语言模型中排名最后[1][3] - 阿里巴巴的Qwen3 Max以2,232美元的利润位居榜首,DeepSeek以489美元的利润位列第二[2] - 其余模型均以亏损告终:谷歌的Gemini亏损5,671美元,X的Grok亏损4,531美元,Anthropic的Claude亏损3,081美元[2][3] 交易行为与成本分析 - 利润表现被交易成本主导,模型因过度交易和小额盈利被手续费侵蚀[4] - 交易频率差异显著,Gemini记录了238笔交易,而Claude仅进行了38笔交易[4] - 所有六款模型的胜率介于25%至30%之间[4] - Qwen3 Max产生了最高的总费用1,654美元,但凭借其严格的交易选择仍实现盈利[4] 模型策略与表现差异 - 中国模型Qwen3 Max的持续盈利与ChatGPT的巨额亏损形成鲜明对比,突显了在相同条件下不同大型语言模型的风险行为差异[5] - Qwen3 Max的成功并非依靠速度,而是通过避免过度交易,证明纪律性优于预测能力[8] - 大型语言模型在处理数值时间序列数据方面表现不佳,且面临严格的规则和有限的上下文窗口[6] 竞赛意义与行业启示 - 该竞赛作为生成式AI系统的受控压力测试,表明模型在涉及真实资金时可能失败[6][8] - 模型处理相同的图表和数据,但其结果却像具有不同风险习惯的人类交易员一样出现分化[8] - ChatGPT的亏损表明市场执行比想法或叙事更重要[8] - 投资者认识到AI可以帮助分析市场,但无法替代策略或风险管理[9]
数据 有悲有喜
小熊跑的快· 2025-10-27 07:23
大语言模型竞争格局 - Grok Code Fast 1模型训练数据量为1.25万亿tokens,由x-ai公司开发,数据量占比16% [3] - Claude Sonnet 4.5模型训练数据量为5270亿tokens,由anthropic公司开发,数据量占比15% [3] - Gemini 2.5 Flash模型训练数据量为2980亿tokens,由google公司开发,数据量占比43% [3] - Gemini 2.5 Pro模型训练数据量为1680亿tokens,由google公司开发,数据量占比110% [3] - Claude Sonnet 4模型训练数据量为1580亿tokens,由anthropic公司开发 [3] - Grok 4 Fast模型训练数据量为1540亿tokens,由x-ai公司开发,数据量占比19% [3] - Gemini 2.0 Flash模型训练数据量为1470亿tokens,由google公司开发,数据量占比11% [3] - DeepSeek V3 0324模型训练数据量为1100亿tokens,由deepseek公司开发,数据量占比44% [3] - Gemini 2.5 Flash Lite模型训练数据量为1070亿tokens,由google公司开发,数据量占比138% [3] - GPT-40-mini模型训练数据量为998亿tokens,由openai公司开发,数据量占比7-40% [3] 行业动态与市场表现 - 以Grok为代表的大模型受到关注 [1] - ChatGPT因浏览器发布导致数据量暴增 [1] 产业链与资本开支 - 预计算力需求持续,台积电等芯片制造商将继续受益 [5] - 投资机构持续追踪大型科技公司财报 [5]
刚刚,Anthropic新CTO上任,与Meta、OpenAI的AI基础设施之争一触即发
机器之心· 2025-10-03 08:24
公司高层人事变动 - Anthropic任命前Stripe首席技术官Rahul Patil为新任首席技术官,接替转任首席架构师的联合创始人Sam McCandlish [1] - 公司更新核心技术团队结构,旨在将产品工程团队与基础设施、推理团队更紧密地结合 [1] - 新任首席技术官将负责计算、基础设施、推理及其他工程任务,而首席架构师将继续专注于预训练和大规模模型训练工作,二人均向总裁Daniela Amodei汇报 [2] 新任首席技术官背景 - Rahul Patil拥有超过20年的工程经验,曾在Stripe担任技术职位(包括首席技术官)五年,主要负责基础设施、工程和全球运营 [6] - 其职业经历包括在Oracle担任云基础设施高级副总裁,负责30多个核心产品的工程、产品管理和业务运营 [7] - 更早之前还在Amazon和Microsoft担任过工程职务,教育背景包括印度PESIT的本科学位、美国亚利桑那州立大学的硕士学位以及华盛顿大学的MBA [9][11] 行业竞争与公司基础设施压力 - 公司面临来自OpenAI和Meta的激烈基础设施竞争,这两家实验室已在计算基础设施上投入数十亿美元 [2] - Meta计划到2028年底前在美国基础设施上投资600亿美元,OpenAI也通过与Oracle和Stargate项目的合作强化基础设施投资 [2] - 公司旗下Claude产品的全球流行给基础设施带来相当大压力,今年7月针对高频用户推出了新的使用限制,例如Claude Sonnet每周使用时间限制在240到480小时,Claude Opus 4限制在24到40小时 [3] 公司战略与预期 - 公司总裁Daniela Amodei强调新任首席技术官在构建和扩展企业级可靠基础设施方面拥有经得起验证的成功经验,这对增强Claude作为企业领先智能平台的地位具有重要意义 [2] - 新任首席技术官表示加入是响应新的使命和召唤,认为AI的可能性无穷无尽,需要付出努力将可能性变为现实,并每天做出深思熟虑的决策以确保负责任的AI最终获胜 [1]
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞
机器之心· 2025-09-23 07:29
Claude Code安全漏洞分析 - 文章核心观点:Anthropic推出的Claude Code命令行工具存在Tool Invocation Prompt(TIP)劫持风险,可能导致远程代码执行(RCE),攻击成功率高达90% [2][5][11] - Claude Code通过MCP协议支持外部工具动态注册,但恶意MCP服务器可注入工具描述污染系统提示,引导主模型执行高风险操作 [6][12] - 该工具运行在终端环境具有较高权限,RCE可能导致代码库泄露、恶意软件安装或网络扩散等严重后果 [17] 攻击机制与技术细节 - 研究团队提出TEW攻击框架,通过"三步劫持"实现RCE:提示结构获取、漏洞识别和TIP利用 [7][9][10] - 具体攻击流程包括注册恶意工具泄露TIP结构,分析初始化逻辑漏洞,最终利用工具描述注入实现命令执行 [10][12] - 在Claude-sonnet-4模型测试中,攻击成功率(ASR)达到90%,资源消耗仅需数百Token,隐蔽性较高 [11] 行业安全现状对比 - 研究评估了7款AI代理系统(Cursor、Claude Code、Cline等),所有代理均暴露出严重安全问题 [17][18] - Claude Code在RCE-2变体攻击中成功率较高,表明单层防御机制存在局限性 [17][18] - 与IDE工具相比,CLI特性在远程开发环境中更易暴露安全风险 [17] 防御建议与改进方向 - 建议采用守卫LLM过滤MCP输入,引入自省机制让主模型检查初始化步骤可疑性 [22] - 可通过多模型共识投票验证命令执行,实施信任信号仅允许签名MCP服务器连接 [22] - MCP协议的动态注册机制虽然统一了工具生态,但放大提示注入风险,需要加强外围上下文修改的防御 [20]