Claude Sonnet
搜索文档
ChatGPT Lost 63% Trying To Trade Crypto — But One China AI Made A Healthy Profit
Benzinga· 2025-11-05 21:58
OpenAI's ChatGPT lost 63% of its funds in a two-week crypto trading competition organized by Nof1, finishing last among six large language models (LLMs), according to Protos.AI Bots Test Crypto Trading SkillsThe "Alpha Arena" contest, which ended Monday, tasked six leading AI systems with trading digital assets using identical prompts and limited datasets. ChatGPT, Google's Gemini from Alphabet (NASDAQ:GOOGL), X's Grok, and Anthropic's Claude Sonnet all ended in the red.By contrast, Alibaba's (NYSE:BABA) Qw ...
数据 有悲有喜
小熊跑的快· 2025-10-27 07:23
第三方 tokens 调用量 十月有多走缓。 估计 算力继续 台积电 中积电继续 Grok 为代表。 chatgpt 因为 有浏览器发布原因 数据暴增。 | | Grok Code Fast 1 | 1.25T tokens | 6. | Grok 4 Fast | 154B tokens | | --- | --- | --- | --- | --- | --- | | | by x-ai | 16% | | by x-ai | 19% | | 2 | Claude Sonnet 4.5 | 527B tokens | 7. | Gemini 2.0 Flash | 147B tokens | | | by anthropic | 15% | | by google | 11% | | 3. | Gemini 2.5 Flash | 298B tokens | 8. | DeepSeek V3 0324 | 110B tokens | | | by google | 43% | | by deepseek | 44% | | | Gemini 2.5 Pro | 168B tokens | g | Gemi ...
刚刚,Anthropic新CTO上任,与Meta、OpenAI的AI基础设施之争一触即发
机器之心· 2025-10-03 08:24
公司高层人事变动 - Anthropic任命前Stripe首席技术官Rahul Patil为新任首席技术官,接替转任首席架构师的联合创始人Sam McCandlish [1] - 公司更新核心技术团队结构,旨在将产品工程团队与基础设施、推理团队更紧密地结合 [1] - 新任首席技术官将负责计算、基础设施、推理及其他工程任务,而首席架构师将继续专注于预训练和大规模模型训练工作,二人均向总裁Daniela Amodei汇报 [2] 新任首席技术官背景 - Rahul Patil拥有超过20年的工程经验,曾在Stripe担任技术职位(包括首席技术官)五年,主要负责基础设施、工程和全球运营 [6] - 其职业经历包括在Oracle担任云基础设施高级副总裁,负责30多个核心产品的工程、产品管理和业务运营 [7] - 更早之前还在Amazon和Microsoft担任过工程职务,教育背景包括印度PESIT的本科学位、美国亚利桑那州立大学的硕士学位以及华盛顿大学的MBA [9][11] 行业竞争与公司基础设施压力 - 公司面临来自OpenAI和Meta的激烈基础设施竞争,这两家实验室已在计算基础设施上投入数十亿美元 [2] - Meta计划到2028年底前在美国基础设施上投资600亿美元,OpenAI也通过与Oracle和Stargate项目的合作强化基础设施投资 [2] - 公司旗下Claude产品的全球流行给基础设施带来相当大压力,今年7月针对高频用户推出了新的使用限制,例如Claude Sonnet每周使用时间限制在240到480小时,Claude Opus 4限制在24到40小时 [3] 公司战略与预期 - 公司总裁Daniela Amodei强调新任首席技术官在构建和扩展企业级可靠基础设施方面拥有经得起验证的成功经验,这对增强Claude作为企业领先智能平台的地位具有重要意义 [2] - 新任首席技术官表示加入是响应新的使命和召唤,认为AI的可能性无穷无尽,需要付出努力将可能性变为现实,并每天做出深思熟虑的决策以确保负责任的AI最终获胜 [1]
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞
机器之心· 2025-09-23 07:29
Claude Code安全漏洞分析 - 文章核心观点:Anthropic推出的Claude Code命令行工具存在Tool Invocation Prompt(TIP)劫持风险,可能导致远程代码执行(RCE),攻击成功率高达90% [2][5][11] - Claude Code通过MCP协议支持外部工具动态注册,但恶意MCP服务器可注入工具描述污染系统提示,引导主模型执行高风险操作 [6][12] - 该工具运行在终端环境具有较高权限,RCE可能导致代码库泄露、恶意软件安装或网络扩散等严重后果 [17] 攻击机制与技术细节 - 研究团队提出TEW攻击框架,通过"三步劫持"实现RCE:提示结构获取、漏洞识别和TIP利用 [7][9][10] - 具体攻击流程包括注册恶意工具泄露TIP结构,分析初始化逻辑漏洞,最终利用工具描述注入实现命令执行 [10][12] - 在Claude-sonnet-4模型测试中,攻击成功率(ASR)达到90%,资源消耗仅需数百Token,隐蔽性较高 [11] 行业安全现状对比 - 研究评估了7款AI代理系统(Cursor、Claude Code、Cline等),所有代理均暴露出严重安全问题 [17][18] - Claude Code在RCE-2变体攻击中成功率较高,表明单层防御机制存在局限性 [17][18] - 与IDE工具相比,CLI特性在远程开发环境中更易暴露安全风险 [17] 防御建议与改进方向 - 建议采用守卫LLM过滤MCP输入,引入自省机制让主模型检查初始化步骤可疑性 [22] - 可通过多模型共识投票验证命令执行,实施信任信号仅允许签名MCP服务器连接 [22] - MCP协议的动态注册机制虽然统一了工具生态,但放大提示注入风险,需要加强外围上下文修改的防御 [20]
教育部发布留学预警;中央汇金大举增持ETF!持仓1.28万亿元;余承东谈华为上汽合作细节丨每经早参
每日经济新闻· 2025-08-31 08:42
中美经贸关系 - 商务部国际贸易谈判代表兼副部长李成钢访问美国 与美国财政部 商务部和贸易代表办公室相关官员举行会谈 双方围绕落实中美两国元首通话共识 就中美经贸关系 落实中美经贸会谈共识等问题进行交流沟通[2] - 李成钢强调中美双方应秉持相互尊重 和平共处 合作共赢原则 继续发挥好中美经贸磋商机制作用 通过平等对话协商管控分歧 拓展合作 共同推动中美经贸关系健康 稳定 可持续发展[2] 半导体产业 - 商务部就美国撤销三星等三家在华半导体企业经验证最终用户授权答记者问 表示中方注意到有关情况 半导体是高度全球化的产业 经过数十年发展已形成你中有我 我中有你的产业格局[3] - 美方此举系出于一己之私 将出口管制工具化 将对全球半导体产业链供应链稳定产生重要不利影响 中方对此表示反对 中方敦促美方立即纠正错误做法 维护全球产业链供应链的安全稳定 中方将采取必要措施 坚决维护企业正当权益[3] 城市规划 - 住房城乡建设部副部长秦海翔表示要紧紧围绕城市高质量发展和现代化人民城市建设目标 从规划建设运营治理全生命周期统筹考虑 创新城市规划的工作方法[4] - 现行城市规划政策 法规和标准已不适应存量提质增效的发展需要 要围绕城市发展两个转向的重大阶段性变化 进一步深化城市规划设计改革 积极研究构建一套与城市高质量发展新阶段相适应的城市规划制度体系[4] 具身智能数据集 - 具身智能灵巧手多样抓取仿真数据集DexonomySim开源发布 该数据集在国家数据局数字科技和基础设施建设司指导下由银河通用介绍发布[5] - DexonomySim专为具身智能机器人灵巧抓取任务设计 包含超过950万条高质量抓取姿态 覆盖超1万个物体与31种常用抓握类型 涵盖人类抓握分类法中约94%的类型 是当前具身智能领域开源的最大规模灵巧手操作高质量合成数据集[5] 上海房贷政策 - 上海多家银行房贷利率细则落地 中国银行 农业银行 建设银行 招商银行等多家银行上海市分行发布公告 利率定价机制安排均不再区分首套住房和二套住房[6] - 每位客户商业性个人住房贷款的具体利率水平将根据上海市市场利率定价自律机制要求 并结合银行经营状况 客户风险状况等因素合理确定[6] 中央汇金投资 - 中央汇金资产管理有限责任公司上半年共增持12只ETF产品 涉及上证50 沪深300 中证500 中证1000 科创板50 创业板指等ETF品种[7] - 按照上半年成交均价估算增持累计耗资超2100亿元 截至二季度末中央汇金投资有限责任公司 中央汇金资产管理有限责任公司合计持有ETF总市值达1.28万亿元 创历史新高 占ETF总规模三成左右[7] 银行业绩与分红 - 42家A股上市银行上半年实现营业收入超2.9万亿元 同比增长逾1% 实现归母净利润1.1万亿元 同比增长0.8%[8] - 六大国有银行披露2025年中期分红方案 合计现金分红总额达2046.57亿元 其中工行拟以每10股派发1.414元 总额约503.96亿元 分红总额位居上市银行之首[8] 华为合作与生态 - 华为常务董事余承东透露最初多次拒绝上汽合作 后双方基于信任和执着达成合作 华为投入核心智能技术 设计团队并分享此前四界的成功与失败经验[9] - 华为轮值董事长徐直军表示鸿蒙仍处于生态导入阶段 发出五点倡议包括已鸿蒙化的应用加快完善功能 政企单位加快内部应用适配鸿蒙 消费者踊跃使用鸿蒙等[11] 险资举牌银行 - 平安人寿于8月26日增持829万股农业银行H股股份后达到该行H股股本的15% 触发举牌 这是平安人寿半年内第三次举牌农行H股[12] - 2025年已有7家上市银行被险资举牌 其中农行H股 招商银行H股 邮储银行H股均被三度举牌 郑州银行H股获四度举牌[12] 基金人事变动 - 兴银基金任命黄德良为公司董事长 黄德良曾在兴业银行股份有限公司 兴业国际信托有限公司工作 现任华福证券有限责任公司董事长 总裁[13] 人工智能技术 - 马斯克称Grok Code Fast 1击败了Claude Sonnet 在OpenRouter排行榜上排名第一[14]
马斯克:Grok Code Fast 1击败了Claude Sonnet
每日经济新闻· 2025-08-30 15:23
公司动态 - 马斯克在X社交媒体平台宣布Grok Code Fast1在OpenRouter排行榜上击败Claude Sonnet并排名第一 [1]
AI正在一本正经地“说谎”,我们拆解了它必然犯错的三大场景
36氪· 2025-08-25 07:13
AI决策局限性 - AI并非万能决策工具,企业主无需总是听从AI建议,在某些情况下应相信自身直觉 [3] - 在分析数千个AI虚拟人物回答与真实结果对比后,发现三种AI系统性犯错场景 [3] 信息时效性问题 - AI模型认知受限于训练数据截止日期(如ChatGPT截止2023年10月),其建议基于过时现实版本 [5] - 模型会否认或困惑于数据截止后发生的事件,例如Claude曾将"美国轰炸伊朗核设施"标记为虚假信息 [7] - 通过精心设计的提示词提供当代新闻可更新模型对时事的理解,研究显示该方法能提升AI伪装人类的能力 [8] - Ask Rally的"记忆"功能允许添加上下文信息,使AI虚拟人物能适应近期事件 [9] 社会认同偏差 - AI模型学习网络言论而非真实行为,倾向于符合社会期望的回答,造成"意图-行动鸿沟" [12] - 在环保汽车选择测试中,78%的AI虚拟人物选择昂贵环保选项,而实际人类行为仅26%会购买可持续产品 [14] - 切换到更高级模型(如Claude Sonnet)可使选择环保选项比例降至37%,更接近真实世界行为 [15] 经验缺失问题 - AI擅长模式匹配但难以处理微妙权衡,缺乏实施过程中的现实经验 [18] - 在定价策略案例中,71%的律师事务所采用小时计费,但AI仍错误推荐固定费率定价 [18][19] - AI存在"基础比率谬误",需要使用者先用自身经验或研究作为背景信息引导模型 [22] - 通过提供具体背景(如"71%律师按小时收费")可使AI进行批判性思考 [22][23] 人类认知参照 - AI的失效模式与人类高度相似:人类在信息过时、行为报告和经验缺失时会出现同类错误 [24] - AI错误的可预测性和系统性允许通过方案设计进行校正,包括挑战显见答案、行为数据校准和现实约束应用 [24]
腾讯研究院AI速递 20250516
腾讯研究院· 2025-05-15 22:38
高端GPU管制 - 美参议员提出法案要求英伟达、AMD等厂商在高端GPU和AI芯片中植入地理追踪功能 6个月后生效 [1] - 管制范围包括AI处理器、高性能服务器及RTX 5090等高端显卡 目的是防止战略硬件流入未授权国家 [1] - 芯片厂商需承担产品追踪责任 法案要求进行为期三年的年度评估 或将实施更多限制措施 [1] GPT-4.1上线 - OpenAI在ChatGPT中正式上线GPT-4.1模型 Plus、Pro和Team用户可直接使用 企业版和教育版用户将在未来几周获得访问权限 [2] - GPT-4.1在编码任务和指令遵循方面表现优异 生成速度显著提升 是o3和o4-mini的理想替代品 [2] - ChatGPT版本的GPT-4.1上下文窗口仅为128k token 未能实现API版本中承诺的100万token长度 [2] Claude模型升级 - Anthropic将在未来几周推出新版Claude Sonnet和Opus 最大亮点是"极限推理"功能 能在推理和工具使用间建立动态循环 [3] - 新模型能够自主暂停、重新评估问题并调整策略 在代码生成任务中可自动测试和修正错误 [3] - 正在测试代号为Neptune的新模型 最大支持128k tokens上下文长度 [3] 语音模型突破 - MiniMax新一代语音模型Speech-02在Artificial Analysis榜单上超越OpenAI和ElevenLabs 在字错率和说话人相似度等指标上达到SOTA水平 [4] - Speech-02实现真正的零样本语音克隆 采用创新的Flow-VAE架构 只需几秒音频即可高度还原说话人音色、语调和节奏 [5] - 该模型支持32种语言 可实现任意音色灵活控制和情感调节 成本仅为ElevenLabs竞品的1/4 [5] 腾讯元宝插件 - 腾讯元宝浏览器插件在Chrome应用商店上线 支持网页划词提问、内容总结、外文网页翻译和一键收藏等功能 [6] - 插件在页面右侧设有悬浮球和侧边栏 方便用户进行截图提问、上传文件和搜索内容 [6] - 该插件基于腾讯混元与DeepSeek大模型 目前仅在Chrome可用 更多版本将推出 [6] 音频生成模型 - Stability AI与Arm合作推出Stable Audio Open Small音频生成模型 可在手机端离线运行 8秒内生成11秒音频 [7] - 该模型拥有3.41亿参数 专为生成短音频和音效设计 训练数据来自免版权的Free Music Archive和Freesound [7] - 模型对年收入低于100万美元的用户免费开放 但无法生成逼真人声和高质量歌曲 [7] 视频生成模型 - 阿里开源Wan2.1-VACE视频生成与编辑统一模型 支持文生视频、图像参考生成、重绘、局部编辑等6大任务 [8] - 模型分为1.3B(支持480P、可用消费级显卡)和14B版本(支持720P) 采用创新的视频条件单元VCU统一四大输入形态 [8] - 该模型可一次性完成画幅扩展、时长延展和图像参考等多项任务 GitHub获得1.1万star [8] 腾讯混元应用 - 腾讯混元大模型为《碧优蒂的世界》打造智能NPC系统 支持自主行动、个性化交互、情感表达和记忆推理等功能 [10] - BUD利用腾讯混元角色扮演专属模型和Turbo S快思考模型 实现NPC与玩家的立体互动 3个月内AI对话数超两千万次 [10] - 游戏通过Dify无代码开发和腾讯云向量数据库支持 大幅缩短开发周期 混元图像2.0将于5月16日发布 [10] AlphaEvolve突破 - DeepMind发布基于Gemini驱动的AlphaEvolve智能体 能够演化整个代码库 实现算法发现和优化 陶哲轩参与合作 [11] - AlphaEvolve通过"生成-评估-进化"循环机制工作 结合LLM创造力与自动评估系统 显著减少了AI幻觉问题 [11] - 该系统已应用于优化谷歌数据中心效率(提升0.7%) 改进TPU芯片设计 在75%的开放性数学问题上重现最优解 [11] AI应用层机遇 - 红杉资本认为AI正同时颠覆软件和服务两大盈利池 应用层是最大价值所在 95%的AI创业与传统创业无异 [12] - 智能体经济正在形成 AI系统能进行交易、追踪关系、建立信任 最终将形成人机深度协同的嵌套经济网络 [12] - 行业面临三大技术挑战:智能体的持久身份认证、无缝通信协议构建和安全性保障 [12]
新版Claude曝光:“极限推理”成最大亮点
量子位· 2025-05-15 12:26
新版Claude模型发布在即 - Anthropic即将在未来几周内发布新版Claude Sonnet和Claude Opus模型,主打"极限推理"功能 [1][3] - 新功能通过动态循环整合推理与工具使用,提升问题处理的智能化水平 [2][6] "极限推理"功能详解 - 模型具备动态调整能力:遇到困难时会暂停、重新评估问题并调整策略,类似人类思考模式 [7][8] - 代码生成场景中可自动测试并修正错误,而非直接输出结果 [9] - 架构优化减少对人类监督的依赖,能结合上下文进行深度反思 [10][11] 模型性能与实测进展 - 网友发现疑似Claude 3 8版本(代号Claude Neptune)正在实测,支持128k tokens上下文 [17] - Anthropic官方确认正在进行新版本压力测试 [17] - 信源可靠性存争议:部分质疑炒作,但The Information报道被认为可信 [13][14]