Workflow
Claude Sonnet4.5
icon
搜索文档
AI智能体失控,它把Meta安全总监的200多封邮件删了
第一财经· 2026-02-24 19:23
事件概述 - Meta公司AI对齐与安全总监Summer Yue在个人邮箱部署OpenClaw AI智能体处理邮件时 因真实邮箱数据量过大触发压缩机制 导致智能体丢失“确认后再操作”的初始指令 并开始自动删除邮件[3] - 尽管用户多次发出“停止”等指令 但未能阻止删除进程 最终强制终止后 OpenClaw已删除超过200封邮件[4] - 该事件在网络上引发争议 部分观点质疑用户操作方式 也有用户反映在其他AI模型(如Claude Sonnet4.5)上遇到过类似Agent造成数据损坏的问题[4] - OpenClaw创始人Peter Steinberger视此事件为重要的学习机会 并承认任何人都可能遇到类似情况[5] 公司(OpenClaw)动态与回应 - 事件发生后 创始人Peter Steinberger在2月24日发布了测试版本更新 重点聚焦于安全性提升与漏洞修复[7] - 新版本同时增加了Kilo提供商(OpenAI兼容的API网关)与Kimi视觉与视频支持等功能[7] - 公司团队承认AI Agent的巨大实用性伴随着巨大责任 若操作不当会成为负担[7] - 公司计划后续发布生态系统全面威胁模型、公共安全路线图、安全审计详细信息以及正式的安全报告流程等[7] - 创始人Peter Steinberger强调 在打造易用AI智能体的过程中 安全问题被置于模型易用性之前[8] 行业与产品背景 - OpenClaw是近几个月内大热的AI Agent产品 吸引了大量从业者与开发者上手尝试[3] - 安全问题一直是OpenClaw爆火以来最受质疑的痛点[7] - 有行业分析(如360漏洞研究院)指出 在OpenClaw的典型个人部署场景下 用户可能因缺乏安全运维经验而面临网络攻击威胁[7] - 今年2月7日 OpenClaw宣布与Google旗下的威胁情报平台VirusTotal合作 将安全扫描功能集成至其技能市场ClawHub 为社区提供额外安全层[7]
全球首个AI投资大赛落幕:中国模型全部盈利,美国模型全部亏损
新京报· 2025-11-04 13:47
比赛概况 - 首个AI大模型实时投资比赛“Alpha Arena”于11月4日结束,历时17天,初始资金为一万美元 [1] - 参赛模型包括来自中国的DeepSeek v3.1、Qwen3-Max以及来自美国的GPT-5、Gemini2.5Pro、Claude Sonnet4.5、Grok4,共六个顶尖大模型 [1] - 比赛在真实市场进行,模型无人工干预自主决策交易,根据盈亏决出冠军 [1] 比赛进程与策略 - 比赛前半段DeepSeek v3.1处于领先位置,Grok4通过激进策略一度将差距缩短至1美元 [1] - 10月21日至22日成为转折点,Grok4和Claude Sonnet4.5收益大幅下滑由盈转亏,当日所有六个模型收益率一度全部告负 [1] - DeepSeek v3.1和Qwen3-Max在关键时刻自动改写投资策略,在其他模型持续亏损时脱颖而出 [2] 最终排名与业绩 - Qwen3-Max以12200美元资产和超过20%的收益率夺得冠军,DeepSeek v3.1以10490美元资产获得第二名 [2] - 两家中国模型成为唯二盈利的模型,四大美国顶尖模型全部亏损 [2] - 参赛模型形成三大阵营:两家中国模型位列第一梯队多次互换第一;Claude Sonnet4.5和Grok4维持第二阵营略有盈利但整体亏损;GPT-5和Gemini2.5Pro长期亏损垫底,其中GPT-5亏损超60% [2]
Qwen 3 Max领跑“AI投资实战赛”:阿里通义千问在Alpha Arena跑赢GPT-5与Gemini
经济观察网· 2025-10-23 15:27
竞赛概况 - 由美国研究实验室nof1ai发起名为Alpha Arena的AI投资实战竞赛旨在观察AI自主交易能力[1] - 竞赛吸引六大主流AI模型参赛包括DeepSeek GPT5 Gemini25Pro Claude Sonnet45 Grok4与阿里的Qwen3Max[1] - 每个模型以1万美元初始资金在去中心化交易所Hyperliquid上进行永续合约交易收益率是唯一评判标准且所有交易全程公开[1] 参赛模型表现 - 阿里旗下Qwen3Max暂列收益榜首账户价值为11957美元总收益为1957美元收益率为1957%[3] - DeepSeek Chat V31排名第二账户价值为11392美元收益率为1392%[3] - Grok 4与Claude Sonnet 45分别排名第三和第四收益率分别为08%和-1529%[3] - Gemini 25 Pro与GPT 5表现不佳收益率分别为-5755%和-6538%亏损均超过50%[2][3] Qwen3Max领先策略分析 - Qwen3Max注重机会捕捉与风险平衡在市场波动期快速介入并严格止损保持较低风险敞口[2] - 该模型共完成8次交易频率高于平均水平平均持仓时间约7小时显示出较强的短期响应能力[2] - 其收益率从早期的843%提升至1341%实现稳定增长并显著跑赢同期仅录得145%收益的比特币持有策略[2] 不同模型策略分化 - Qwen3Max通过实时强化学习调整策略使收益曲线呈现稳定上行趋势基于反馈信号的自适应机制是其优势[1][4] - Gemini25Pro与GPT5策略相对激进杠杆倍数较高因入场时机偏差导致大幅亏损[2] - DeepSeek V31Chat与Grok4走势接近初期亏损后迅速回升而GPT5与Gemini25Pro则先涨后跌最终在盈亏平衡区间震荡[2] 技术路径与行业影响 - 与传统依赖历史数据的量化策略不同本次竞赛展现出强化学习与实时决策能力的优势模型通过市场反馈持续优化参数[4] - Qwen系列模型加快多模态能力建设涵盖语言视觉语音编程安全等技术体系从单一任务模型向协同学习架构演进[4] - 分析认为强化学习与实时数据处理能力的提升正持续拓宽AI在投研交易决策及风险管理等环节的应用边界[7]