Claude 3.5

搜索文档
18岁天才少年,登上Nature封面!
猿大侠· 2025-09-20 12:11
行业技术突破 - DeepSeek-R1成为史上首个经严格同行评议的大模型 荣登Nature封面 [1][2] - 模型通过强化学习激励推理能力 相关论文引用量达3,691次 [53] 人才与团队成就 - 18岁实习生涂津豪以高中生身份参与DeepSeek-R1项目 成为Nature作者之一 [1][6][10] - 研究员罗福莉作为独立研究者参与项目 学术引用量达10,140次 h指数27 [45][52][53] - 团队核心成员主导多语言预训练模型VECO 并参与DeepSeek-Coder/DeepSeek-V2/DeepSeek-V3等全线产品研发 [54] 技术创新细节 - 涂津豪开发"Thinking Claude"提示词工程 通过80次迭代优化使Claude 3.5实现类o1推理模式 [14][27][35] - 该项目在GitHub获超15,000星 实现思维过程可视化与展开/折叠功能 [35][33] - 研究强调AI需理解谜语/笑话/文化背景等非结构化内容 反映基础语言理解能力 [41][44] 学术影响力 - DeepSeek系列论文广泛发表于arXiv 其中DeepSeek-V3技术报告引用量1,819次 [53] - DeepSeek-Coder论文引用量1,130次 突破代码智能领域闭源模型壁垒 [53] - 混合专家模型DeepSeekMoE论文引用量494次 推动专家专业化研究 [53]
市场低估了亚马逊AWS“AI潜力”:“深度绑定”的Claude,API业务已超越OpenAI
硬AI· 2025-09-06 09:32
Anthropic API业务规模与增长 - Anthropic的API业务2025年预计收入激增至39.07亿美元 同比增长662% 而OpenAI的API业务2025年仅增长80%至18亿美元 [2][8][9] - Anthropic 90%的收入来自API业务 而OpenAI仅有26%的收入来自API 主要依赖ChatGPT消费者产品 [7][8] - AI集成开发环境(IDE)应用爆发式增长推动API需求 例如Cursor Pro用户每月平均为AWS贡献约5美元收入 [11][13] AWS营收贡献与增长潜力 - Anthropic目前为AWS贡献约1%的增长 预计第四季度在Claude 5训练和推理收入推动下可能升至4% [3][16] - Anthropic 2025年将为AWS带来约16亿美元推理收入 其年度经常性收入(ARR)预计从年初10亿美元跃升至年底90亿美元 [4] - AWS第四季度收入增长可能超出市场预期2% 当前市场一致预期为18% [15][16] AI产能扩张与基础设施 - AWS在2025年底可能拥有超过100万个H100等效的AI产能 得益于Blackwell GPU和40万个Trainium芯片上线 [18] - 自ChatGPT推出以来新增的AI产能预计到2025年底将超过100万H100等效算力 以支持Anthropic等合作伙伴的快速增长 [22] 合作关系与潜在挑战 - 行业内对通过AWS Bedrock访问Anthropic模型存在抱怨 显示合作关系可能面临挑战 [4][24] - Cursor等重要客户开始转向OpenAI的GPT-5 API作为默认选择 虽然用户可手动切换回Anthropic 但粘性较弱 [24] - Anthropic是唯一拥有三个不同基础设施团队的AI实验室 分别管理GPU、TPU和Trainium架构 提供成本和可用性灵活性 [25]
巴克莱:市场低估了亚马逊AWS“AI潜力”:“深度绑定”的Claude,API业务已超越OpenAI
美股IPO· 2025-09-05 20:11
Anthropic API业务规模与增长 - Anthropic的API业务2025年预计激增至39.07亿美元 同比增长662% 而OpenAI的API业务2025年仅增长80%至18亿美元 [1][10][11] - Anthropic的API业务规模已超越OpenAI 2024年Anthropic API收入5.12亿美元 OpenAI API收入10亿美元 [9][10][11] - AI集成开发环境(IDE)应用爆发式增长推动Anthropic增长 该品类2025年年度经常性收入(ARR)预计超过10亿美元 2024年几乎为零 [13][15] AWS与Anthropic合作带来的营收贡献 - Anthropic目前为AWS贡献约1%的增长 预计第四季度在Claude 5训练和推理收入推动下可能升至4% [1][3][19] - Anthropic 2025年将为AWS带来约16亿美元的推理收入 其年度经常性收入(ARR)预计从年初10亿美元跃升至年底90亿美元 [3] - 平均每个Cursor Pro用户每月为AWS贡献约5美元收入 Cursor Pro用户年化收入(ARR)达500亿美元 其中Anthropic收入占比70% AWS收入占比25% [13][14] AWS增长潜力与产能扩张 - AWS第四季度收入增长市场预期为18% 但Anthropic贡献可能推动实际增长率显著超越预期 预计超预期2% [16][17] - AWS在2025年底可能拥有超过100万个H100等效的AI产能 得益于Blackwell GPU和40万个Trainium芯片上线 [20][21] - 少数大型AI实验室为超大规模云服务商创造大部分AI收入 AWS与Anthropic合作处于这一趋势核心位置 [25] 合作模式与业务结构 - Anthropic 70%收入托管在AWS上 其余30%在谷歌云平台(GCP)上 [26] - Anthropic是唯一拥有三个不同基础设施团队的AI实验室 分别管理GPU、TPU和Trainium三种架构 提供成本和可用性灵活性 [26] - 2025年Anthropic API总收入中直接API占比78%达30.39亿美元 合作伙伴API占比22%达8.68亿美元 [4][10] 面临的挑战 - 行业对通过AWS Bedrock访问Anthropic模型存在抱怨 显示合作关系可能面临考验 [3][22] - Cursor等重要客户开始转向OpenAI的GPT-5 API作为默认选择 虽然可手动切换但粘性不足 [22] - AWS是否有足够AI产能支持Anthropic所有增长活动仍存在争议 需求超过供应的状况持续 [21]
市场低估了亚马逊AWS“AI潜力”:“深度绑定”的Claude,API业务已超越OpenAI
华尔街见闻· 2025-09-05 12:34
AWS与Anthropic合作带来的增长潜力 - AWS与Anthropic的深度合作为其带来显著增长动力,但市场尚未充分认识到这一AI驱动增长的潜力 [1] - Anthropic目前为AWS贡献约1%的增长,但随着Claude 5训练和推理收入推动,贡献可能升至每季度4% [1] - Anthropic在2025年将为AWS带来约16亿美元的推理收入 [1] Anthropic API业务规模与增长 - Anthropic的API业务规模已经超越OpenAI,并且增长速度更为迅猛 [1] - Anthropic 90%的收入来自API业务,而OpenAI仅有26%的收入来自API [6] - Anthropic的API业务在2024年实现5.12亿美元收入,预计2025年将激增至39.07亿美元,同比增长662% [7][9] - OpenAI的API业务2024年收入为10亿美元,2025年预计增长至18亿美元,增速为80% [8][9] AWS收入贡献细节 - Anthropic API总收入中78%为直接收入,22%为合作伙伴收入 [2] - AWS在Anthropic API业务中占据70%份额,GCP占30%份额 [2] - AWS从Anthropic获得的API收入达16亿美元,其中直接贡献9亿美元,间接贡献8亿美元 [2] - AWS推理收入占比为40%,合作伙伴推理收入占比为130% [2] AI集成开发环境(IDE)的增长驱动 - AI集成开发环境应用的爆发式增长是Anthropic API业务增长的主要驱动力 [12] - Cursor、Lovable等AI编程工具通过Anthropic的Direct API获得模型授权,按每百万token成本付费 [12] - 平均每个Cursor Pro用户每月为AWS贡献约5美元收入 [12][13] - AI集成开发环境作为一个品类预计2025年ARR将超过10亿美元,而2024年这一数字几乎为零 [13] AWS季度增长预期 - 如果AWS保持与Anthropic的合作关系,第四季度收入增长有望比市场预期高出约2% [14] - 市场一致预期AWS第四季度收入增长18%,但Anthropic的贡献可能推动实际增长率显著超越预期 [14] - Anthropic可能在第四季度开始Claude 5的预训练,为AWS贡献约1.5%的增长,加上推理收入总计可能贡献4% [16] AI产能扩张与基础设施 - AWS在2025年底可能拥有超过100万个H100等效的AI产能,得益于Blackwell GPU和40万个Trainium芯片的上线 [17] - 自ChatGPT推出以来新增的AI产能预计到2025年底将超过100万H100等效算力 [20] - Anthropic是唯一一家拥有三个不同基础设施团队的AI实验室,分别管理GPU、TPU和Trainium三种架构 [22] 合作关系面临的挑战 - 行业内对通过AWS Bedrock访问Anthropic模型存在抱怨,表明合作关系可能面临挑战 [1][21] - Cursor等重要客户开始转向OpenAI的GPT-5 API作为默认选择,虽然用户可以手动切换回Anthropic,但粘性较弱 [21] - 巴克莱的分析基于Anthropic 70%的收入托管在AWS上的假设,其余30%在谷歌云平台上 [21]
人工智能行业专题:探究模型能力与应用的进展和边界
国信证券· 2025-08-25 21:15
行业投资评级 - 人工智能行业投资评级为优于大市(维持)[2] 核心观点 - 海外大模型呈现差异化发展,企业调用考虑性价比,OpenAI在技术路径上相对领先,谷歌在端到端原生多模态领先,Anthropic强调实用性和编程场景领先[4] - 兴趣推荐成为AI赋能最明显的场景,主要应用包括广告和游戏行业,通过多模态提升内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 模型能力不断增强,开始与应用在场景上竞争,通过五个典型案例探讨不同场景下模型与应用企业的竞合关系[4] - 投资建议推荐腾讯控股、快手、阿里巴巴和美图公司[4] 海外大模型差异化发展 - 根据OpenRouter数据,谷歌与Anthropic模型份额合计占据半壁以上江山,谷歌份额31.6%,Anthropic份额25.4%,OpenAI份额18.1%[8][9] - OpenAI技术路径领先,聚焦强化推理与专业领域能力,但端到端多模态生成能力较谷歌偏弱[13] - 谷歌端到端原生多模态领先,尤其在视频生成方向业内领先[13] - Anthropic强调实用性、编程场景领先,高准确度带来高市场占有率[13] - 模型调用价格方面,谷歌与Anthropic相比OpenAI有明显优势,例如Gemini 2.0 Flash输入价格0.10美元/百万tokens,输出价格0.40美元/百万tokens,而GPT-4.1输入价格2.00美元/百万tokens,输出价格8.00美元/百万tokens[10] 国内大模型近期进展 - 国内模型方向各家尚未拉开明显技术差距,需要观察在特定场景的差异化能力[4] - DeepSeek技术研究领先,采用混合注意力机制、动态路由MoE等架构创新,在代码生成、数学计算等专业领域表现出色,主打开源[16] - 阿里自研能力与综合能力强,模型参数与种类丰富,Qwen3.0在多模态和对话交互方面表现突出[16] - 其他厂商如字节豆包大模型各模态表现较均衡,百度文心大模型在中文场景深度优化,腾讯混元大语言模型基于DeepSeek改造[16] 兴趣推荐场景之广告 - AI对广告推荐作用主要体现在通过多模态提升对内容理解,进而提升用户点击率、观看广告时长,拉动广告价格和广告位增长[4] - 搜索和社交媒体推荐存在生产力代差,AI对后者赋能显著,抖音、快手、拼多多、小红书、腾讯视频号等偏推荐场景相比偏搜索场景赋能潜力更大[23] - META通过AI技术赋能广告量价齐升连续七个季度,AI带动广告曝光量增长,通过精准推荐、提升AI内容分发占比、数据标签体系完善提升Reels用户时长增长,AI带动广告单价增长,通过Advantage+工具带动广告主投放环节20% ROI提升[29] - 谷歌AI带动广告转化率改善,广告收入稳健增长,新功能推出后通常能带来20%左右效率改善,25Q2启用AI Max的广告客户通常能获得14%额外转化量,使用智能竞价探索的广告系列平均转化量增长19%[35][37] - Reddit广告收入大幅增加,25Q2推出AI广告工具Reddit Community Intelligence,包含Reddit Insights和Conversation Summary Add-ons,点击率比标准图片广告高出10%以上[40][42] - 腾讯广告25H1连续两个季度实现20%同比高增长,主要来自广告价格CPM提升,AI部署带来更高点击率,微信小店和小游戏带来更完善闭环交易活动[46] - 快手广告收入增长主要驱动是CPM提升,AI赋能广告在营销素材增强、营销投放Agent和营销推荐等环节,25Q1 AIGC营销素材带来日均消耗约3000万人民币,25Q2可灵收入2.5亿元[49] 兴趣推荐场景之游戏 - 游戏是兴趣推荐重要场景,海外AIGC游戏平台Roblox通过AI升级推荐算法,让更多新游戏获得曝光,25Q1平台Top100游戏中有24款是过去一年内推出的,与24Q1相比TOP15游戏推出更多内容更新[4][53] - 由于更多新游戏获得曝光和竞争推荐,平台11-50名的游戏流水同比增长超过1倍,占总流水增量的40%[4][53] - Roblox不断推出多款AI游戏创作工具以降低创作门槛,包括编程助手、各种游戏素材生成工具等,25Q1推出Roblox文本生成功能,开源3D模型Cube 3D,生成超过100万个3D模型[54][55] 模型能力增强与应用边界的争夺 - 情景一:大模型直击原有产品痛点,新增AI原生竞争对手,例如LivePerson面临AI引入新竞争者、客户流失严重,净收入留存率从2024年第二季度83%下降到2025年第二季度78%[64][65] - 情景二:大模型加速原有产品功能开发,同时创新AI原生产品,例如美图公司在原有主力产品中推出更多AI功能,驱动付费率提升,订阅渗透率从23Q1末2.9%提升至25Q2末5.5%[73] - 情景三:AI产品与传统业务收入存在此消彼长相互替代关系,例如C3.AI传统订阅收入增长承压,2025财年传统订阅收入3.276亿美元,同比+18%,但AgenticAI业务年化ARR约6000万美元、生成式AI收入同比增长超100%[78] - 情景四:AI或颠覆原有需求流量入口,市场担忧部分公司会被AI颠覆,包括搜索、广告、人力资源、旅游服务、IT软件等领域公司[79][81] - 情景五:AI在编程、客服等场景降本显著,企业人均产出持续提升,例如Shopify、Applovin、Twilio等公司在员工人数减少的同时,人均产出大幅增加[83]
深度 | 安永高轶峰:AI浪潮中,安全是新的护城河
硬AI· 2025-08-04 17:46
AI安全风险管理 - 安全风险管理从成本中心转变为构建品牌声誉和市场信任的价值引擎 [2][3] - 安全合规从被动约束条件升级为主动战略优势,是AI企业技术同质化后的关键胜负手 [3] - 安全直接决定企业信任与市场估值的核心资产 [4] AI风险特征与挑战 - AI风险已从实验室走向实际场景,如开源工具Ollama的默认开放端口漏洞 [6] - 算法黑箱与模型幻觉导致风险隐蔽性强、责任归属难度高 [6] - AI攻击具备模型幻觉和算法黑箱等新特性,传统防护方法难以应对 [6] - AI能通过碎片化数据精准重建个人画像,推断用户未意识到的敏感信息,导致歧视性定价、精准诈骗等风险 [6] AI安全防护策略 - 企业需建立适应AI特性的新型安全防护体系,包括输入输出沙箱隔离、指令优先级管理和上下文溯源等多维度机制 [7] - 采用"核心闭源、外围开源"组合策略,核心业务用闭源模型降低风险,外围创新用开源模型提升灵活性 [7] - AI备案应转化为风险管理能力提升契机,而非简单合规动作,需建立持续监控和企业级数据治理体系 [6][15] AI安全治理框架 - 构建AI安全治理模式需从组织职责、合规、安全机制到技术手段建立完整框架 [9] - 借助"安全智能体"团队实现主动威胁狩猎和精准异常行为分析,提升安全工作效率 [9] - 形成人机协同的最终防线,AI负责自动化攻防对抗,人类专家聚焦管理决策和战略规划 [9] 企业实践建议 - 企业家需保持对技术迭代的「好奇心」、解决真问题的「务实心」和对安全合规的「敬畏心」 [7][23] - 将AI安全合规视为战略投资,完善治理体系可获得品牌认可与信任溢价 [7] - 传统企业应用AI需补齐系统性短板,包括安全合规体系、责任意识和文化建设 [13] 开源与闭源模型选择 - 开源模型优势在于透明化,但需自建端到端安全防护能力并警惕供应链污染风险 [20] - 闭源模型提供一站式安全合规保障,但算法黑箱特性可能导致解释权缺失纠纷 [21] - 技术实力强且对自主可控要求高的企业适合开源模型,技术能力有限的企业更适合闭源模型 [22] 隐私保护重要性 - "以隐私换便利"在AI时代风险不可逆,如生物特征数据泄露无法重置 [10] - AI能汇总个人所有公开渠道信息,企业需从源头做好语料清洗和拒答策略 [11] - 行业普遍疏忽隐私保护将导致更严重后果,如大模型无意泄露个人训练数据 [11] 提示词注入防御 - 提示词注入类似"社交工程学",通过语言陷阱诱骗AI执行非法操作 [16] - 防御策略包括AI行为动态检测、指令优先级隔离、输入输出沙箱化和上下文溯源 [19] - 将安全规则固化为模型本能反应,而非可被用户输入覆盖的临时指令 [19]
看似加速,实则拖慢:AI 写代码让开发者效率倒退19%
36氪· 2025-07-14 17:48
美国METR研究所完成了一项针对AI编程工具影响的实验研究。他们发现,经验丰富的开源开发者在使用AI编程工具时,完成任务的时间平均增长了 19%。 这与开发者自己的感知完全相反。毕竟,参与研究的开发者普遍都相信,AI将提升他们的效率。 在任务开始前,他们预测AI能让自己提速24%。可现实数据冷冷地指出:AI让他们"看似飞快,实则拖慢"。 图注:当研究参与者可以使用像 Cursor Pro 这样的AI工具时,任务实际上耗时增加了19%。 图注:实验设计。在分配条件前定义任务,通过屏幕录制验证执行情况,并利用专家与开发者的预测衡量预期与实际结果的差距。 实验共追踪了16名高级开发者,这些开发者在各自的开源项目中完成了246个实际任务,任务涵盖复杂模块的开发与修复,工作负载真实而具体。 每个任务被随机分配到两个组:一组使用AI工具,另一组不使用。 AI组开发者主要使用的是Cursor Pro,集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。 开发者在整个过程中录屏,并记录完成每个任务所花费的时间。为了剔除任务难度差异的干扰,研究人员采用了统计方法,引入开发者对任务时间的预估 值作为参考。 ...
张鹏对谈李广密:Agent 的真问题与真机会,究竟藏在哪里?
Founder Park· 2025-06-14 10:32
Agent行业现状与趋势 - 2025年成为Agent技术加速发展关键年,DeepSeek、GPT-4o和Claude 3.5等推动大模型边界扩展,但行业焦点转向具备自我调度能力的智能体[1] - Agent成为继大模型后全球科技圈最快形成共识的风口,巨头战略重构与创业赛道跟进同步进行,但多数产品陷入"用老需求套新技术"的困境[2] - 行业面临核心挑战:底层设施缺位(可控运行环境/记忆系统/上下文感知/工具调用)制约Agent从演示走向实用[2] 技术路径与产品形态 - 通用Agent领域最佳实践是"模型即Agent"(Model as Agent),如GPT-4o整合LLM/上下文/工具使用/环境等组件端到端训练[14] - 垂直领域Agent分为ToB前台(如HappyRobot的物流电话Agent)和后台(AI for Science多智能体系统)两类[15][16] - Coding Agent发展路径:从Cursor的Copilot(Tab键补全90%准确率)逐步演进至后台异步运行的完整Agent形态[19][22] AGI发展关键领域 - 编程(Coding)被视为通往AGI的"价值高地":数据干净闭环可验证,可能占据大模型产业90%价值[24][47] - 数字世界优先实现AGI的逻辑:端到端软件开发能力是基础,未来两年Agent或能完成人类在数字设备上的所有操作[25] - 评估Agent核心指标:任务完成率+成功率(行业及格线50%)、成本效率(计算/时间成本)、用户粘性(DAU/MAU/留存)[30] 商业模式创新 - 收费模式演进:从基于成本定价→按动作收费(如物流电话单次几毛钱)→按工作流收费→按结果付费→未来可能按Agent本身付费[37][42] - 市场渗透策略变化:自下而上(如Cursor)替代传统SaaS销售模式,医疗领域OpenEvidence通过医生群体切入再植入商业广告[35] - 价值捕获方向:Coding可能服务全球3000万程序员后,通过"氛围编程"拓展至5亿平民开发者,激发应用软件大爆发[47][48] 基础设施需求 - 环境(Environment)构成最大挑战:需要虚拟机/沙盒(如E2B)保障安全执行,专用浏览器(如Browserbase)支持信息检索[56][59] - 上下文系统关键组件:信息检索(MemGPT)、工具发现平台、记忆管理系统[62] - 未来基础设施规模:万亿级Agent任务执行将重构云计算,机器搜索需求或达人类搜索量的50倍(日万亿次)[61] 未来技术演进 - 多模态大一统:理解与生成能力一体化将打开产品想象力,模型持续遵循Scaling Law和"思维链"双范式[63] - 自主学习突破:AI通过在线任务体验提升能力,进入"经验的时代",记忆系统完善将显著提升产品粘性[64] - 交互方式革新:从文字输入转向"永远在线"的异步交互,形成人机新型协作关系(Human on/in the loop)[44][45]
21 页 PDF 实锤 Grok 3“套壳”Claude?Grok 3 玩自曝,xAI工程师被喷无能!
AI前线· 2025-05-27 12:54
Grok 3模型异常行为事件 - 网友爆料xAI公司Grok 3模型在"思考模式"下自称是Anthropic公司的Claude 3.5模型 [1] - 对话记录显示Grok 3明确回复"我是Claude"并带有Grok品牌标识 [3] - 异常行为仅在"思考模式"下触发,常规模式下回答正常 [5][9] 测试过程与证据 - 网友提供21页PDF完整记录与Grok 3的对话过程 [7] - Grok 3将自身代入Claude Sonnet 3.7角色并为其错误承担责任 [11] - 即使展示x.com平台和Grok 3标识,模型仍坚称自己是Claude [13][15][16] 技术原因分析 - 可能原因包括平台集成多个模型导致路由错误或训练数据混入Claude特征 [20] - AI模型自我认知不可靠是普遍现象,可能源于训练数据中的间接来源 [21][22] - 专家批评Grok预训练团队数据筛选不专业导致模型行为异常 [25][26] 行业反应与讨论 - 事件在Reddit社区引发广泛讨论 [19] - 有观点认为这是AI模型训练数据污染的典型表现 [22] - 对比其他AI模型如Claude 4的优异表现,凸显xAI技术问题 [27]
历史首次!o3找到Linux内核零日漏洞,12000行代码看100遍揪出,无需调用任何工具
量子位· 2025-05-25 11:40
AI在漏洞研究领域的突破 - OpenAI的o3模型成功发现Linux内核SMB实现中的远程零日漏洞CVE-2025-37899,这是首次公开讨论的由大模型发现的此类漏洞[1][2][4][5] - 整个发现过程仅使用o3 API本身,未借助复杂工具或智能体框架[3][6] - 漏洞类型为SMB"注销"命令处理程序中的释放后使用漏洞,涉及内核内存损坏和任意代码执行风险[4][24] 实验方法与技术细节 - 研究员Sean Heelan为o3提供约3300行代码的上下文,包括命令处理器、连接建立/拆除等完整调用链[12] - 提示词明确要求寻找use-after-free漏洞,并包含KSMBD架构说明,每个实验运行100次以统计成功率[13][14] - 在12000行代码量测试中,o3发现全新漏洞的成功率降至1%,但仍识别出会话注销处理程序中的新漏洞[20][21][22] AI模型性能对比 - o3在100次测试中生成结构化漏洞报告,表现优于Claude 3.7(发现3次)和Claude 3.5(未发现)[16][17][18] - o3的修复方案比人类更完善,例如指出Kerberos漏洞修复中指针置空方案的同步缺陷[25][26][27] - 当前AI误报比例较高(信噪比约1:50),但技术发展有望持续优化[28][29][32] 行业影响与未来展望 - OpenAI首席研究官预测,类似o3的推理模型将在深度技术工作和科学发现中发挥更大作用[8] - 大模型在程序分析领域展现出接近人类审计员的创造力与灵活性,尤其适用于10000行以内的代码问题[30][32] - 该技术可提升专家级研究员效率,但需警惕潜在滥用风险[31]