Claude 3.7

搜索文档
figma 首日50倍ps 亚马逊capex超预期
小熊跑的快· 2025-08-01 07:36
Figma - Figma是云端协作设计软件,强调实时协作与云端存储,允许多角色团队在同一平台协作,颠覆传统单机模式 [1] - 截至2025年3月拥有1300万月活跃用户,其中2/3为非传统设计师 [1] - 2024年收入7.49亿美元(+48%),25Q1收入2.28亿美元(+46%) [2] - 70%收入来自大客户,ARR超10万美元的大客户达1031家(+47%) [2] - 76%客户使用两款或以上产品,AI功能Figma Make支持快速生成可交互原型 [2] - IDC预测可触达TAM为330亿美元,AI加持后付费转化可期 [2] - IPO定价区间上调至30-32美元,估值188亿美元 [2] - 收入增速40%+,自由现金流利润率28%+,40法则超60%,估值达50倍PS [3] 亚马逊 - FY25Q2收入1677.02亿美元(+10%),净利润181.64亿美元(+35%),EPS 1.68美元 [4] - AWS收入308.73亿美元(+17%),增速低于微软Azure(+39%)和谷歌Cloud(+32%) [5] - AWS营业利润率32.9%,环比-6.5pct,主要受薪酬费用、折旧和外汇影响 [5] - 在线商店收入614.85亿美元(+11%),第三方卖家服务收入403.48亿美元(+11%) [5][9] - 广告收入156.94亿美元(+17%),订阅服务收入122.08亿美元(+12%) [9] - Q3收入指引1740-1795亿美元(+10%-13%),营业利润指引155-205亿美元 [5] - AWS积压订单1950亿美元(+25%),供应受电力和芯片限制 [6] - FY25Q2资本开支314亿美元,预计全年1100-1200亿美元 [7] - Trainium2大规模投产支撑Claude模型,第三代芯片研发中 [7] - 电商强调商品多样性、低价和配送速度,一日达业务需求强劲 [7]
AI们数不清六根手指,这事没那么简单
虎嗅· 2025-07-11 10:54
视觉语言模型的偏见问题 - 核心观点:视觉语言模型(VLMs)并非真正"看"图像,而是依赖记忆中的先验知识进行判断,导致对反常识图像的识别错误[19][20][38] - 实验证据:当展示6根手指图片时,包括GPT-4、Gemini-2.5 Pro、Claude 3.7等主流模型100%错误识别为5根[40][45][63] - 机制分析:模型通过高频关联建立强先验知识(如"阿迪达斯=三条纹"),当视觉输入与常识冲突时优先选择记忆而非真实观察[54][55][64] 行业应用风险案例 - 工业质检:AI可能将罕见零件缺陷误判为光学误差,导致安全隐患[72][73][74] - 医疗领域:肺癌筛查等医疗诊断仍需医生复核AI判断,显示可靠性存疑[77] - 自动驾驶:对非常规交通场景(如异常数量行人)的识别可能失效[77] 技术局限性数据 - 品牌标识测试:修改阿迪达斯条纹数量后,所有模型仍坚持回答3条[39][40] - 动物肢体测试:5腿狮子/3脚鸟等异常图片识别准确率仅2%[43][45] - 国旗测试:美国国旗条纹数识别错误率达92%(模型回答13条vs实际12/14条)[47] 底层机制解释 - 数据训练方式:模型通过吸收数百亿张图片建立关联记忆而非理解[50][51] - 决策冲突:视觉模块与知识模块产生矛盾时,后者权重显著更高[63][65] - 干预无效:明确要求模型"仅根据图片回答"仅提升2%准确率[67][68]
ACL 2025 | 基于Token预算感知的大模型高效推理技术
机器之心· 2025-06-05 10:00
大型语言模型推理优化技术 - 研究团队提出TALE框架,通过引入Token预算约束机制,在保证推理准确率的同时显著压缩输出长度并降低计算开销 [1][2] - 当前主流模型如GPT-4o、Yi系列存在中间推理过程冗长问题,导致Token数量成倍增长并增加计算经济成本 [6] - 资源受限场景(教育/金融/代码理解)中需平衡准确率与资源效率,Token弹性现象显示简单压缩预算会导致成本反弹 [6][7] TALE技术实现路径 - TALE-EP采用零样本提示工程,模型自我估计合理Token预算并动态控制生成,平均节省60%推理开销且保持准确率 [12] - TALE-PT通过监督微调或偏好优化内化预算感知能力,降低40%以上Token使用量并优于传统思维链推理 [15] - 实验数据显示GSM8K数据集上TALE-PT-SFT准确率达78.57%同时输出Token降至139.63,较原始CoT的241.51显著优化 [13][16] 行业应用与影响 - Qwen3和Claude 3.7等最新大模型已引入类似预算控制机制优化推理效率 [17] - 该方法在数学推理数据集表现优异,GSM8K-Zero场景下TALE-PT-DPO保持78.41%准确率且Token用量压缩至113.41 [16] - 技术框架可拓展至多模态场景,推动大模型在边缘端部署的实用化落地 [17][19]
“新版DeepSeek-R1”的深度测评
2025-05-29 23:25
纪要涉及的公司和行业 涉及大模型行业,具体公司模型包括 Deepseeker R1、Claude 3.7、Claude 4、CosmoFlow、Readcloud 3.7、Readcloud 4、Grok 3、Gemini 2.5 Pro、Cloud 3.7、Cloud 4、GPT、Devsec、谷歌 Jennifer 2.5 Pro、OpenAI [1][3][4][7][8][12][15][18] 纪要提到的核心观点和论据 - **Deepseeker R1 新版本表现**:最新版本 0.528 在 CLion 中正确率从 4/8 提升至 6/8 有进步,但低于 Claude 3.7(7/8)和 CosmoFlow 加 Claude 4(8/8);agent 能力提升,包括调用工具正确率、上下文长度和规划思考长度增加;代码生成对指令遵从更明显,但质量有瑕疵,与 Claude 系列有差距 [1][3][4][17][19] - **Deepseeker R1 问题解决情况**:0.528 版通过更精准查找资料和增加上下文长度(客户端最长 128K)解决老版本爬取过多网页内容致上下文超出限制问题 [1][5] - **特定任务处理挑战**:最新版 R1 使用 fetch 工具查找过去十年中国 GDP 数据受阻,fetch 成功率低且世界银行无 API 支持,编写 Python 代码效果不佳,表明 MCP 工具与大模型存在适配性问题;Readcloud 3.7、Readcloud 4、Grok 3 和 Gemini 2.5 Pro 能完成该任务,调用 MCP 工具和参数设置更成熟,适配性更强 [1][6][7] - **FetchAPI 使用问题及解决方案**:使用 FetchAPI 失败率高,可能与 RPC 机制有关,多次修改代码问题仍存在;Fair Crawl 工具无此问题,FirePro 和 BRAVE search 稳定性更好可替代 [8] - **上下文长度影响**:上下文长度增加显著提升任务完成质量,新版 R1 长时间运行和修改尝试后解决复杂问题且质量提升 [1][9] - **Cloud 4 与 Cloud 3.7 对比**:Cloud 4 在处理非规范化网站数据爬取和整理、生成旅游规划网页等方面优于 Cloud 3.7,速度更快、准确率更高,能成功部署网页且排版精美 [4][10] - **第二道题目挑战及解决**:需调用多个 MCP 工具协同工作,通过选择合适工具和细致规划完成任务,显示更新后模型推理和执行效率增强 [11] - **R1 与 Claude 模型性能差异**:R1 有调用 function card 能力但生成质量不完美,工具调用可能失败仍能给出完整答案;Claude 尤其是 Claude 4 在速度和准确性上优于 R1,能避免调用易出错 MCP 工具,表现更稳定高效 [12] - **MCP 工具问题及解决**:MCP 工具出错时替代方案选择不理想,Readcloud 熟悉小函数能快速找到替代方案,如用百度地图获取天气功能替代 [13][14] - **Devsec 处理错误特点及改进**:Devsec 初始选择正确后续一般没问题,初始错误找备选 MCP 易出错,需提高备选方案识别和调用能力 [15] - **Claude 4 优势**:Claude 4 追平谷歌 Jennifer 2.5 Pro 以及 OpenAI,编程量较大时速度快且能直接运行代码,Claude 系列代码生成表现优异 [18] 其他重要但是可能被忽略的内容 - **测试框架**:包括测试调用 MCP 类 agent 工具准确率和评估代码生成质量与效率,此次更新提升推理、深度思考文本生成质量和代码生成优化,agent 方面代码能力重要 [2] - **老版本 R1 问题**:老版本使用工具易出错,选备用 CSP 也易出错,整体表现不稳定 [16]
30 年 FAANG 大神被 C++ Bug “虐”4年,竟被Claude Opus 4一招解决!
AI科技大本营· 2025-05-28 20:43
Anthropic发布Claude Opus 4 - Anthropic正式发布Claude Opus 4,并称其为"全球最强的编程模型" [1] - Claude Opus 4成功解决了一位资深C++开发者困扰四年的"白鲸Bug" [2][5] - 该开发者拥有30多年C++开发经验,曾在FAANG公司担任Staff Engineer [2] "白鲸Bug"的解决过程 - "白鲸Bug"是在重构6万行代码项目时引入的渲染异常问题,难以重现和定位 [4] - 开发者花费约200小时尝试解决该问题,但一直未成功 [5] - 使用Claude Opus 4后,仅用几个小时和约30次提示就成功定位并修复了该Bug [5][6] - Claude Opus 4通过对比新旧代码(共约200万行)发现了重构导致的非显式依赖丢失问题 [7][9] Claude Opus 4的技术表现 - 能够自动grep相关函数和路径,无需人工指定文件 [9] - 能够分析执行路径并对比新旧代码找出关键差异 [9] - 需要开发者提供约30条prompt进行引导,最长prompt超过1500行 [7][8] - 相比GPT-4.1、Gemini 2.5 pro和Claude 3.7表现更优 [6] AI在开发中的定位 - 被类比为"能干的初级程序员",需要持续指导和监督 [10][12] - 完成一个全栈项目需要约200个prompt,相当于新人6个月的工作量 [12] - 每月100美元订阅费相比资深工程师200小时2.5万美元成本更具性价比 [13] - 开发者仍倾向于选择人类高级程序员而非AI [12]
Openai重回非营利性 商业路之殇
小熊跑的快· 2025-05-06 18:37
OpenAI组织架构调整 - OpenAI宣布将保持慈善组织身份,并将营利性子公司转型为公益公司(PBC),非营利组织作为大股东控制PBC [1] - 此次调整强调公司的非营利性定位,与2023年人事动荡中关于商业化与安全性的争议有关 [1] - 前首席科学家Ilya Sutskever因反对过度商业化离职,其新项目SSI估值达200亿美元,而OpenAI当前估值3000亿美元 [1] 开源与闭源之争 - 行业质疑OpenAI闭源商用模式的可持续性,原预计2026年面临挑战,但开源模型的快速追赶使压力提前 [1] - Llama4、Deepseek R1等开源模型性能已接近GPT-4初代水平,代际差距缩短至14个月以内 [1][2] - Claude 3.5/3.7凭借开放态度和API调用便利性在亚洲市场占据优势 [2] 商业化与竞争格局 - OpenAI的API定价比竞争对手(R1、豆包)高一倍多,而最新季度行业API调用量环比增长4-5倍 [3] - 云计算厂商大力推广其他基础模型,性价比优势对OpenAI形成冲击 [3] - 苹果未投资OpenAI,反映市场对基础模型商业化前景的谨慎态度 [2] 行业技术发展 - 开源模型通过社区生态加速迭代,投资者更倾向支持可延展开发的平台 [2] - 模型代际追赶速度超预期,开源阵营已接近2024年初GPT-4水平 [1][2]
大模型终于通关《宝可梦蓝》!网友:Gemini 2.5 Pro酷爆了
量子位· 2025-05-03 12:05
大模型在游戏领域的突破 - Gemini 2 5 Pro成为首个通关《宝可梦蓝》并登入名人堂的大模型 标志着AI在游戏领域的重大进展[3][18] - 相比一年前的Claude 3 5仅能到达新手村 以及2个月前Claude 3 7仅能击败道馆主 Gemini 2 5 Pro实现了全面通关的突破[3] - 谷歌CEO第一时间官宣这一成就 并放出通关影像 显示公司对该技术突破的重视[1][18] 大模型游戏表现的技术细节 - Gemini在游戏中每步行动需长时间思考 例如在华蓝洞穴探索时思考40多秒 消耗76011个token进行决策[8] - 大模型面临的主要挑战包括:难以解读低分辨率像素画面 理解二维地图空间关系 以及上下文限制影响表现[10][11][12][16] - 在文本理解方面表现优异 如能快速理解属性相克提示并整合到战斗策略中[17] 行业技术发展对比 - Claude Plays Pokémon项目显示 早期模型需通过复杂流程处理游戏:截屏 网格覆盖 信息发送 响应解析等15步流程[15] - 行业技术进步明显 从Claude系列到Gemini 2 5 Pro 模型游戏能力呈现阶梯式提升[3][18] - 网友提议将通关宝可梦作为测试大模型的新基准 反映AI能力评估方式的潜在演变[19] 技术展示与持续发展 - 谷歌通过Twitch直播展示Gemini游戏过程 直播将持续数天以进行更多探索[4][18] - 模型思考过程完全透明化 左侧文本框实时显示其决策逻辑[7] - 公司表示将在该挑战中继续深入 暗示相关技术研发将持续推进[18]
藏师傅的网页生成提示词 3.0| 原来 Gemini 2.5 Pro 这么强
歸藏的AI工具箱· 2025-04-23 16:32
早上群里有个朋友说自己用 Gemini APP 里面的深度研究搞了一个特斯拉 Q1 财报的分析文档,另一个朋友 说转成网页,我就说我试试。 我直接把他的文档和我最近探索出来的提示词就放到了 Chatwise 里面,以往我都是用 Claude 3.7 生成网页 的,这次默认是 Gemini 2.5 Pro,我也没看就按下了回车。 没想到生成的网页炒鸡惊艳,Gemini 的网页内容很多同时理解了提示词提到的设计风格,非常漂亮。 可以看图也可以在这里预览: https://kueaqan0fo.app.yourware.so/ | | | | | | $0.41 | 可比 -13% YoY | 同比 -16% YoY 网比 +154% YoY | | Acknowledged uncertainty, 94 update planned. Unusual admission of political/brand impact. | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | FRITTY les a 2025 01 ...
藏师傅的网页生成提示词 3.0| 原来 Gemini 2.5 Pro 这么强
歸藏的AI工具箱· 2025-04-23 16:32
生成网页技术 - 使用Gemini 2.5 Pro模型生成特斯拉财报分析网页效果惊艳 设计风格和内容理解均优于Claude 3.7 [1][3] - 提示词要求采用Bento Grid风格 纯黑底色搭配特斯拉红E31937高亮 超大字体突出核心数据 中英文混排 [4] - 技术实现需包含Framer Motion动效 TailwindCSS 3.0+框架 专业图标库 避免使用emoji [5] Bento Grid风格解析 - 设计灵感源自日本便当盒 通过不同尺寸卡片组合呈现内容 苹果公司PPT常用此风格 [6] - 专业网站bentogrids.com收录相关设计案例 [7] - Gemini多模态能力可准确理解该风格核心 Claude等模型存在认知偏差 [9] 工具应用方法 - Gemini 2.5 Pro可通过Google AI Studio免费使用 支持API密钥调用 [10] - 内容需整合为单一文档 与提示词共同输入模型 [11] - 可垫图辅助模型学习细分风格 但会占用上下文容量 [12] 衍生应用场景 - 生成网页可转换为PPT 需使用html.to.design或腾讯CoDesign插件 [12][13] - 腾讯插件支持免费无限次网页转设计稿操作 [13]
藏师傅 AI 编程全流程教学:Trae重磅更新MCP和Agent能力
歸藏的AI工具箱· 2025-04-22 11:08
AI编程工具Trae的功能更新 - Trae发布四大重磅功能包括MCP、自定义规则、智能体和上下文理解 其能力已与Cursor、Windsurf看齐甚至体验更胜一筹 [3] - 智能体创建支持基于提示词和MCP工具自定义智能体 通过@即可使用 无需每次输入复杂指令 [6] - 智能工具(MCP)支持内置常用功能 只需点击即可使用 同时支持自定义配置如Figma MCP [6][12] - 新增联网搜索和文档集上下文理解能力 使AI能够搜索不懂的编码框架和文档 [6] - 支持配置个人规则和项目规则 无需反复强调基础编码要求 [6][10] Vibe Coding方法论 - Vibe Coding指通过自然语言描述需求让AI完成所有编码工作 问题修复仅通过提示词完成 属于非专业开发者的AI辅助编程方式 [7] - 核心原则包括聚焦单一功能 首次提示词决定成败 采用分步迭代优化等 [40] - 开发流程包含配置IDE环境 梳理需求 生成PRD提示词 测试结果 修复问题和部署上线等步骤 [9] - 需求梳理需使用结构化模板如"我想开发一个【应用类型】主要用于【核心目的】"并详细描述功能需求 [19][21] Trae实操指南 - 环境配置需下载Trae IDE 新建英文项目文件夹 并设置规则文档和MCP服务 [8][10] - MCP配置支持通过API Key添加服务如Figma AI Bridge 实现设计稿参考功能 [12][14] - 生成阶段需结合功能需求和设计开发要求 选择Builder模式或自定义智能体进行代码生成 [24][26] - 测试阶段需系统性验证功能完整性 交互元素和响应式设计等 发现问题后采用单点修复策略 [28][29] - 部署可选择yourware快速服务或Netlify等自定义方案 建议业务数据抽离为JSON文件便于维护 [36][37] 优化建议 - 问题修复时需精确指明修改内容 如使用文件锚点定位 并提供完整报错信息 [31][33] - 每次对话只解决一个问题 发现模型跑偏立即使用"回到发起前"功能回滚 [29][40] - 敏感信息处理建议采用运行时输入而非硬编码 复杂项目建议使用Claude 3.5等大模型 [40] - 持续收集3-5个目标用户反馈 记录卡壳点进行迭代优化 [40]