量子位

搜索文档
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
量子位· 2025-07-18 08:30
ChatGPT Agent核心功能 - 整合"思考"和"执行"能力,实现深度研究与操作执行的统一[2][8] - 可接管用户电脑操作,接近操作系统级别的控制[3] - 工作场景支持会议安排、PPT生成、报销提交等高管助理级功能[4] - 生活场景覆盖旅游规划、活动安排等CEO秘书级服务[4] 技术实现与性能 - 采用专用模型实现SOTA,网页浏览和现实任务执行能力显著提升[5][30] - 动态学习机制优化速度、准确性和效率,配备可视化/文本浏览器及API访问路径[27][28] - 在DSBench测试中超越人类水平,SpreadsheetBench得分比GPT-4o提升超一倍[33][34][38] - "人类最后考试"得分41.6分,远超早期模型不足10分的表现[31] 商业化部署 - Pro版支持无限次任务,其他付费版每月50次任务,企业/教育版7月开放[22][23][24] - 通过积分制扩展使用量,免费用户暂未开放[23][25] 行业影响与竞争格局 - 将创业赛道功能整合为大厂标准化产品,冲击Agent领域创业者[5][7] - 落后于Anthropic等竞品的"Computer Use"功能,但在通用Agent领域加速追赶[48] - 手机厂商华为/小米等已试水Agent应用,如自动订咖啡、接听电话等[49] 长期趋势展望 - 可能重塑互联网形态,从PC时代"网站"、移动时代"APP"转向AI时代"Agent"[52] - 企业级应用如AI客服已快速渗透,垂直领域AI编程/绘图同步推进[46][47] - 预示由AI驱动的操作系统级产品形态正在形成[50][51]
o1核心贡献者离职后首发声:AI是史上最强杠杆,超越人力、资本和代码
量子位· 2025-07-17 17:03
核心观点 - 人工智能正在成为有史以来最强大的杠杆机制,将彻底改变个人到人类文明层面的价值创造方式 [1][4][10] - AI作为第四种杠杆形式,结合了人力、资本和代码杠杆的优势,并能产生复合效应 [10][23][24] - AI智能体代表无需许可的复合杠杆,正在改变组织形式和财富分配方式 [23][25][27] - 科学进步是人类最可持续的增长引擎,AI是突破当前科学复杂性瓶颈的关键工具 [28][29] AI作为新型杠杆 - 杠杆定义:输入微小变化带来输出巨大变化的机制 [12] - 人力杠杆:通过组织管理大量人力实现指数级产出,但需要许可和协调成本 [11] - 资本杠杆:用少量自有资金控制大规模资产放大回报,20世纪主要财富创造方式 [15] - 代码杠杆:零边际成本复制特性使服务用户数量无上限,信息时代核心杠杆 [17][18][20] - 杠杆优势随竞争减弱,需持续寻找新机制 [21][22] AI智能体的变革性 - 结合人力杠杆的工作能力与代码杠杆的无许可复制特性 [24] - 10-20人初创公司通过AI智能体可创造数亿美元收入,突破传统人力协作瓶颈 [25] - 改变生产关系:价值创造转向AI设计训练,而非人力组织管理 [27] - 协调成本几乎不随智能体数量增加,实现产出指数增长 [26][27] 科学进步的引擎 - 人类文明的核心任务是科学进步与知识发现 [28] - 现代科学复杂性远超个体智力,AI可连接分散的专家知识 [29] - AI作为工具外壳包裹并连接各领域专业知识尖峰 [29] - 突破科学革命以来的增长瓶颈,创造曲棍球棒式价值曲线 [28][29] 认知偏差警示 - 人类天生低估以年为单位的缓慢变化,可能严重低估AI变革幅度 [7] - AI发展以几十年为框架,是史上最快技术但仍需长期视角 [8] - 需重新评估AI杠杆带来的变化规模,避免认知局限导致的判断失误 [30]
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
量子位· 2025-07-17 17:03
谷歌MoR架构创新 - 推出全新底层架构Mixture-of-Recursions(MoR),首次在单一框架中实现统一参数共享与自适应计算资源分配,推理速度提高2倍且KV内存减半[1][3][7][9] - 采用递归Transformer结构,通过递归块复用共享参数池,相比标准Transformer减少独特参数数量[10][13] - 包含三种参数共享策略:Cycle循环复用层、Sequence连续复用同一层,提升分布式训练效率并消除计算"气泡"[11][12][13] 动态路由与KV缓存机制 - 动态路由机制通过轻量级路由器为每个token分配不同递归深度,集中计算资源处理复杂token,分为Expert-choice路由和Token-choice路由[15][17] - KV缓存策略包含Recursion-wise缓存(仅缓存活跃token的KV对)和Recursive KV共享(复用首次递归的KV对),降低内存和IO需求[15][18] - 路由机制突破固定思考深度限制,Expert-choice路由性能优于Token-choice路由[17][22] 性能表现与效率提升 - 在16.5e18 FLOPs训练预算下,MoR参数减少50%,验证损失更低且少样本准确率达43.1%(vanilla模型42.3%)[19][20] - 训练20B token时减少25% FLOPs,训练时间缩短19%,峰值内存减少25%[21] - 360M规模MoR在推理吞吐量评估中优于vanilla模型,递归深度增加使KV缓存占用减少[25][26] 架构演进与行业影响 - 谷歌持续通过架构创新重构计算范式,如MoE(混合专家模型)系列从2017年LSTM层应用到2023年Gemini 1.5 Pro分层架构[27][28][30] - MoE突破全连接模型缺陷,成为超大规模模型优先选择,TokenFormer等可扩展架构为千亿级模型迭代提供可能[31] - 行业将MoR视为潜在Transformer替代方案,其统一参数共享与自适应计算的特点可能重塑AI底层架构[4][32]
人类击败OpenAI守住编程冠军!10小时激战两次反超,AI最后关头功亏一篑
量子位· 2025-07-17 15:04
赛事结果 - 人类选手Psyho在AtCoder世界巡回总决赛中击败OpenAI模型获得冠军,OpenAI屈居第二 [1][3] - 最终得分:Psyho 45,245,838,577分 vs OpenAI 42,879,901,354分,分差2.37亿分 [7] - 比赛过程激烈,人类在最后1小时20分钟完成逆转 [3][28] 赛事背景 - AtCoder是全球性编程竞赛平台,提供5000道历年真题供挑战 [8] - 比赛分为算法类(传统编程题)和启发式(2024年新增,比拼最优解)两类 [10][12][13] - 本次OpenAI参与的是启发式竞赛,与12名人类选手同场竞技 [10] 比赛过程 - OpenAI前期表现优异,前6小时提交全部正确,首次提交即获31万分 [17][18] - 后半程出现多次"执行超时"失误导致零分 [19][20] - 人类冠军Psyho表现稳定,首次提交即获612万分 [22][23] - OpenAI提交次数远超人类选手(人类选手提交记录通常一页可显示完) [29][30] 选手背景 - 冠军Psyho曾任职OpenAI,参与过训练AI战胜人类冠军的项目 [34][38][39] - 该选手现为游戏设计师兼职业竞技程序员 [35] - 本次比赛由OpenAI赞助,冠军奖金50万日元(约2.4万人民币) [43][45] 行业影响 - 此次赛事引发关于人机竞赛未来走向的讨论 [32] - 比赛结果展示了当前AI在复杂编程竞赛中的局限性 [26][28] - 赛事过程全程直播,引发广泛关注 [16][46]
Claude Code出逃的主创又回来了!Anthropic:过去俩月我收入暴涨5.5倍,别走
量子位· 2025-07-17 15:04
核心事件 - Claude Code两位核心人物Boris Cherny和Cat Wu跳槽至Anysphere两周后即被Anthropic重新挖回 [1][5][6] - Boris Cherny为Claude Code开发负责人,曾任职Meta首席软件工程师 [2] - Cat Wu为Claude Code产品经理,曾任职Scale AI产品工程师 [2] - 两人在Anysphere分别担任首席架构师/工程主管和产品主管 [4] 公司估值与融资 - Anthropic正进行新一轮融资谈判,目标估值达1000亿美元(约7200亿元人民币) [8][10] - 四个月前上一轮融资估值为580亿美元,若达成则估值翻近一倍 [9][10] - 3月已筹集35亿美元股权融资,计划全年融资55亿美元 [9] - 亚马逊考虑追加数十亿美元投资,此前已注资40亿美元 [28][29][30] - 若新投资达成,亚马逊或成最大股东之一 [31] 财务表现 - 直接销售AI模型和Claude的毛利率约为60%,目标70% [12] - 云服务销售毛利率为负30%(亚马逊/谷歌抽成影响) [12] - 70%收入来自直接销售,云销售占比较小 [12] - 上半年收入增长4倍,年化收入超40亿美元 [20] - Claude 4系列推出后平台活跃用户增长300%,收入增长5.5倍 [21] - 预计2026年收入将达120亿美元 [19] 产品动态 - 推出金融分析平台Claude for Financial Services [16][18] - Claude Code下载量周增6倍达300万次,累计11.5万开发者用户 [26] - Claude Code贡献年化收入超2亿美元(月均1670万美元) [26] - 将推出Claude Code分析仪表板,展示使用指标和支出数据 [24] - Cursor年化收入达5亿美元,较去年11月增长10倍 [27] 行业对比 - OpenAI当前估值3000亿美元 [10] - OpenAI预计2025年毛利率48%,2029年达70% [13] - Anthropic采用"模型即服务+垂直解决方案"战略 [15]
苹果向英伟达生态妥协了!MLX框架主动适配CUDA
量子位· 2025-07-17 13:52
苹果MLX框架适配CUDA的战略转变 - 苹果专为端侧AI训练推出的MLX框架主动增加CUDA支持,打破其长期封闭生态的传统[1][4] - 此举使苹果开发者能利用英伟达GPU训练模型,再部署回Mac/iPhone设备,实质是借力英伟达生态抢夺AI市场[4][5][6] - 该决策被网友评价为"苹果十年来最大战略举措",反映其对CUDA主导地位的妥协[15][27] CUDA生态的绝对优势 - 英伟达CUDA生态覆盖500万开发者、4万家公司及数千家生成式AI企业,占据GPU计算领域行业标准地位[25] - 2024年CUDA 11.6版本明确禁止非英伟达平台逆向工程,法律层面强化生态壁垒[28][30][31] - 苹果官方承认CUDA优势:统一内存机制提升开发效率,跨平台部署满足学术研究和大规模计算需求[8] 苹果与英伟达的历史纠葛 - 2018年苹果通过macOS Mojave停止对多数英伟达显卡支持,导致专业用户无法使用Pascal架构GPU[19][20] - 英伟达称因苹果未开放内核扩展签名而无法提供新版驱动,双方矛盾持续至今未解决[21][22] - 此次MLX适配CUDA被视作苹果战略转向,与六年前"摆脱英伟达依赖"的意图形成鲜明对比[23][24] MLX框架的发展背景 - 苹果2023年12月推出MLX框架,旨在利用M1/M2/M3自研芯片算力构建端侧AI生态[10][11] - 此前MLX影响力有限,反映苹果在AI领域进展乏力,而英伟达凭借CUDA生态持续扩张[12][13] - 技术方案选择上,苹果仅允许MLX程序调用CUDA芯片,禁止直接移植CUDA程序至Apple芯片[35][33]
云计算一哥,刚刚重新定义了AI Agent的玩法
量子位· 2025-07-17 13:52
亚马逊云科技AI Agent战略布局 - 亚马逊云科技在纽约峰会上发布企业级AI Agent搭建工具包Amazon Bedrock AgentCore,重新定义AI Agent生产部署方式[3][5] - AgentCore提供7大核心服务组合,包括Runtime、Memory、Observability等模块,覆盖从开发到部署全流程[6][8][9][10][11][12][13][14] - 该平台支持任何框架、模型和协议,具备8小时工作负载能力,是首个企业级无服务器AI代理运行时平台[17][18] AgentCore技术架构创新 - Runtime模块提供低延迟无服务器环境,支持多模态工作负载,仅需添加几行代码即可部署[8] - Memory模块管理短期和长期记忆,支持语义记忆策略和加密存储[9] - Observability模块提供逐步可视化调试功能,内置仪表板跟踪会话数、延迟等关键指标[10] - Identity模块实现安全访问第三方工具,支持OAuth2和API密钥认证[11] - Gateway模块将现有API转换为代理工具,提供双重身份验证[12] 配套工具与生态系统 - 推出Marketplace中的AI Agents和工具,支持自然语言搜索数百种解决方案[24] - 发布Amazon Nova Act SDK研究预览版,支持自动执行网页任务,在ScreenSpot Web文本基准测试得分0.939[31][33] - 推出免费AI编程工具Kiro,可全程参与从需求分析到代码维护的软件开发流程[49][51][52][53][54][55][56][57][58][59][60][61] 数据基础设施升级 - 推出Amazon S3 Vectors云对象存储服务,原生支持向量数据集存储,查询性能达亚秒级[38] - 采用"向量桶"新型存储结构,单个桶支持10000个向量索引,每个索引可存数千万向量[42][43][44] - 总成本降低多达90%,并与Amazon Bedrock Knowledge Bases原生集成[40][47] 行业趋势与市场定位 - LangChain调查显示超50%公司已部署Agent,Gartner预测2028年33%企业软件将含Agentic AI[71] - 主要应用场景包括软件开发、客户服务、理赔处理和IT流程自动化[71] - 亚马逊云科技定位为"构建最有用的AI Agents的最佳场所",CEO称其影响力堪比互联网诞生[65][73]
深谋科技独家发布真正为人类服务的新一代人形机器人核心技术「声波传感 · 意念控制 · 高精视觉 · 类脑智能」
量子位· 2025-07-17 13:52
2025世界人工智能大会(WAIC)与深谋科技参展 - 2025年WAIC将于7月26日至29日举行,深谋科技作为精英合作伙伴亮相H3馆D710展位 [1] - 公司提出人形机器人应摆脱"跑跑跳跳"的怪圈,真正满足人类需求并成为社会一员 [1] - 深谋科技将在大会发布新一代人形机器人核心技术 [2] 人形机器人"美猴王"与核心技术 - 自研全尺寸人形机器人"美猴王"尚未正式亮相便已获得德国红点大奖与美国MUSE金奖 [1] - 公司关注感知、控制与决策的一体化能力,构建具身智能系统闭环 [1] - 核心技术包括全能感知、先进控制、类脑智能等 [1] OmniSense多物理量智能感知系统 - 独创基于SAW声表面波的传感系统,覆盖环境、生理、运动三大维度 [3] - 环境感知:单芯片同步感知温湿度、有害气体与化学物质,实现多级智能预警 [3] - 体表监测:可感受脉搏、分析汗液和呼气成分,辅助健康评估与疾病检测 [3] - 运动控制:SAW传感器实现高灵敏度角速度和加速度测量,支撑平衡控制 [3] - 系统具备MHz级高频响应、强抗干扰、无线无源结构与生物兼容性 [4] MindMover脑机交互系统 - 首创闭环脑机交互系统,实现"意图识别+状态反馈"双向交互 [5] - SSVEP模块2秒内完成指令反馈,信息传输率最高37.4 bits/min [5] - 注意力检测模块准确率达85%,ITR约22.5 bits/min [5] - 系统具备抗噪能力与跨时段稳定性,适用于便携式场景 [5] - "美猴王"可实现"意念控制"和"感知人类思维"功能 [5] "弹起"六维力传感器 - 国内首款压电式动态六维力传感器,采用石英晶体为核心力敏元件 [6] - 具备高带宽、高分辨率、高鲁棒性特点 [6] - 应用场景包括医疗、航空航天和工业领域 [8][9] 6D姿态视觉伺服系统 - 自主研发基于立方包拟合的6D姿态估计算法,突破传统匹配局限 [10] - 系统可识别并强化对动态目标关键方向的跟踪 [10] - 实现几何形态与姿态信息的联合估计,让机器人"理解"目标结构 [10] - 系统针对动态任务场景专项强化,实现毫秒级响应 [11] 全栈自研具身智能系统 - 覆盖从关键部件到核心算法的全栈技术架构 [13] - 硬件层面自主研发灵巧手、六维力传感器等 [13] - 算法层面融合MPC、RL及具身智能大模型 [13] 类脑具身智能新范式 - 选择有别于行业主流的独立技术方向 [14] - 进行基于能量、具备生物合理性的世界模型研究 [14] - 计划明年发布通用具身智能世界模型 [14]
教程 | 如何做出 X 上爆火的 AI 蓝图动画
量子位· 2025-07-17 13:52
Midjourney风格代码技术 - Midjourney风格代码(Sref Code)是一种类似风格滤镜的功能,用户通过在提示词中添加`--sref`和对应数字即可套用预设视觉风格,无需繁琐描述即可保持作品风格一致性 [8][9] - 示例显示输入"一杯牛奶"后生成图片,添加风格代码`--sref 2007748773`可100%复现相同风格 [10][13] - 该技术特别适用于系列化创作(如绘本),通过固定代码实现风格统一 [15] 风格代码应用案例 - 博主@aoki_tosh使用该风格制作的MV在X平台迅速传播,几天内获得300万播放量 [5][6] - 典型应用场景包括机械恐龙蓝图设计,通过保留技术细节标注(如原理图、尺寸线)和复古对比配色(高饱和度纯色背景+对比色点缀)实现专业化视觉效果 [23][24][25] - 用户可通过替换主体对象(如恐龙品种)和配色参数快速生成新图像,例如将背景改为高饱和度蓝色/紫色/黄色纸张 [30][32] 进阶创作方向 - 复杂动画尝试:测试让机甲生物分解或变形的提示词,但需注意Midjourney动画模型对提示词的响应存在随机性 [35][37][40] - 风格多样性探索:推荐关注X/INS平台的日更创作者及资源网站midjourneysref.com,该平台支持关键词检索风格代码 [41][45] - 核心创作理念强调在工具标准化基础上追求个性化创新,提出"当千万人使用同一工具时,应探索创造独有风格" [48]
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
量子位· 2025-07-17 10:43
大模型长上下文性能研究 核心发现 - 主流大模型在输入长度增至1万tokens时准确率普遍降至50%,且性能衰减呈非均匀断崖式下降[4][10][21] - 性能衰减受语义关联性、干扰信息、文本结构等多因素影响,其中低相似度组在1万tokens时准确率比高相似度组低20个百分点[18][21] - 不同模型衰减节点存在差异:GPT-4.1可能在短文本即出现性能骤降,Claude系列则表现出更强的长文本稳定性[7][28] 实验设计方法论 - 采用改进版NIAH测试框架,通过四项对照实验控制任务复杂度并隔离输入长度变量[16][17] - 实验数据源包括保罗・格雷厄姆散文和arXiv论文,设置10²至10⁴tokens的输入长度梯度[18][31][37] - 评估指标采用GPT-4.1验证的准确率(与人类判断一致性超99%)[18][33] 关键影响因素 语义关联性 - 针-问题相似度实验显示:低相似度组在1万tokens时准确率降至40%-60%,比高相似度组低20个百分点[18][21] - 针-干草堆相似度对模型影响不统一,但长文本下所有模型性能均显著下滑[31][34] 干扰信息 - 多重干扰项使模型在1万tokens时准确率比基线低30%-50%[26][29] - GPT系列易生成自信错误答案,Claude系列倾向弃权,Gemini和Qwen波动最大[28] 文本结构 - 连贯结构文本在1万tokens时部分模型准确率降至30%-40%,打乱结构则维持50%-60%[40][42] - 逻辑结构复杂度与性能衰减正相关,揭示模型处理长文本逻辑的缺陷[35][41] 行业技术动态 - Chroma团队开源测试代码,覆盖18个主流开源/闭源模型包括GPT-4.1、Claude 4等[8][49] - 研究验证了现有基准测试将输入长度与任务难度混谈的局限性[13][15] - 行业正探索1M上下文窗口技术(如Gemini 1.5 Pro),但实际长文本处理能力仍存瓶颈[12][44]