Workflow
量子位
icon
搜索文档
第一家被收购的AI浏览器公司,43亿成交,产品还在内测
量子位· 2025-09-05 14:33
收购交易概览 - 企业协作软件公司Atlassian以6.1亿美元(约43亿人民币)现金收购AI浏览器公司The Browser Company [1] - 收购重点为发布仅三个月且处于内测阶段的AI浏览器Dia [3] - The Browser Company旗下拥有Arc和Dia两款浏览器产品 [1] 被收购方背景 - The Browser Company成立于2019年,已运营5年多 [5][19] - 公司累计筹集融资1.28亿美元,去年以5.5亿美元估值获得5000万美元融资 [17][19] - 投资者包括PaceCapital、LinkedIn CEO Jeff Weiner、Medium创始人Ev Williams、Figma CEO Dylan Field、Notion CEO Akshay Kothari及GitHub CEO Jason Warner等知名机构与人士 [19] - 公司已积累数百万用户 [19] 收购战略意图 - Atlassian计划将Dia打造为"AI时代的白领专业浏览器" [3] - 收购旨在获得Atlassian的分发渠道、销售团队和规模化能力 [22][23] - The Browser CompanyCEO认为AI浏览器领域胜者将在未来12-24个月内诞生 [22] - 通过收购获得急需的稳定性以应对火热市场竞争 [24] 产品特性 - Dia针对白领日常使用的SaaS应用进行优化,标签页提供丰富上下文信息 [27] - 打通AI技能与个人工作记忆,连接应用程序、标签和任务节点 [29] - 旨在解决现有浏览器"为浏览而非工作效率设计"的痛点,打造用于操作的浏览器 [25][26] 市场反应与背景 - 收购引发外界对Atlassian眼光的质疑,因Dia仍处于内测阶段且公司产品推出有限 [4][5] - 《纽约时报》曾于7月专文盛赞Dia为新型AI浏览器 [14] - 两家公司收购谈判已持续一年,最初重点为另一款浏览器Arc [7][8] - Arc浏览器因学习曲线陡峭已于去年停止开发 [9]
全给黄仁勋玩明白了!15亿美元租自家GPU/教小弟用GPU换融资,英伟达又一世子被曝准备IPO
量子位· 2025-09-05 14:33
英伟达与Lambda的交易 - 英伟达向云厂商Lambda租赁1万个装有自家AI芯片的GPU服务器,为期四年,总价值13亿美元 [2] - 另达成一笔8000个装有英伟达芯片的服务器租赁交易,价值2亿美元 [3] - 租赁目的是满足英伟达内部研究和开发需求 [4] Lambda的业务与产品 - Lambda专注于为AI/ML开发提供高性能计算基础设施和服务,核心聚焦AI模型训练、微调和部署的算力支持 [11] - 主要产品包括裸金属GPU云服务、一键式集群、Lambda Inference API、Lambda Chat、Lambda Stack及NVIDIA DGX Systems [12] - 相较于大型云厂商,Lambda的GPU租赁价格通常更便宜划算,尤其在长期或大规模使用场景下 [11] 英伟达与Lambda的多重关系 - 英伟达是Lambda的供应商、投资者和客户,形成"循环关系" [10] - 投资方面:英伟达参与Lambda的4.8亿美元D轮融资(股权融资),与Andra Capital、SGW等共同领投 [14] - 债务融资:Lambda以5亿美元债务融资购买数万块英伟达GPU,GPU作为抵押品,若无法偿还债务,债权人有权获得这些GPU [14] 英伟达的战略意图与行业背景 - 英伟达通过扶持"新云"服务商(如Lambda和CoreWeave)加强在云市场的主导性,确保其芯片市场渗透率 [9][15][30] - 大型云厂商(如AWS和谷歌云)开始生产自研芯片部署于数据中心,对英伟达增长构成威胁 [28][29] - 英伟达数据中心业务2026财年Q2贡献411亿美元营收,同比增长56%,Blackwell平台收入环比增长17% [25] 类似案例:CoreWeave - CoreWeave通过抵押英伟达GPU的债务融资筹集近100亿美元,包括23亿美元债务融资用于扩大GPU基础设施 [20] - 英伟达在CoreWeave上市时投资约2.5亿美元,巩固战略股东身份,总投资额达39.6亿美元,占公开持仓的91.36% [21] - CoreWeave上市后股价一度暴涨400%,市值逼近900亿美元,但Q2亏损扩大至2.91亿美元 [22] Lambda的IPO计划 - Lambda被曝正在准备IPO,最早可能在2026年上半年完成 [7][23]
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
量子位· 2025-09-05 12:28
核心观点 - 字节Seed团队发布UI-TARS-2智能体 通过多轮强化学习训练实现跨平台自主操作GUI 在电脑、手机、浏览器及游戏场景中表现优于Claude和OpenAI等竞争对手 [2][4][23][25] 技术架构与设计思路 - 采用统一Agent架构 以大语言模型为核心决策器 支持自然语言指令到GUI/终端/工具操作的通用执行循环 [7] - 整合多模态感知与环境交互 输入端包含屏幕截图、文本上下文及历史操作轨迹 输出端支持点击坐标、拖拽动作、命令行及API请求 [7] - 构建混合操作流 智能体可无缝组合GUI点击、终端命令和API调用 例如网页找资料后调用搜索API处理数据 [7] - 核心目标为构建原生通用跨平台GUI智能体 覆盖电脑、手机、网页、终端及游戏复杂任务 [6] 性能表现与基准测试 - 在OSWorld测试中得分47.5 超过Claude-4-Sonnet的43.9和OpenAI CUA-o3的42.9 [23][25] - 在WindowsAgentArena测试中得分50.6 超过UI-TARS-1.5的42.1 [23][25] - 在TerminalBench命令行任务中得分45.31 超过Claude-4-Opus的43.2和OpenAI o3的30.2 [23][25] - 在15款小游戏中平均得分达人类水平的59.77% 显著高于OpenAI CUA的24.73%和Claude Computer Use的21.61% [25][27] - 在Shapes游戏中得分5.9 超过人类水平的5.42 在2048游戏中得分932.4 接近人类水平的1024.31 [27] 多轮强化学习与数据飞轮 - 通过多轮强化学习解决GUI操作四大难题:数据稀缺、环境割裂、能力单一及训练不稳定 [4][5][10] - 采用冷启动策略 通过合成数据和人工标注构建高质量监督微调数据集 [11] - 通过拒绝采样生成新轨迹 按质量筛选后高质量数据进微调集 低质量数据进预训练集 形成模型与数据相互增强的循环 [12] - 针对奖励稀疏问题 对可验证任务采用明确信号奖励 对模糊任务训练智能体自身作为奖励模型输出成功分数 [16] - 采用异步rollout模式 将模型推理与执行过程分离 并优化PPO算法包括解耦GAE和不对称裁剪 [17] 工程实现与平台支撑 - 构建统一沙盒平台 支持百万级交互训练 解决传统环境难复现、易崩溃及吞吐量低的问题 [20][21] - 沙盒平台兼容多载体 包含云虚拟机文件系统、远程VS Code及Jupyter等工具 覆盖桌面-移动-游戏全场景 [18][22] - 基于Seed-thinking-1.6模型训练 总参数230B 含532M视觉编码器和23B激活参数 [23]
ChatGPT新功能,又干掉一批创业项目
量子位· 2025-09-05 12:28
核心观点 - ChatGPT推出分支对话功能 允许用户在原有对话基础上创建独立分支话题 解决多话题对话混乱问题 [1][4][8] - 分支对话功能已全面上线 用户可通过点击按钮实现话题分割 系统能自动记录并提示合并不同分支内容 [8][12] - 项目功能向免费用户开放 新增文件上传限制和自定义选项 不同用户层级享有不同权限 [16][18][19] 功能特性 - 分支对话功能通过底部视觉分割线标识话题来源 支持跨话题提问而不影响原始对话记录 [8][10][12] - 项目功能按用户类型设置文件上传上限:免费用户5个文件 Plus/Go/Edu用户25个文件 Pro/Business/Enterprise用户40个文件 [19] - 项目支持自定义颜色和图标配置 提升多项目管理的识别效率 [18] 行业影响 - 分支对话功能直接冲击T3chat等创业公司 后者曾凭借类似分支功能吸引用户 [5][6] - 功能设计针对团队协作场景 支持多用户从主线对话独立分支 避免互相干扰 [13]
OpenAI宣布推出AI在线招聘平台,和微软的领英打起来了
量子位· 2025-09-05 09:49
OpenAI进军招聘领域 - OpenAI计划于2026年推出AI驱动的在线招聘平台OpenAI Jobs Platform 旨在实现企业需求与员工能力的精准匹配[2] - 该平台将专门为小型企业和地方政府提供顶尖AI人才通道[5] - 服务覆盖各层级专业候选人 并利用AI技术优化人岗匹配效率[16] 与微软领英的竞争关系 - 新平台与微软旗下领英形成直接竞争 而领英联合创始人里德·霍夫曼是OpenAI最早的投资人之一[11] - 此举可能导致OpenAI与其最大资金支持者微软在招聘领域产生利益冲突[12] AI技能培训生态建设 - OpenAI Academy免费在线学习平台已帮助超过200万人掌握AI工具[18] - 将推出分级AI认证课程 从基础技能到提示词工程全覆盖[20] - 与沃尔玛合作推进2030年前为1000万美国人提供AI技能认证的计划[20] 多元化合作伙伴网络 - 合作方包括沃尔玛、约翰迪尔等大型雇主 波士顿咨询集团、埃森哲等专业服务机构[14] - 覆盖Indeed招聘平台、德克萨斯商业协会等社区组织及州政府机构[14] - 德克萨斯商业协会计划通过该平台连接数千家本地企业与现代化人才[17] 战略愿景与社会影响 - 公司认为AI将创造比历史上任何技术更多的就业机会[8] - 通过ChatGPT免费服务每周触达数亿用户 降低AI接触门槛[13] - 具备AI技能的员工被证明更具价值、效率更高且薪酬更优[18]
DeepSeek新大招曝光:下一步智能体
量子位· 2025-09-05 09:49
DeepSeek新模型开发计划 - 公司正在开发具有更强大AI Agent能力的新模型 预计在今年年底推出[3] - 新模型仅需少量提示就能帮用户执行复杂操作 并能根据历史操作自我进化和学习[7] - 模型将在今年最后一个季度面世[8] DeepSeek-V3.1性能升级 - DeepSeek-V3.1具备更强的Agent能力 通过Post-Training优化在工具使用与智能体任务中有较大提升[5] - 编程智能体方面 SWE-bench测试得分从V3-0324的45.4提升至66.0 SWE-bench Multilingual从29.3提升至54.5 Terminal-Bench从13.3提升至31.3[11][12] - 搜索智能体方面 Browsecomp从8.9提升至30.0 Browsecomp zh从35.7提升至49.2 HLE从24.8提升至29.8 xbench-DeepSearch从55.0提升至71.2 Seal0从29.7提升至42.6[14] 行业发展趋势 - 智能体概念成为行业焦点 2025年下半年几乎没有大模型产品不谈智能体[16] - 并行智能体正在成为提升AI能力的新方向[16] - 行业预计智能体价格门槛可能被降低[19] 技术架构创新 - 新模型采用混合推理架构 集成思考模式和非思考模式[13] - 实现更高的思考效率 比DeepSeek-R1想得更快[13] - 在工具使用与智能体任务中表现有较大提升[13] 产品发布节奏 - 从去年12月到今年8月 DeepSeek V系列版本号从V3升级至V3.1[9] - 业内原本预期会先推出新一代V系列基础模型 再发布被期待已久的R2[8] - 小版本改进暗藏玄机 实际性能提升显著[10]
英伟达老黄收购了一家AI编程公司
量子位· 2025-09-05 09:49
核心观点 - 英伟达近期收购AI编程初创公司Solver 专注于AI Agent方向 体现公司围绕AI硬件构建软件生态层的战略意图[1][2][4] - 此次收购标志着公司从芯片、数据工具向AI智能体领域的业务版图扩张[23] 收购事件详情 - 收购标的:AI coding公司Solver(前身为Laredo Labs)成立于2022年 专注开发软件编程AI Agent[8][10] - 创始团队:马克·加贝尔(Viv Labs前首席科学家)和丹尼尔·洛德(Siri联合创始人)均具备消费级AI产品开发经验[11] - 技术特点:智能体能管理整个代码库 超越GitHub Copilot等工具的自动补全功能[12][13] - 融资背景:曾获得Radical Ventures等机构800万美元投资[12] 战略布局分析 - 生态构建:通过收购降低芯片使用成本或提供AI支持的初创公司 形成硬件+软件的完整生态[4][5] - 协同效应:整合Solver技术可缩短基于英伟达平台的企业开发周期 开辟AI软件市场新战略支点[17] - 技术演进:AI协作者将从代码补全升级至参与代码库构建、测试与管理的全流程[23] 历史收购案例 - Run:ai:2024年12月以7亿美元收购以色列AI工作负载编排软件提供商[20] - OctoAI:2024年9月以约2.5亿美元收购生成式AI工具公司[20] - Brev:2024年7月收购AI模型构建与部署平台 优化云端GPU访问体验[20] - Lepton AI:2025年3月收购由英伟达芯片驱动服务器租赁公司(阿里前VP贾扬清创立)[18][19] - Gretel:2025年3月收购合成数据初创公司 满足AI训练数据需求[20]
突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻
量子位· 2025-09-05 09:49
技术突破与核心架构 - 北京大学与BeingBeyond团队联合研发的BumbleBee系统通过创新的"分治-精炼-融合"三级架构,首次实现人形机器人在多样化动作中的稳定控制 [2][3] - 该系统旨在解决传统人形机器人控制面临的两大核心挑战:单一任务优化导致的"专家困境"和仿真到现实转换中的"现实鸿沟" [3][6] - 系统通过多专家策略融合的通用策略实现跨动作类型的无缝切换,在MuJoCo仿真环境中任务成功率达66.84%,显著优于其他基线方法(最高仅50.19%)[7][8][11] 技术实现细节 - 采用运动-语义联合驱动的动作分类方法,通过多模态特征构建与联合隐空间对齐,实现动作在运动学与语义层面的双重表征 [5][10] - 运动学特征基于SMPL格式的人类运动序列,通过前向运动学转换为3D关节坐标并补充动态物理量,最后通过Transformer编码 [5] - 语义特征利用BERT模型对动作文本描述进行编码,并通过对比学习将运动与语义特征在同一隐空间对齐,提升聚类结果在运动学与语义上的一致性 [10] 性能验证结果 - 在IsaacGym仿真环境中,BumbleBee的任务成功率为89.58%,关节角误差(MPJPE)为0.1907,关键点误差(MPKPE)为83.30,全面优于基线方法 [8] - 在更接近真实的MuJoCo环境中,BumbleBee的成功率达到66.84%,显著优于其他基线(OmniH2O为15.64%,Exbody2为50.19%)[7][8] - 在Unitree G1真实机器人平台上,系统表现出高稳定性,可完成长程舞蹈任务及托马斯回旋、侧手翻等高难度动作,几分钟连续舞蹈动作成功率100% [9][11] 未来发展方向 - 研究团队计划在多模态感知融合方向进行突破,整合视觉-惯性里程计与触觉反馈以提升动态环境适应性 [14] - 计划实现自然语言指令驱动,通过自然语言指令(如"跳一段欢快的舞蹈")直接生成动作序列 [14]
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
量子位· 2025-09-05 09:49
ZJU REAL Lab 团队 投稿 量子位 | 公众号 QbitAI 无需海量数据标注,智能体也能精确识别定位目标元素了! 来自浙大等机构的研究人员提出 GUI-RCPO ——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding (图形界面定位) 能力。 何谓GUI grounding?为什么要提升这项能力? 简单而言,近年来,以视觉-语言模型为骨架的GUI智能体正在迅猛发展,只需要一句语言指令,它们就能像人一样手眼协同地操作电脑、手 机、网页等界面。 GUI智能体的一个关键能力在于GUI grounding,也就是根据用户给出的自然语言指令,GUI智能体需要在用户界面中精确地识别并定位可操 作的目标元素。 良好的GUI grounding能力可以使得GUI智能体更好地理解图形界面,以及完成更加精准地界面交互。 然而,想要训练这样一种看似简单的能力,却需要大规模高质量的标注数据——当前绝大多数方法动辄需要上百万级的标注数据,而构建这样 的高质量的标注数据需要大量的人工和时间成本。 而GUI-RCPO正好解决了上述问题,其核心原理如下: 通过创新性地将Test-time ...
AI生成苹果Metal内核,PyTorch推理速度提升87%
量子位· 2025-09-04 16:37
文章核心观点 - AI自动生成苹果Metal GPU内核的技术被证明可行,并在实验中显著提升了PyTorch在苹果设备上的推理速度,展示了AI在硬件底层优化方面的潜力 [4][46][52][53][54] 实验设置与方法 - 研究选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型进行测试,包括claude-sonnet-4、claude-opus-4、gpt-4o、gpt-4.1、gpt-5、o3、deepseek-v3、deepseek-r1 [6] - 测试输入来自KernelBench数据集中的215个PyTorch模块,涵盖三个层级:Level 1简单原始操作(91个案例)、Level 2多操作序列(74个案例)、Level 3完整模型架构如AlexNet和VGG(50个案例) [7][8] - 评估指标包括AI生成内核的正确性及其相较于基准PyTorch eager mode的性能提升,测试硬件为配备Apple M4 Max芯片的Mac Studio [9][10] - 测试流程为接收提示和PyTorch代码后生成Metal内核,并验证正确性,编译失败或错误可重试最多5次 [11] 实验结果:正确性与性能 - AI生成内核的正确性随尝试次数增加而提升,例如o3模型第一次尝试有约60%概率得到可用实现,第5次尝试时可用实现比例达到94% [12] - 推理模型非常擅长跨层级生成正确内核 [14] - 性能提升显著,AI生成内核在215个PyTorch模块上实现了平均1.87倍的加速,部分工作负载比基准快数百倍 [3][16] - 具体案例显示,GPT-5在Mamba 25状态空间模型上实现4.65倍加速,o3在某些案例中将延迟提升超过9000倍 [16][17] - GPT-5平均带来约20%的加速,但在34%的问题上生成最优解,另外30%的问题上其他模型生成的解更优,表明无单一模型能在所有问题上都生成最优内核 [17][20][21][23] 智能体群体实验 - 组合多个模型的智能体群体策略实现了比单一模型更高的性能提升,在各层级平均加速31%,在Level 2问题上加速42% [24][25][26][27] - 在仅提供输入问题和提示的情况下,智能体群体已表现良好 [30] - 为智能体提供额外上下文(如优化过的CUDA参考实现和M4芯片的gputrace性能分析信息)后,性能进一步提升,实现了平均1.87倍加速,相较于普通智能体的1.31倍平均加速,提升幅度提高了三倍 [32][38] 技术背景与研究定位 - GPU内核负责将PyTorch函数拆解后的张量运算转换为GPU可执行的低级指令,其性能对运算效率至关重要 [42][43][44][45] - 研究直接对比的是PyTorch eager mode,而非经过ONNX导出和编译优化的部署环境原生格式,因此其重点在于原型验证和展示AI自动生成内核的可行性,而非追求部署环境的最终性能极限 [49][50][51][52][53][54]