量子位
搜索文档
00后MIT华人女生辍学创业,已融1.5个亿
量子位· 2025-08-20 12:33
公司融资情况 - 公司完成总计2100万美元融资,折合人民币1.5亿元 [5][19] - 种子轮由Conviction领投350万美元,A轮由a16z领投1750万美元 [19][20] - 融资资金用于扩大工程和产品团队、推进上市战略及发展合作伙伴生态系统 [21] 公司业务与定位 - 公司定位为RPA界的Copilot,通过LLM和计算机视觉帮助客户构建自动化流程 [2][11] - 用户仅需录制操作流程,系统自动生成机器人脚本,支持桌面和浏览器环境的数据抓取及手动归档 [13] - 系统能从文档中提取、验证和构建数据,支持跨团队协作并实时跟踪工作流程 [13] - 系统可根据用户反馈自动调整逻辑和修正错误,无需编程能力即可编辑自动化流程 [14] 公司业绩与客户 - 公司成立仅两年,收入自年初以来增长五倍,工作流程量环比翻倍 [3][16] - 客户包括世界财富100强企业、AmLaw100强公司及医疗保健和物流领域数十亿美元级领军企业 [3][17] - 已应用于金融服务、法律、保险与医疗等多个行业 [17] 创始人背景 - 联合创始人Jessica Wu为00后,MIT辍学,跨界数学、计算机科学和金融 [6][24][25] - 曾在对冲基金(如Citadel Securities)担任最年轻的量化研究员,并创办过服装设计公司 [6][30] - 联合创始人Neil Deshmukh同为00后,MIT计算机科学背景,专注多模态强化学习和计算机视觉研究 [6][32][34] - 二人分工明确:Jessica Wu负责产品设计、用户体验及市场推广,Neil Deshmukh负责技术落地 [37] 行业趋势与竞争优势 - 公司专注于传统企业的AI自动化流程,通过非技术用户可访问的AI原生架构实现差异化 [8][37] - AI软件服务可为传统行业减少20%-40%工作量,节约成本并提高生产力 [37] - 投资者看好其覆盖多行业非技术用户的普适性能力,而非局限于特定行业 [22][23] 00后AI创业现象 - 00后创业者涌现于AI领域,如金融量化AI、具身智能、AI编程及自动招聘等赛道 [38][39][40][42][43] - 多例00后创始团队来自MIT、斯坦福等名校,并通过辍学专注创业 [6][39][42][43] - 部分企业估值显著,如Cursor母公司估值达99亿美元 [42]
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
量子位· 2025-08-20 12:33
文章核心观点 - 顶级大模型性能优越但成本高昂,使预算有限用户难以承受 [1][2] - 上海人工智能实验室推出Avengers-Pro多模型调度路由方案,通过集成和智能调度8个行业领先模型,实现性能与成本的最优平衡 [3][5][14] - 该方案在多个挑战性数据集上表现卓越,最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%,且成本显著降低 [5][20][22] 技术方案与机制 - 核心机制包括嵌入、聚类和评分三步骤:将用户请求转换为向量,聚类相似任务,评估模型性能-成本综合评分 [15][25] - 动态调整参数α(0-1范围),在追求极致性能(α=1)与极致性价比(α=0)间灵活切换 [17] - 通过实时路由决策,将任务分配给最合适模型,避免资源浪费并提升回复质量 [10][11][15] 性能与成本优势 - 在6个数据集(GPQA-Diamond、Human's Last Exam等)上,平均正确率达0.66,优于最强单模型GPT-5-medium的0.62 [20] - 与GPT-5-medium性能持平时,成本降低27%;达到其90%性能时,成本仅需37% [5][20][21] - 实现与Gemini-2.5-Pro同等性能时,成本仅需19% [5][22] - 在任何成本水平下提供最高准确率,或任何准确率目标下控制最低成本,达到帕累托最优 [5][23] 模型集成与调度 - 集成8个顶尖模型:OpenAI的GPT-5-chat和GPT-5-medium、Anthropic的Claude-4.1-opus和Claude-4-sonnet、Google的Gemini-2.5-pro和Gemini-2.5-flash、阿里的Qwen3系列 [19][26] - 调度策略灵活:倾向成本时多选低成本模型(如Qwen系列),倾向性能时多选高性能模型(如GPT-5-medium) [28][29][30] - 系统在推理时自动归类请求到相关聚类,并分配得分最高模型 [17] 行业意义与前景 - 智能调度路由方案解决大模型领域性能与成本平衡的关键问题 [9][10] - 推动大模型降本增效,满足多样化应用场景需求 [14][31] - 证明在当前生态下,该方案具有突出表现和巨大潜力,未来可能带来更多突破 [32][33]
厉害了,智谱造了全球首个手机通用Agent!人人免费,APP甚至直接操控云电脑
量子位· 2025-08-20 12:33
产品发布与核心功能 - 智谱发布全球首个手机通用Agent AutoGLM 实现云端执行任务 支持跨APP操作如点外卖、比价等[1][5][9] - 产品免费向公众开放 兼容安卓和iOS系统 并可操控云电脑执行复杂任务[6][9][23] - 提供生活助手和办公助手两类任务 用户通过"接管手机"进入云端界面操作[11][15][17] 技术实现与架构 - 采用云端执行模式 不占用本地设备资源 任务流畅且与用户本地操作互不干扰[9][33][37] - 依托智谱开源模型GLM-4.5和GLM-4.5V 整合推理、编码、多模态等能力于单一模型[50][52] - 为每位用户配备云手机和云电脑 预装应用生态 支持数据持久化存储[31][32] 应用场景与案例 - 生活场景:自主完成外卖订购、跨平台比价(如淘宝、京东、拼多多对比200元保温杯)[19][20][21] - 办公场景:自动生成调研报告(参考近100份源文件、输出数千字)及制作PPT[25][26][29] - 支持多设备集成 包括智能音箱、车载系统等 并通过开放API赋能开发者生态[42] 行业意义与趋势 - 解决Agent落地痛点:云端执行规避本地算力限制和高并发任务宕机问题[36][37][53] - 行业竞相布局云端Agent 如阿里云推出无影AgentBay、PPIO推出Agent沙箱产品[38][39][40] - 推动Agent从"信息辅助"向"直接操作"升级 成为处理复杂场景的全能型工具[31][54][55] 公司战略与AGI路径 - AutoGLM是智谱AGI路线图中L3"自主学习智能体"的关键一步 通过真实应用反馈推动模型自我进化[48][49] - 提出3A原则:全时待命(Around-the-clock)、零干扰(Autonomy)、全域连接(Affinity)[56][57] - 目标是通过技术与应用的正向飞轮 夯实公司在Agent领域的领先地位[48][49]
思维链可无限延伸了,MIT等打破大模型上下文天花板
量子位· 2025-08-20 09:13
核心技术突破:TIM架构与TIMRUN引擎 - MIT等机构提出名为Thread Inference Model的新架构,旨在突破大模型的上下文窗口物理限制,理论上可实现无限延伸的思考长度[1][2] - TIM将推理过程建模为递归的子任务树结构,而非传统的线性token序列,每个任务单元包含思考过程、工具使用、子任务列表和结论四个关键组件[11][12] - 配合专用推理引擎TIMRUN,通过动态修剪已完成子任务并仅保留其结论,显著优化内存使用,实验显示可减少超过50%的KV缓存,在AIME 2024任务上剪枝率达64.1%[13] 解决行业核心痛点:上下文窗口限制 - 当前所有顶尖大模型均面临上下文窗口限制的困境,这在处理需要复杂多步骤任务或调用外部工具的现实应用时成为致命短板[5][6] - 传统解决方案如任务切分或历史信息压缩会导致信息完整性损失,TIM架构通过模拟编程时的递归结构实现"潜意识"信息过滤,提供新思路[7][8][10] - TIMRUN引擎实现动态内存管理和位置编码重用,当子任务被剪枝后,系统回收GPU内存页并重新分配位置编码,使模型在固定输出窗口下持续生成新内容[16][17][18] 性能表现与效率优势 - 在MATH500数学推理任务上,TIM-8b模型达到69%的准确率,在更具挑战性的AIME 2024上取得46.7%的成绩[26] - 在BrowseComp深度研究任务上,TIM-large的成功率达到7.8%,显著超过GPT-4o的1.9%[28] - 效率方面,TIMRUN在批量大小为30时吞吐量比基线系统SGLang提高约20%,且随着工具调用次数增加,TIMRUN吞吐量保持稳定而SGLang急剧下降[29][30] 工具调用与系统优化 - TIMRUN推理引擎在运行时内部直接发起工具调用,将传统多智能体系统中O(n²)的token成本复杂度降低到O(n),其中n为推理步骤数[20][21][22] - 实验数据显示,即使进行30多次工具调用,TIMRUN仍能保持稳定的吞吐量[23] - TIM采用结构化生成方式,整个推理过程被编码为JSON字典,通过约束解码确保输出格式正确,使模型可在一次推理中完成多次工具调用[13]
英伟达最新芯片B30A曝光
量子位· 2025-08-20 09:13
新产品开发 - 公司正在开发代号为B30A的新AI芯片 基于最新Blackwell架构 采用单芯片配置 性能比H20型号更强大 [1][2][3] - 芯片原始算力约为旗舰Blackwell架构B300 GPU双芯片配置的一半 [5] - 芯片采用单芯片设计 将所有主要组件集成在一块硅片上 具备高带宽内存和NVLink技术 支持处理器间快速数据传输 [7][8] - 芯片生产速度相较之前快7到30倍 计划下个月开始交付测试 [6][9] - 公司还开发另一款基于Blackwell架构的RTX6000D芯片 配置较低 采用传统GDDR内存 内存带宽1398GB/秒 主要用于AI推理任务 计划9月交付小批量 [17][18][19] 财务表现与市场预期 - 公司股价今年上涨超30% 期间完成4万亿美元市值的历史性时刻 [13] - 多家投行上调股票目标价 有分析师从200美元上调至240美元 为华尔街最高目标价之一 [14][15] - 分析师预计在AI算力需求激增背景下 Blackwell架构提速将使营收与每股收益超预期 市场共识预期第二季度营收458亿美元 每股收益1美元 [15] - 过去几天内公司CEO通过八笔交易卖出15万股股票 套现2710万美元 [16] 战略规划 - 公司表示会根据产品路线图评估产品 [10] - 新产品开发消息在财报发布前夕曝光 [11]
小扎“亿元俱乐部”刚组就被拆!千人AI团队面临裁员,高管也得走
量子位· 2025-08-20 09:13
公司AI部门重组 - Meta在6个月内进行第4次AI部门重组 将AI部门Meta Superintelligence Labs拆分为四个子部门 [2][3] - 新架构包含TBD实验室(负责人Alexandr Wang)、产品与应用研究(负责人Nat Friedman)、基础设施(负责人Aparna Ramani)和基础人工智能研究FAIR(负责人Robert Fergus) [3] - 重组后公司股价连续两日下跌4.29% 一度成为美股科技七巨头中跌幅最大 [3] 组织架构调整细节 - Alexandr Wang担任首席人工智能官并主导重组 直接负责TBD实验室 该部门名称"待定"体现其探索性定位 [7][8][9] - 赵晟佳担任首席AI科学家 老员工需通过其面试以在新架构中定位 [11][12] - 原AGI Foundations Group被解散 其负责人转向Wang汇报 原AI产品组负责人Connor Hayes调任管理Threads [21][23] 人力资源与战略调整 - 重组伴随高管离职和规模缩减 数千人团队面临洗牌 可能裁员或转岗 [24][25][27] - 新老员工存在摩擦 新人获天价薪酬包 老员工面临调整 [28][29] - 公司探索使用第三方AI模型支持产品 包括开源模型和闭源授权 [29] 行业竞争与战略定位 - 频繁重组反映公司在AI军备竞赛中追求速度 通过快速迭代寻找最优解 [4][6] - FAIR实验室多次调整定位 从元宇宙到生成式AI再到AGI 图灵奖得主Yann LeCun从公司首席科学家降级为FAIR部门首席科学家 [30][31]
凌晨战神Qwen又搞事情!新模型让图像编辑“哪里不对改哪里”
量子位· 2025-08-19 15:21
Qwen-Image-Edit核心功能 - 支持点对点图像编辑,包括精准文字修改、新增/消除/重绘元素、IP编辑、视角切换、风格迁移等生成式玩法 [2] - 采用语义与外观双重编辑技术,结合Qwen2-5-VL和VAEEncoder实现视觉语义控制与外观控制 [67] - 在公开基准测试中展现SOTA性能,成为强大的图像编辑基础模型 [69] 原创IP编辑能力 - 以吉祥物卡皮巴拉为原型生成系列衍生形象,保持角色特性同时实现场景化创新 [8][10] - 实测中成功将熊形象调整为体操运动员造型,细节处理精准(手指数量、单杠形变) [11][13] 视角转换技术 - 支持90度/180度多角度旋转,实测WRC小瓦力模型后侧视角转换效果惊艳 [14][16][17] - 对非标准主视图(含俯视角度)仍能保持主体结构完整性 [17][19] 虚拟形象生成 - 可生成动漫/007/恶魔等多风格头像,3D卡通风格下眼镜框细节保留但存在全框化倾向 [20][21][26] - 复杂画风(如热血漫画)会出现线条凌乱现象 [23] 元素新增与修改 - 在颐和园实景照片中添加木质指示牌并生成倒影,高分辨率输入时主动降低输出分辨率 [29][32][34] - 低分辨率漫画测试中效果更优,成功添加"欢迎来到大海"标牌 [37] AI消除与重绘 - 精准去除头发丝等细小元素,支持复杂场景中单一元素颜色修改(如字母a黄变橙) [39][43][45] - 电商场景模拟表现优异,模特换装时手部/头发/光影处理自然 [46][47] 文字编辑技术 - 支持中英文双语编辑,可修改海报大字及细小文字(如AICoding→AIAgent) [49][50][54] - 链式编辑实现书法作品逐字/偏旁级修正,避免整图重生成 [56][60][62] 技术实现特点 - 一次出图即可完成多类编辑,虽存在色调/细节轻微变化但整体效果达标 [64] - 同时满足low-level外观编辑(像素级不变)与high-level语义编辑(整体像素可变)需求 [69]
美国专家来中国转了一圈:AI比赛已经结束了
量子位· 2025-08-19 15:21
中美AI差距分析 - 美国专家Rui Ma认为中美AI竞赛可能已结束,核心差距在于电力能源基建 [1][2][4] - 中国电力供应稳定安全且低成本,被视为已解决的问题,而美国电网老化且审批流程缓慢 [6][22][24][31][33] - 中国发电量达9000TWh(2022年),占全球30%,是美国的两倍 [44] 中国AI发展现状 - 中国AI企业实力雄厚但盈利困难,产品定价较低 [17] - 中国正利用制造业优势将AI融入产业链 [19] - 中国电力备用容量比例达80%-100%,远超美国的15% [37] 美国电力与AI发展瓶颈 - 美国70%输电线路使用超25年,接近寿命终点 [31] - 输电项目审批需10年以上,等待接入电网的项目容量较2020年翻倍 [33][34] - 科技公司短视追求利润,缺乏对能源基建的长期投入 [5][46][48] 行业专家观点 - AI教父Hinton批评硅谷公司短视,忽视AI安全与长期发展 [50][51][56] - 马斯克通过特斯拉虚拟电厂(VPP)尝试缓解电力压力 [40] - 国际能源署预测中美将占2030年全球数据中心电力消耗增长的80% [27] AI与电力需求关系 - ChatGPT日耗电量相当于1.7万美国家庭,模型推理更耗电 [27] - AI发展依赖电力基础设施,电力不足将直接导致竞赛落后 [26][27] - 中国通过核电、水电等可持续能源投资保障电力供应 [22][43]
奥特曼:我承认GPT-5发布搞砸了
量子位· 2025-08-19 15:21
GPT-5发布与用户反馈 - GPT-5发布后引发用户强烈不满,主要因一刀切停用旧型号且未提前通知,后在吐槽声中重新上线GPT-4o [2][16] - 用户实测发现GPT-5能力未达AGI预期,且存在明显缺陷如识别错误(如将5条腿斑马识别为4条腿)[7][8][10] - 核心槽点为交互体验差,被形容为"性格太冷"、"像与加班通宵者对话",缺乏GPT-4o的亲和力 [13][15] - 公司承认推广策略失误,总结教训为"不可仓促为数亿用户同步升级产品" [17][18] 公司战略调整与未来计划 - 计划投入数万亿美元建设数据中心,以支撑每日数十亿用户访问量,目标使ChatGPT成为全球流量第三大网站 [4][21][22][23] - 当前GPU短缺限制更先进模型的部署,需通过基础设施扩建解决 [24] - 秘密资助Merge Labs开发脑机接口,直接对标马斯克的Neuralink [4][25][26] - 暗示可能收购Google Chrome(若监管强制剥离)以扩展生态 [5][27] 行业观点与自我反思 - 承认AI领域存在投资过热现象,但坚持认为AI是长期最重要的技术方向 [29][30][31] - 强调产品设计需平衡功能性与伦理,避免用户形成不健康依赖 [19]
英伟达开源9B参数小模型,比Qwen3快6倍
量子位· 2025-08-19 13:25
小模型技术发展 - 英伟达推出新型小型语言模型Nemotron Nano v2 该9B模型在复杂推理基准测试上准确率与Qwen3-8B相当或更高 速度提升6倍 [1][7] - 模型设计目标为兼顾推理与非推理任务的统一模型 支持"思考"预算控制 用户可指定允许"思考"的token数量 [8] - 模型采用生成推理过程后输出答案的机制 允许跳过中间推理步骤但可能降低复杂推理准确率 展示推理过程可显著提升答案质量 [10][11] 模型性能表现 - 在NeMo-Skills套件测试中 AIME25达72.1% MATH500达97.8% GPQA达64.0% LiveCodeBench达71.1% [16] - 指令遵循和长上下文测试表现优异 IFEval达90.3% RULER 128K测试达78.9% BFCL v3和HLE基准也有提升 [16] - 模型经过FP8精度预训练 使用20万亿token 采用Warmup-Stable-Decay学习率调度 后训练包含SFT/GRPO/DPO/RLHF [19][21] 开源与数据发布 - 公司首次开源用于创建模型的绝大部分数据 包括预训练语料库 [4][23] - 发布两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base和NVIDIA-Nemotron-Nano-9B-v2-Base 均支持128k上下文长度 [22] - 预训练数据集包含66万亿token 分为Nemotron-CC-v2/Nemotron-CC-Math-v1/Nemotron-Pretraining-Code-v1/Nemotron-Pretraining-SFT-v1四个类别 [26][27] 技术实现细节 - 模型压缩后支持在单个NVIDIA A10G GPU(22GiB内存)进行128k token上下文推理 采用基于Minitron的压缩策略 [25] - 通过截断思维链训练解决模型在预设思维链外"思考"的问题 实现精确的思考预算控制 [12] - 预训练阶段计算量达1.45E+24 FLOPS 能耗708.3MWh 后训练阶段计算量7.25E+22 FLOPS 能耗35.6MWh [5] 行业战略布局 - 公司构建Nemotron生态 采取开源策略 近期连续发布Llama Nemotron Super v1.5和Nemotron Nano v2 [29][30] - 开源模型对标国内Qwen3系列 展现与国外科技巨头闭源路线差异化的战略选择 [32] - 模型当前支持在线试用 公司持续强化在AI领域的技术影响力 [22][33]