AI Agent

搜索文档
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 15:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]
这个AI让我躺平,实测首个手机通用Agent:点外卖、做PPT,连工作都能帮我找
虎嗅· 2025-08-20 13:40
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,题图来自:AI生成 每天睁眼后的第一件事是什么?刷手机。 睡前的最后一件事是什么?还是刷手机。 但你有没有算过,每天要在不同App之间切换多少次?淘宝比价、美团点外卖、小红书找攻略——我们的手机里装着几十个App,却要靠十个手指在它们 之间来回奔波。 这些碎片化的时间往往一天下来,足以让我们开始怀疑人生——时间都去哪儿了。 所以当AI Agent浪潮席卷而来时,我们的第一反应就是希望能有一个真正的手机通用Agent。它应该像一个随身助理,不管你在做什么,都随时响应你的 需求,同时能够在后台默默工作,不打断你正在进行的任何事情。 其实早在Manus刷屏之前,智谱就已经在Agent赛道上埋头苦干了。我们之前测过他们的初代AutoGLM,印象还不错。而就在刚刚,智谱再次升级了 AutoGLM Agent功能。 带着这样的疑问,我们想看看这款Agent能否把"手机自动驾驶"这个概念变成现实。 一句话就能让AI帮你打卡追剧点奶茶,AutoGLM Agent开启手机自动驾驶 0:00 / 0:21 据智谱官方介绍,AutoGLM Agen ...
中美AI竞争加剧:OpenAI对手智谱发布智能体应用,奥尔特曼称美国低估中国AI威胁
钛媒体APP· 2025-08-20 13:13
智谱AI产品发布 - 智谱发布全球首个手机Agent智能体应用产品AutoGLM 2.0版本 基于纯国产模型GLM-4.5和GLM-4.5V驱动 具备推理、代码与多模态能力 支持iOS、安卓和网页全平台 [3] - AutoGLM 2.0突破硬件限制 通过Agent+云手机技术在任何设备和场景下运行 实现从"言"到"行"的范式转变 [3][10] - 产品定位C端用户 通过多智能体系统帮助用户平行处理工作和日常任务 实现"1(用户)+N(智能体)"的能力扩展 [3] 技术性能与测试表现 - 在Device Use基准测试中 AutoGLM整体表现优于ChatGPT Agent、UI-TARS-1.5和Claude 4 Sonnet 其中在OSWorld测试中获得48.1分 远超ChatGPT Agent的42.9分 [11][12] - 在Browser Use测试中达到87.7分 在Mobile Use的AndroidWorld测试中获得75.8分 均领先竞争对手 [12] - 技术实现基于端到端异步强化学习突破 结合GLM-4.5系列模型原生能力 支持推理、编码、研究和GUI操作等多类任务 [10] 公司融资与生态布局 - 智谱累计完成约11次融资 总金额超125亿元人民币 投资方包括红杉中国、高瓴资本、阿里巴巴、腾讯等头部机构及多地国资 [7] - 公司定位开放平台 与高通、三星、英特尔、荣耀等硬件厂商合作 在AIPC和智能助手领域落地应用 [9] - 使用成本低于竞争对手 DeepSeek 最低仅需8个英伟达H20芯片即可运行GLM-4.5系列模型 [7] 行业竞争与中美AI发展 - 2024年中国人工智能产业规模超7000亿元人民币 连续多年保持20%以上增长率 截至3月共有346款生成式AI服务完成备案 [5] - OpenAI CEO奥尔特曼表示美国低估中国AI进展 中国在推理和技术探索方面可能更快构建能力 中美AI竞赛复杂度超出简单领先排名 [5][17] - 中国开源模型DeepSeek V3训练成本不到600万美元 性能媲美ChatGPT 促使OpenAI改变模型发布策略并首次推出开放权重模型 [13][17][18] 市场发展与预测 - 2025年被行业称为"智能体爆发年" 百度、阿里、腾讯等互联网大厂密集布局 智能体市场进入协同作战阶段 [7] - 仅2024年上半年就有超50款智能体产品发布 包括字节跳动的扣子空间和360的多智能体蜂群系统 [7] - IDC预测到2027年60%的大型企业将采用协作型智能体系统 业务流程效率提升50%以上 [20]
速递|千亿估值加持,Databricks新一轮融资10亿美元,为Agent时代打造“水与电”
Z Potentials· 2025-08-20 12:19
融资动态 - 公司正以1000亿美元估值完成新一轮融资 规模约10亿美元 由Thrive与Insight Partners共同领投[2] - 公司在1月份以620亿美元估值完成100亿美元融资 运营资金已十分充裕[2] - 自2013年成立以来累计融资约200亿美元[2] 员工持股计划 - 公司已在2025年为员工安排两轮次要融资 允许员工根据持股规模出售40%/50%/60%的股份[2] - 二级市场全部可用资金未用尽 员工保留比预期更多的股份[2] - 员工近期已有两次套现股票机会 公司不急于进行IPO[2] 战略投资方向 - 新一轮融资将用于推进AI Agent数据库及AI Agent平台两个具体项目[3] - 公司将参与AI人才争夺战 招聘AI人才成本高昂[8] 产品布局 - Lakebase数据库于6月年度技术大会发布 基于开源Postgres 具备企业级品质[4] - 产品定位为Supabase竞争对手 支持企业开发者氛围编程项目[4] - 采用分离式计算与存储架构 实现经济高效的大规模数据库创建[6] 市场机遇 - 数据库市场总可寻址规模达1050亿美元 过去40年基本未受挑战[4] - 由AI Agent创建的数据库比例从一年前30%增长至当前80% 预计一年内达99%[4] - AI Agent成为新用户群体 公司重点确保该类用户成功以撬动市场规模[5] AI Agent平台发展 - Agent Bricks平台于6月推出 专注于处理日常事务的智能Agent[6] - 企业需求集中于独立可靠处理日常事务(如员工入职/人力资源答疑)而非超级智能[6] - 该方向被视为对全球GDP和组织机构的重大机遇[7]
中国零售消费行业生成式AI及数据应用研究报告
艾瑞咨询· 2025-08-20 08:05
零售消费行业现状与挑战 - 零售行业从高速增长转向存量竞争阶段 企业亟需通过数字化技术重塑人货场关系[1][2] - 2024年全国社会消费品零售总额约49万亿元 线上销售渠道占比持续提升[6] - 消费者购买理性与专业度上升 企业关注点由流量经济转向会员经济[4] 细分行业竞争格局 - 美妆国货品牌市场份额从2022年43.7%增长至2024年55.7% 通过KOL测评与UGC内容种草快速占领市场[9] - 鞋服行业进入存量博弈阶段 呈现"速生速朽"特征 同质化商品快速充斥渠道[11] - 家居行业受房地产周期影响 从增量开发转向存量优化阶段 加速打造全渠道运营系统[14] 生成式AI应用现状 - 71%的企业将加强数据驱动决策 生成式AI率先在营销客服类场景落地[22] - 营销环节是生成式AI落地最快领域 已采用企业中营销内容生成和智能客服渗透率均超90%[46] - 94%的零售消费企业已应用AI Agent 智能客服和营销内容生成渗透率最高[29] 生成式AI实施模式 - 近90%的企业倾向于引入外部服务商 74%的企业存在多模型调用需求[27] - 模型架构与算法研发环节73%企业选择与厂商合作 仅9%独立负责[28] - 企业更关注能提供多样化模型选择的厂商 74%企业在底层能力构建时选择两种及以上模型方案[28] 生成式AI价值体现 - 91%的企业通过生成式AI实现内容成本降低 降本比例主要集中在30%左右[49] - 超50%企业利用生成式AI与数据精准定位客群 用户沉淀比例多数提升10%到30%之间[57][58] - 生成式AI赋能供应链效率优化约10%-30% 在库存周转环节52%企业已部署相关技术[60] 行业特定应用链路 - 美妆行业整合消费者肤质检测数据等多维度数据 生成定制化产品方案[33] - 鞋服行业通过大数据采集分析实时追踪流行元素变化 生成式AI快速生成契合潮流的设计草图[35] - 家居行业整合线上浏览数据与线下体验反馈 分析消费者家居风格偏好等需求[38] 数据治理与决策优化 - 数据质量是生成式AI落地关键痛点 两者协同实现AI价值最大化[19] - 93%的企业构建知识库并覆盖多场景 生成式AI助力数据治理提质增效[54] - 生成式AI显著强化自然语言理解能力 能深度挖掘多源异构数据间隐含关联[40] 出海拓展战略 - 93%的零售消费企业布局海外业务 亚太、欧洲、北美洲为主要目的地[64] - 生成式AI成为突破语言与文化壁垒的关键工具 通过智能翻译等实现本地化营销[67] - 家居企业加速拓展海外市场 从过去代工模式转向建设海外自有品牌[14] 云服务支撑体系 - 公有云服务商提供从基础资源到开发平台的全面赋能 降低生成式AI应用门槛[24] - 云厂商依托算力规模与算法迭代优势 可高效满足企业多模型调用需求[27] - 综合型云服务商具备电商渠道资源和平台搭建能力 全方位满足企业出海需求[67]
Z Event|大厂的同学下班一起聊AI?线下局深圳8.23、新加坡8.28
Z Potentials· 2025-08-19 23:03
招募活动 - 公司正在深圳和新加坡举办两场关于AI Agent主题的小型聚餐活动 分别计划招募8-10人和6-8人 目标人群为大厂员工 创业公司产品技术人员及创业者 [4] - 活动旨在促进交流想法 分享经验和拓展人脉 报名采取先到先得机制 截止时间为活动前一日晚8点 [4] - 公司会根据参与者背景和诉求进行合理组合 确保活动效果 [4] 公司定位 - 公司定位为AI时代中国年轻版的YC 专注于寻找有创造力的00后创业者 [6] - 公司业务涉及多个领域 包括Z Finance和Z Lives等 [5]
深度|Agent 全球爆发,Agent Infra是否是搭上这趟快车的关键?
Z Potentials· 2025-08-19 23:03
AI Agent 引爆元年 - 京东云开源业内首个"完整产品级"通用多智能体系统JoyAgent-JDGenie,在GAIA基准测试中取得75.15%整体准确率,显著超越同类产品[2] - Flowith发布革命性Agent产品Neo,支持"三无限":无限步骤执行复杂任务、无限上下文支持百万token记忆、无限工具并行调用[2] - KPMG推出Workbench多Agent平台,初期部署50个智能体并计划扩展至近千个,服务于税务/审计/咨询等领域[2] - AI Agent正从单一对话工具向主动执行任务/联动服务/实时反馈的"数字生产力"转型[3] AI Agent落地四大痛点 - 稳定性问题:算力波动/调用延迟/数据获取超时导致执行链路断裂,缺乏高可用云节点和弹性算力调度[4] - 数据质量差:内部文档分散/多版本冗余/缺乏标准化,实时数据更新不及时[5][6] - 模型管理分散:缺乏统一接入平台,版本切换慢/策略路由缺失/推理延迟高[7] - 调试监控困难:跨云跨系统缺乏全链路可观测性,金融/医疗等场景合规部署阻力大[8] Agent Infra关键能力 - 需提供稳健执行环境/高效模型管理/多样工具调用/精准数据供给和安全合规[8] - 小宿科技构建三层Infra:IaaS层提供全球化云服务,MaaS层实现模型聚合管理,DaaS层提供智能搜索与数据服务[12] - 打通"可靠运行环境+可控模型治理+高质量实时数据"的Agent运行逻辑[14] 联网检索+实时数据接入 - AI Agent需实时获取最新政策/新闻/市场动态以支撑决策,LLM知识滞后问题需联网搜索解决[15][17] - RAG技术实现检索增强生成流程,先检索信息再生成专业回答[19] - 企业级Agent需持续获取外部联网数据保持实时性/高效性/准确性,应用于客服/市场分析/金融投资等场景[21][22] 小宿智能搜索优势 - 月调用量达数亿次,服务近千家企业[23] - 支持35+语言和多模态检索,符合GDPR/CCPA等法规[25][26] - 提供长摘要总结和结构化输出,自动高亮关键信息[27] - 在44%查询中优于主流搜索引擎,SLA达99.9%[28][31]
速递|种子轮融资500万美元,Paradigm配备超5000个AI智能体表格
Z Potentials· 2025-08-19 23:03
公司产品与定位 - 公司开发了配备5000多个AI智能体的智能电子表格Paradigm 支持用户为不同列和单元格分配专属指令 AI智能体会自动爬取网络查找并填充信息[3] - 产品支持Anthropic、OpenAI和Google Gemini的AI模型 并能进行模型切换 旨在提供最高质量推理输出和最经济方案[3] - 采用基于使用量的分级订阅模式 吸引了从咨询顾问到销售专员及财务人员等各类用户[3] - 公司不将自身视为AI驱动的电子表格 而是一种新型AI驱动的工作流 采用电子表格形式但未来形态可能变化[5] 融资与商业进展 - 公司完成由General Catalyst领投的500万美元种子轮融资 迄今融资总额达700万美元[3] - 早期客户包括咨询公司安永、AI芯片初创企业Etched以及AI编程公司Cognition[4] - 部分被推介对象持续付费使用产品 包括投资方及未参与投资的潜在投资人[4] 行业竞争环境 - 竞争对手包括成立3年的初创企业Quadratic 已获得超过600万美元风投 拥有相似目标[4] - 传统企业如谷歌和微软也正在为其电子表格应用添加AI工具[4]
“Agent大战”,单个智能体已成“过去式”
21世纪经济报道· 2025-08-19 22:04
行业趋势 - AI Agent行业进入"协同作战"新阶段 互联网大厂密集布局 Multi-Agent协同系统成为焦点 [1][2][3] - 2025年被称为"智能体爆发年" 仅上半年就有超过50款智能体产品密集发布 [3] - 到2027年60%的大型企业将采用协作型智能体系统 业务流程效率提升50%以上 [3] 技术发展 - Multi-Agent架构将复杂问题拆分为子任务 由多个专业Agent分工处理 实现系统性交付 [2] - 智能体需要具备规划 记忆和工具使用三个核心功能 满足用户端到端需求 [1] - 多智能体系统在软件开发领域可扮演不同角色 在工业制造领域实现生产流程自动化和智能化 [3] 产品性能 - 百度GenFlow2.0支持超100个Agent同时工作 最快3分钟内并行完成超过5项复杂任务 [1][2] - GenFlow2.0整合百度文库14亿条公域数据 并接入网盘私域数据搭建用户记忆库 [2] - 产品支持PPT制作 视频绘本创作 代码编写 网站搭建 小游戏开发等多模态任务 [2] 市场应用 - 用户期待AI Agent能理解需求 分解任务并协调执行 完成复杂决策场景 [1] - 字节跳动扣子空间支持飞书 高德地图等14种插件调用 [3] - 360推出"多智能体蜂群" 被定位为生产力迈入"成果交付时代"的关键节点 [3]
Agent大战”,单个智能体已成“过去式
21世纪经济报道· 2025-08-19 21:56
AI Agent市场发展现状 - AI Agent行业迎来集中爆发,各类通用和垂直领域Agent产品成为焦点,标志着"AI Agent元年"的到来 [1] - 互联网大厂如百度、阿里、腾讯、字节、360等密集布局,推动市场从"单兵作战"进入"协同作战"新阶段 [1] - 2025年被称为"智能体爆发年",仅上半年就有超过50款智能体产品密集发布 [3] Multi-Agent协同系统的优势 - Multi-Agent系统通过专业化分工和协同提升整体效率与质量,能够处理复杂和动态任务 [2] - 百度GenFlow2.0支持超100个Agent同时工作,最快3分钟内并行完成5项复杂任务,如PPT制作、代码编写等 [1][2] - 在软件开发领域,Multi-Agent可分别扮演产品经理、UI设计师等角色,提高效率和质量;在工业制造领域,实现生产流程自动化和智能化 [2] 用户需求与技术挑战 - 用户期待AI Agent能理解需求、分解任务并协调执行,完成复杂决策场景如PPT制作、高考志愿填报等 [1] - 通用Agent难以精通跨领域技能,导致单Agent处理复杂任务时效率不足、准确性不高,存在"描述难、结果差"痛点 [1] - AI产业需聚焦最终成果交付,而非工具概念,GenFlow2.0整合百度文库14亿条公域数据和网盘私域数据,以交付个性化结果 [2] 行业前景与大厂布局 - IDC预测到2027年60%的大型企业将采用协作型智能体系统,业务流程效率提升50%以上 [3] - 字节跳动扣子空间支持14种插件调用,360的"多智能体蜂群"被视为生产力进入"成果交付时代"的关键节点 [3] - AI变革仍处早期,战局需时间明朗,大厂从AI大模型到智能体协作的布局考验战略定力和技术实力 [3]