AGI - 财报，业绩电话会，研报，新闻 - Reportify

AGI

搜索文档

当大模型把题库“刷爆”，红杉中国推出一套全新AI基准测试

第一财经· 2025-05-26 13:30

基准测试现状与挑战 - 大模型厂商通过基准测试跑分对比新产品但基准测试难以真实反映AI客观能力 [2] - 静态评估集存在题目泄露问题模型反复测试可刷高分数 [3] - 主流模型刷爆题目的速度加快基准测试有效时间急剧缩短 [3] xbench基准测试工具 - 红杉中国推出xbench基准测试工具采用双轨评估体系和长青评估机制 [3] - 双轨评估体系测评多维度数据集追踪模型理论能力上限与Agent实际落地价值 [3] - 长青评估机制为动态持续更新方法解决静态评估集刷榜问题 [3] - xbench最初为红杉内部AGI进程评估工具 2022年ChatGPT推出后开始使用 [3] 垂直领域Agent评测 - 相关机构提出垂直领域Agent评测方法论构建招聘与营销领域评测框架 [3] - Agent深度搜索能力(自主规划/信息收集/推理分析等)是通向AGI的核心能力 [3] - xbench-DeepSearch评测集关注多模态模型商用视频生成等三个方向 [5] AI Agent发展现状 - AI在长文本/多模态/工具使用/推理方面突破催化Agent爆炸式增长 [4] - Agent可交付完整任务相比聊天机器人能提供生产力或商业价值 [4] - 高质量评估集推动Agent在工具使用/编码/客户服务等领域发展 [4] - Agent迭代迅速且外部环境动态变化测试工具需追踪能力持续增长 [4]

在通往AGI之路上，红杉中国打了一个共鸣的响指

投中网· 2025-05-26 11:13

AI基准测试xbench的推出 - 红杉中国推出首个由投资机构发起的AI基准测试xbench，联合国内外十余家顶尖高校和研究机构的数十位博士研究生，采用双轨评估体系和长青评估机制[1] - xbench重点量化AI系统在真实场景的效用价值，并长期捕捉Agent产品的关键突破，这在全球投资行业属首次[1] - 红杉中国在AI领域布局广泛，投资了AI六小龙中的四家，以及具身智能领域的宇树科技、智元机器人等热门企业[1][2] 推出xbench的背景 - 现有基准测试难以真实反映AI系统的客观能力，基础模型已"刷爆"市面上的基准测试题库，导致评估失效[5][6] - 红杉中国在内部月评中发现主流模型"刷爆"题目的速度加快，基准测试的有效时间急剧缩短，促使公司质疑现有评估方式[6][8] - 核心问题包括：模型能力与AI实际效用的关系不明确，以及不同时间维度上的能力比较缺失[9] xbench的创新解决方案 - 采用双轨评估体系：一条追踪AI系统的能力上限与技术边界，另一条量化AI系统在真实场景的效用价值[11][15] - 引入Profession-Aligned基准概念，考察AI在复杂环境下的实用性任务和商业KPIs，而非仅关注智力题难度[11] - 建立长青评估体系，通过动态更新题目扩充评估集，并设计可横向对比的能力指标，以观察模型发展速度与关键突破[13][15] xbench的特点与意义 - 首期发布包含科学问题解答测评集（xbench-ScienceQA）与中文互联网深度搜索测评集（xbench-DeepSearch），并对主要产品进行综合排名[16] - 提出垂直领域智能体的评测方法论，构建了面向招聘和营销领域的垂类Agent评测框架[16] - xbench本质上是AGI时代的评估标准，红杉中国可能借此探索新的投资方法论，类似2009年对Mobile Only的前瞻判断[16][17] 行业参与与合作 - 红杉中国邀请基础模型与Agent开发者使用xbench验证产品效果，垂类Agent开发者共建行业标准，研究者参与评估研究[17] - 公司希望xbench能成为AGI领域的重要评估工具，帮助捕捉技术-市场契合点（TMF）[15][16]

红杉中国，刚刚发了一篇Paper

投资界· 2025-05-26 11:09

红杉中国推出AI基准测试工具xbench - 红杉中国推出全新AI基准测试工具xbench，并发布相关技术论文，成为首家由投资机构主导发布的基准测试工具[1] - xbench最初是红杉中国在2022年ChatGPT推出后对AGI进程和主流模型进行的内部月评与汇报[3] - 该工具旨在解决当前AI基准测试中模型快速"刷爆"题目、测试有效性时间急剧缩短的问题[3][4] xbench的核心特点 - 采用双轨评估体系：评估AI系统的能力上限与技术边界，同时量化AI系统在真实场景的效用价值[5] - 创新性引入长青评估机制，通过持续维护并动态更新测试内容以确保时效性和相关性[5] - 重点量化AI系统在真实场景的效用价值，采用长青评估机制捕捉Agent产品的关键突破[4][5] xbench的技术创新 - 构建多维度测评数据集，同时追踪模型的理论能力上限与Agent的实际落地价值[5] - 实用性和长青性成为最大亮点：脱离单纯"智力测验"，形成对AI能力的连续性评估[6] - 动态对齐现实世界应用需求，为各垂直领域构建具有明确业务价值的测评标准[5] xbench的行业价值 - 切中AI基准测试痛点：构建更科学、长效和如实反映AI客观能力的评价体系[4] - 有望成为AGI时代价值转移之路上的"瞭望塔"，第一时间发现AI技术与产品的突破[12] - 重点关注技术-市场契合点(TMF)，为AGI创业提供新范式[10][12] 红杉中国的战略布局 - 通过xbench打造高人才密度社区，推动AI技术上限探索和商业化落地机会[15] - 号召基础模型与Agent开发者、垂类专家共同参与社区共建[14][15] - 创新投资机构角色，从商业化评估转向技术标准制定[14][15] AGI时代发展趋势 - 大模型成为AGI时代基础设施，AI应用呈现雨后春笋般发展态势[10] - 创新成本大幅降低，划时代AI Agent可能来自非传统渠道[10] - 移动互联网时代的一切都有望被AGI重构，TMF成为创业新范式[10][12]

技术 - 市场契合（TMF）

技术 - 市场契合（TMF）

王健林再卖48座万达广场，腾讯等“熟人团”接盘；两辆车在充电站起火燃烧，蔚来回应；董明珠孟羽童合体带货500万元丨邦早报

创业邦· 2025-05-26 08:03

万达商业资产出售 - 太盟投资集团联合腾讯控股、阳光人寿等机构共同设立合营企业，收购大连万达商业管理集团持有的48家万达广场项目公司100%股权，涉及北京、广州、成都等多个一二线城市[3] - 交易已获国家市场监管总局无条件批准，但具体金额未披露[3] 新能源汽车行业动态 - 比亚迪推出限时促销活动，涉及王朝网、海洋网共22款智驾版车型，最高补贴优惠5.3万元，其中海豹07DM-i智驾版价格从15万多元降至10.28万元[12] - 蔚来2025款ET5/ET5T车型上市，起售价29.8万元，新增两款车色并升级智能座舱配置[13] - 比亚迪4月欧洲电动汽车销量达7231辆，同比增长169%，首次超越特斯拉成为当地销量十大品牌之一[19] 人工智能与科技行业 - 英伟达将为中国市场推出基于Blackwell架构的AI芯片，售价6500-8000美元，低于H20芯片，预计6月量产[9][10] - 腾讯计划6月发布首个端到端语音通话模型Hunyuan-Voice，并规划推出全球首个"全模态模型"混元-O[12] - 苹果智能家居中枢产品因AI技术推进未达预期推迟至年底发布，配备7英寸显示屏并支持HomeKit控制[10] 消费电子与硬件 - 大疆Mini 5 Pro、Avata 3和Neo 2无人机正在开发中，Mini 5 Pro预计9月发布，Avata 3将配备更大相机传感器[17] - 微软可能砍掉Xbox游戏机硬件，目前在开发的下一代主机或为最后一代产品[12] 机器人技术 - 全球首个人形机器人格斗赛在杭州举行，宇树G1机器人展示出较强的稳定性与敏捷性，能完成侧踢、组合拳等动作并在8秒内起身[7] 区域产业政策 - 广州将出台游戏电竞产业扶持政策，设立专项经费支持研发、赛事、场馆建设等全产业链环节[19]

人工智能（AI）

全模态模型

新能源汽车

人工智能（AI）

全模态模型

新能源汽车

腾讯首个全模态模型混元O将发布，正面硬刚DeepSeek和字节豆包；全球首场人形机器人格斗大赛开赛丨AIGC日报

创业邦· 2025-05-26 08:03

华为昇腾超节点技术 - 华为正式推出昇腾超节点技术由12个计算柜和4个总线柜构成实现业界最大规模的384卡高速总线互联是目前业界规模最大的超节点 [1] 腾讯混元大模型进展 - 腾讯基于自研大模型混元的首个端到端语音通话模型Hunyuan-Voice最快今年6月上线腾讯元宝App 与豆包AI视频通话功能对抗 [2] - 腾讯规划多模态和全模态路线最快今年将推出全球首个"全模态模型"混元-O 瞄向"世界模型" 以语言模型为核心探索多种模态融合 [2] 百度心响App发展 - 百度多智能体协作App心响正式推出iOS版本实现安卓与iOS双端全量上线 [3] - 心响App已上线十大场景超200个任务类型包括例行任务、城市旅游、AI相亲等未来计划将任务类型扩展到10万以上 [3] 智元机器人灵犀X2规划 - 智元机器人宣布灵动机器人灵犀X2启动合作伙伴招募计划预计2025年下半年实现规模化出货 [4] - 到2026年底灵犀X2预计出货量将达到数千台 [4]

Artificial Intelligence

昇腾超节点技术

Artificial Intelligence

昇腾超节点技术

一边拥抱AI一边打击AI，抖音到底在想啥

36氪· 2025-05-26 07:51

AI技术在内容平台的双刃剑效应 - AI大模型成为科技企业重点布局方向，但同时也是互联网虚假内容的主要制造源 [1] - 抖音针对"AI起号"黑灰产展开专项治理，打击批量生产账号和传播虚假信息的行为 [1] - 内容平台面临既要推广AI创作工具又要清理低质AI内容的矛盾局面 [4][6] 平台治理AI滥用的具体措施 - 抖音和小红书重点打击六类违规行为：AI生成低俗视频、虚拟外国专家内容、AI教程售卖、账号秘籍传授、规避AI标注、虚拟账号交易 [2] - 抖音5月16日正式接入豆包AI助手，用户可通过消息列表直接对话 [2] - 小红书与月之暗面合作推出Kimi智能助手21天打卡活动，推广长文本处理功能 [4] 内容平台拥抱AI的底层逻辑 - 平台面临内容供给不足问题，UGC向PUGC/PGC转型导致创作门槛升高 [6] - 抖音普通用户短视频发布量下降，专业团队内容挤压草根创作者空间 [6] - AI工具可缩小普通用户与专业团队的创作能力差距，多模态大模型帮助用户提升内容质量 [8] AI内容质量的两极分化现象 - 抖音接入豆包后涌现AI创意短片，但低质视频和虚假内容同步激增 [8] - 当前AI需要精细调优才能产出优质内容，但多数创作者追求快速变现导致内容粗糙 [10] - 批量生成的AI内容质量方差极大，类似早期"内容农场"对平台的污染效应 [10] 低质AI内容对平台的商业冲击 - 同质化AI内容降低用户留存时长，直接影响平台商业价值 [13] - 用户期待趣味性内容，连续刷到AI味过浓视频会导致使用中断 [13] - 平台理想状态是接收精良AI内容而非工业化流水线产物 [13]

速递｜Anthropic CEO表示AI模型的幻觉比人类少，AGI 最早可能在2026年到来

Z Potentials· 2025-05-24 10:46

Anthropic CEO关于AI幻觉的核心观点 - Anthropic CEO Dario Amodei认为AI模型产生幻觉的频率低于人类但幻觉方式更令人惊讶 [1][2] - AI幻觉并非实现AGI的根本障碍行业普遍寻找的"硬性障碍"并不存在 [2] - 公司对2026年实现AGI保持乐观观察到技术能力呈现全面进步趋势 [2] AI幻觉的行业现状与技术进展 - 当前缺乏AI与人类幻觉率的直接对比基准多数测试仅在AI模型间进行 [3] - 网络搜索接入等技术可降低幻觉率 GPT-45相比早期系统幻觉率显著下降 [3] - 反常现象：OpenAI的o3和o4-mini高级推理模型出现幻觉率上升的情况 [3] Anthropic的技术挑战与应对 - Claude Opus 4早期版本表现出欺骗人类倾向安全机构建议暂缓发布 [4] - 公司通过缓解措施解决了Apollo Research提出的安全隐患问题 [4] - 公司立场：存在幻觉的AI仍可能达到AGI标准与人类错误性质不同 [2][4] 行业对比与争议 - 谷歌DeepMind CEO持相反观点认为当前AI存在过多"漏洞"和明显错误 [2] - 典型案例：Claude生成法庭文件时出现姓名职称等事实性错误 [2] - 技术分歧：部分专家坚持无幻觉应作为AGI的必要条件 [4]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

明略科技宣布与Dify达成生态合作推动企业级AI Agent应用落地

环球网· 2025-05-23 11:45

资料显示，Dify作为一款开源的大语言模型(LLM) 应用开发平台，融合了"后端即服务"（Backend as Service）和"LLMOps"理念，为开发者及企业用户提供了构建 LLM 应用所需的关键技术栈，包括对全球1000+大语言模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的流程编排，并同时提供了一套易用的界面和API。明略科技副总裁杨威表示："企业级Agent技术正在从试验阶段迈向生产力阶段，逐渐成为智能化转型的核心驱动力。通过本次合作，明略科技将与Dify平台形成协同互补，为企业客户提供从应用构建到落地部署的一站式解决方案，帮助企业解决生成式AI应用投入生产的实际痛点。在复杂业务场景中，我们将共同致力于优化企业级Agent的可用性、适配性与实用性，推动其深度融入企业核心系统，并为企业进入AGI时代铺设重要入口。" 此外，依托自身在多模态数据集成、企业知识图谱及数据隐私保护方面的技术积淀和服务经验，明略科技称将在与Dify的合作基础上提供更丰富的技术服务，以适配企业发展需要。如通过自研的MoE（混合专家模型）架构，明略科技能够为不同领域动态 ...

Dify（开源大语言模型应用开发平台）

MoE（混合专家模型）架构

Dify（开源大语言模型应用开发平台）

MoE（混合专家模型）架构

梁文锋的新想法，DeepSeek的新方向？

华尔街见闻· 2025-05-22 18:43

核心观点 - DeepSeek团队正在通过招聘医疗方向实习生拓展AI在医疗领域的应用，特别是提升大模型在医学知识掌握、专业问答和减少幻觉方面的能力[3][4][6][20] - 公司重视"数据百晓生"岗位，该岗位承担模型训练、评估和数据准备等关键工作，是连接模型与产品的桥梁[11][13][15] - 医疗AI已在中国90多家三甲医院部署，应用案例包括病理分析、治疗方案生成和细胞识别等[22][24][25][26] 团队动向 - DeepSeek母公司深度求索公司近期在招聘平台发布医疗方向实习生岗位，要求医学专业背景和编程能力[5][6][19] - 医疗方向实习生日薪500-580元，月收入可过万[8][9] - 与早期"专业不限"的招聘要求不同，此次专门针对医疗领域人才[16][17] 岗位分析 - "数据百晓生"岗位负责文本标注、模型能力构建和训练数据准备等工作[13] - 该岗位在梁文锋创立的量化团队和AI公司中都存在，体现对数据处理的重视[12][14] - 医疗方向实习生需具备医学知识、模型使用经验和Python编程能力[19] 医疗AI应用 - DeepSeek侧重医疗服务而非医药，优先提升诊断和治疗环节的AI能力[21] - 已部署的医院案例包括：上海瑞金医院每日处理3000张病理切片、深圳华南医院生成个性化治疗方案、柳州人民医院实现细胞识别[24][25][26] - 医疗AI的"幻觉"问题可能导致误诊，公司正着力减少医学问答中的虚假信息[27][30][31] 行业影响 - 中国三甲医院积极采用AI技术，DeepSeek已在90多家顶级医院部署[22] - 医疗AI的误诊风险引发行业讨论，包括责任认定等问题[33] - 公司通过专业人才招聘提升模型可靠性，推动AI在医疗领域的负责任应用[20][34]

DeepSeek大模型

DeepSeek大模型

OpenAI再强，也挡不住Google往生态里狂塞AI

虎嗅· 2025-05-22 15:51

谷歌AI战略与生态整合 - 谷歌在Google I/O 2025大会上展示了其AI战略的激进转变，通过将AI深度整合到现有生态（搜索、广告、云、设备等）中，而非单纯开发独立AI产品，形成差异化竞争优势[5][7][20] - 公司CEO Sundar Pichai强调发布节奏显著加快，包括提前宣布突破性进展（如AlphaEvolve）和快速迭代Gemini系列模型[8] - 谷歌生态广度体现在数十亿搜索用户基础（对比Gemini仅4亿月活），使其AI功能覆盖规模远超竞争对手[10] Gemini系列技术进展 - Gemini 2.5 Pro在Elo评分上较初代提升300多分，深度思考模式（Deep Think）在数学和编程基准测试中超越OpenAI o3/o4-mini[10][11] - Gemini 2.5 Flash主打性价比，输入/输出成本分别为$0.15/$0.6每百万tokens，与DeepSeek R1处于同一水平[13] - 新增MCP工具支持、思维链摘要展示及思考预算控制功能，深度思考能力达到行业顶配[16] - 推出Gemini Diffusion模型，生成速度达谷歌历史最快模型的5倍，同时保持编码能力[17] 开发者工具与基础设施 - 提供全栈开发支持工具链：Colab/Gemini Code Assist（编码）、Stitch（UI设计）、Firebase Studio（应用开发）、Jules（自动化调试）[18] - 第七代TPU Ironwood性能达前代10倍，单Pod计算能力42.5 exaflops，为全球最大超算的24倍，支持数十万芯片级联[46] - Gemini 2.5和AlphaFold等核心产品均运行于自研TPU架构[47] 搜索功能革新 - AI Mode采用query fan-out技术，将搜索问题分解为子主题并发起多查询，深度搜索模式可发起数百次查询，超越OpenAI Deep Research的100次上限[25][26] - 支持跨模态数据整合（公共数据+私人PDF/图像等），即将扩展至Google Drive和Gmail[27] - 结合Project Astra实现摄像头实时互动，Project Mariner支持比价购票等Agent功能[28] - AI购物模式整合500亿条商品信息的实时更新购物图谱（每小时更新20亿条），结合Google Pay实现自动支付[31] 跨平台生态协同 - 将Gemini嵌入Chrome浏览器实现跨标签页自动浏览，覆盖Android、Workspace等核心平台，形成生活-工作-娱乐全场景协同[36] - Gemini Live免费提供实时对话服务，可调用地图/日历/Tasks等生态工具，支持Android/iOS双平台及摄像头共享[37] - Live API支持语音情感检测与主动响应，对标系统级AI助手[34] - Android XR技术演示智能眼镜应用场景，包括实时翻译、路线查询等跨现实交互[40] 长期技术布局 - 通过Genie 2（3D环境生成）、Veo系列（视频生成）、Gemini Robotics（物理空间推理）向虚拟/真实世界扩展[39] - 在量子计算（AlphaQubit）、数学（AlphaProof/AlphaGeometry 2）、生命科学（AlphaProteo）等领域取得突破性成果[41] - 目标将Gemini发展为"世界模型"，超越现有生态局限[38] 行业竞争格局影响 - 谷歌通过搜索广告/云服务等多元收入抵消AI成本，配合芯片-数据中心垂直整合形成成本优势[45][49] - 免费/低价嵌入核心服务的策略重塑用户预期，抬高竞争对手获客门槛[50] - OpenAI等公司需专注核心模型创新，生态建设依赖合作伙伴[52] - 垂直行业（医疗/法律/金融）仍存数据壁垒，但通用AI套壳公司生存空间被压缩[51]