AGI
搜索文档
当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
第一财经· 2025-05-26 13:30
基准测试现状与挑战 - 大模型厂商通过基准测试跑分对比新产品 但基准测试难以真实反映AI客观能力 [2] - 静态评估集存在题目泄露问题 模型反复测试可刷高分数 [3] - 主流模型刷爆题目的速度加快 基准测试有效时间急剧缩短 [3] xbench基准测试工具 - 红杉中国推出xbench基准测试工具 采用双轨评估体系和长青评估机制 [3] - 双轨评估体系测评多维度数据集 追踪模型理论能力上限与Agent实际落地价值 [3] - 长青评估机制为动态持续更新方法 解决静态评估集刷榜问题 [3] - xbench最初为红杉内部AGI进程评估工具 2022年ChatGPT推出后开始使用 [3] 垂直领域Agent评测 - 相关机构提出垂直领域Agent评测方法论 构建招聘与营销领域评测框架 [3] - Agent深度搜索能力(自主规划/信息收集/推理分析等)是通向AGI的核心能力 [3] - xbench-DeepSearch评测集关注多模态模型商用视频生成等三个方向 [5] AI Agent发展现状 - AI在长文本/多模态/工具使用/推理方面突破 催化Agent爆炸式增长 [4] - Agent可交付完整任务 相比聊天机器人能提供生产力或商业价值 [4] - 高质量评估集推动Agent在工具使用/编码/客户服务等领域发展 [4] - Agent迭代迅速且外部环境动态变化 测试工具需追踪能力持续增长 [4]
在通往AGI之路上,红杉中国打了一个共鸣的响指
投中网· 2025-05-26 11:13
AI基准测试xbench的推出 - 红杉中国推出首个由投资机构发起的AI基准测试xbench,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制[1] - xbench重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品的关键突破,这在全球投资行业属首次[1] - 红杉中国在AI领域布局广泛,投资了AI六小龙中的四家,以及具身智能领域的宇树科技、智元机器人等热门企业[1][2] 推出xbench的背景 - 现有基准测试难以真实反映AI系统的客观能力,基础模型已"刷爆"市面上的基准测试题库,导致评估失效[5][6] - 红杉中国在内部月评中发现主流模型"刷爆"题目的速度加快,基准测试的有效时间急剧缩短,促使公司质疑现有评估方式[6][8] - 核心问题包括:模型能力与AI实际效用的关系不明确,以及不同时间维度上的能力比较缺失[9] xbench的创新解决方案 - 采用双轨评估体系:一条追踪AI系统的能力上限与技术边界,另一条量化AI系统在真实场景的效用价值[11][15] - 引入Profession-Aligned基准概念,考察AI在复杂环境下的实用性任务和商业KPIs,而非仅关注智力题难度[11] - 建立长青评估体系,通过动态更新题目扩充评估集,并设计可横向对比的能力指标,以观察模型发展速度与关键突破[13][15] xbench的特点与意义 - 首期发布包含科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对主要产品进行综合排名[16] - 提出垂直领域智能体的评测方法论,构建了面向招聘和营销领域的垂类Agent评测框架[16] - xbench本质上是AGI时代的评估标准,红杉中国可能借此探索新的投资方法论,类似2009年对Mobile Only的前瞻判断[16][17] 行业参与与合作 - 红杉中国邀请基础模型与Agent开发者使用xbench验证产品效果,垂类Agent开发者共建行业标准,研究者参与评估研究[17] - 公司希望xbench能成为AGI领域的重要评估工具,帮助捕捉技术-市场契合点(TMF)[15][16]
红杉中国,刚刚发了一篇Paper
投资界· 2025-05-26 11:09
红杉中国推出AI基准测试工具xbench - 红杉中国推出全新AI基准测试工具xbench,并发布相关技术论文,成为首家由投资机构主导发布的基准测试工具[1] - xbench最初是红杉中国在2022年ChatGPT推出后对AGI进程和主流模型进行的内部月评与汇报[3] - 该工具旨在解决当前AI基准测试中模型快速"刷爆"题目、测试有效性时间急剧缩短的问题[3][4] xbench的核心特点 - 采用双轨评估体系:评估AI系统的能力上限与技术边界,同时量化AI系统在真实场景的效用价值[5] - 创新性引入长青评估机制,通过持续维护并动态更新测试内容以确保时效性和相关性[5] - 重点量化AI系统在真实场景的效用价值,采用长青评估机制捕捉Agent产品的关键突破[4][5] xbench的技术创新 - 构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值[5] - 实用性和长青性成为最大亮点:脱离单纯"智力测验",形成对AI能力的连续性评估[6] - 动态对齐现实世界应用需求,为各垂直领域构建具有明确业务价值的测评标准[5] xbench的行业价值 - 切中AI基准测试痛点:构建更科学、长效和如实反映AI客观能力的评价体系[4] - 有望成为AGI时代价值转移之路上的"瞭望塔",第一时间发现AI技术与产品的突破[12] - 重点关注技术-市场契合点(TMF),为AGI创业提供新范式[10][12] 红杉中国的战略布局 - 通过xbench打造高人才密度社区,推动AI技术上限探索和商业化落地机会[15] - 号召基础模型与Agent开发者、垂类专家共同参与社区共建[14][15] - 创新投资机构角色,从商业化评估转向技术标准制定[14][15] AGI时代发展趋势 - 大模型成为AGI时代基础设施,AI应用呈现雨后春笋般发展态势[10] - 创新成本大幅降低,划时代AI Agent可能来自非传统渠道[10] - 移动互联网时代的一切都有望被AGI重构,TMF成为创业新范式[10][12]
王健林再卖48座万达广场,腾讯等“熟人团”接盘;两辆车在充电站起火燃烧,蔚来回应;董明珠孟羽童合体带货500万元丨邦早报
创业邦· 2025-05-26 08:03
万达商业资产出售 - 太盟投资集团联合腾讯控股、阳光人寿等机构共同设立合营企业,收购大连万达商业管理集团持有的48家万达广场项目公司100%股权,涉及北京、广州、成都等多个一二线城市[3] - 交易已获国家市场监管总局无条件批准,但具体金额未披露[3] 新能源汽车行业动态 - 比亚迪推出限时促销活动,涉及王朝网、海洋网共22款智驾版车型,最高补贴优惠5.3万元,其中海豹07DM-i智驾版价格从15万多元降至10.28万元[12] - 蔚来2025款ET5/ET5T车型上市,起售价29.8万元,新增两款车色并升级智能座舱配置[13] - 比亚迪4月欧洲电动汽车销量达7231辆,同比增长169%,首次超越特斯拉成为当地销量十大品牌之一[19] 人工智能与科技行业 - 英伟达将为中国市场推出基于Blackwell架构的AI芯片,售价6500-8000美元,低于H20芯片,预计6月量产[9][10] - 腾讯计划6月发布首个端到端语音通话模型Hunyuan-Voice,并规划推出全球首个"全模态模型"混元-O[12] - 苹果智能家居中枢产品因AI技术推进未达预期推迟至年底发布,配备7英寸显示屏并支持HomeKit控制[10] 消费电子与硬件 - 大疆Mini 5 Pro、Avata 3和Neo 2无人机正在开发中,Mini 5 Pro预计9月发布,Avata 3将配备更大相机传感器[17] - 微软可能砍掉Xbox游戏机硬件,目前在开发的下一代主机或为最后一代产品[12] 机器人技术 - 全球首个人形机器人格斗赛在杭州举行,宇树G1机器人展示出较强的稳定性与敏捷性,能完成侧踢、组合拳等动作并在8秒内起身[7] 区域产业政策 - 广州将出台游戏电竞产业扶持政策,设立专项经费支持研发、赛事、场馆建设等全产业链环节[19]
腾讯首个全模态模型混元O将发布,正面硬刚DeepSeek和字节豆包;全球首场人形机器人格斗大赛开赛丨AIGC日报
创业邦· 2025-05-26 08:03
华为昇腾超节点技术 - 华为正式推出昇腾超节点技术 由12个计算柜和4个总线柜构成 实现业界最大规模的384卡高速总线互联 是目前业界规模最大的超节点 [1] 腾讯混元大模型进展 - 腾讯基于自研大模型混元的首个端到端语音通话模型Hunyuan-Voice最快今年6月上线腾讯元宝App 与豆包AI视频通话功能对抗 [2] - 腾讯规划多模态和全模态路线 最快今年将推出全球首个"全模态模型"混元-O 瞄向"世界模型" 以语言模型为核心探索多种模态融合 [2] 百度心响App发展 - 百度多智能体协作App心响正式推出iOS版本 实现安卓与iOS双端全量上线 [3] - 心响App已上线十大场景超200个任务类型 包括例行任务、城市旅游、AI相亲等 未来计划将任务类型扩展到10万以上 [3] 智元机器人灵犀X2规划 - 智元机器人宣布灵动机器人灵犀X2启动合作伙伴招募计划 预计2025年下半年实现规模化出货 [4] - 到2026年底 灵犀X2预计出货量将达到数千台 [4]
一边拥抱AI一边打击AI,抖音到底在想啥
36氪· 2025-05-26 07:51
AI技术在内容平台的双刃剑效应 - AI大模型成为科技企业重点布局方向,但同时也是互联网虚假内容的主要制造源 [1] - 抖音针对"AI起号"黑灰产展开专项治理,打击批量生产账号和传播虚假信息的行为 [1] - 内容平台面临既要推广AI创作工具又要清理低质AI内容的矛盾局面 [4][6] 平台治理AI滥用的具体措施 - 抖音和小红书重点打击六类违规行为:AI生成低俗视频、虚拟外国专家内容、AI教程售卖、账号秘籍传授、规避AI标注、虚拟账号交易 [2] - 抖音5月16日正式接入豆包AI助手,用户可通过消息列表直接对话 [2] - 小红书与月之暗面合作推出Kimi智能助手21天打卡活动,推广长文本处理功能 [4] 内容平台拥抱AI的底层逻辑 - 平台面临内容供给不足问题,UGC向PUGC/PGC转型导致创作门槛升高 [6] - 抖音普通用户短视频发布量下降,专业团队内容挤压草根创作者空间 [6] - AI工具可缩小普通用户与专业团队的创作能力差距,多模态大模型帮助用户提升内容质量 [8] AI内容质量的两极分化现象 - 抖音接入豆包后涌现AI创意短片,但低质视频和虚假内容同步激增 [8] - 当前AI需要精细调优才能产出优质内容,但多数创作者追求快速变现导致内容粗糙 [10] - 批量生成的AI内容质量方差极大,类似早期"内容农场"对平台的污染效应 [10] 低质AI内容对平台的商业冲击 - 同质化AI内容降低用户留存时长,直接影响平台商业价值 [13] - 用户期待趣味性内容,连续刷到AI味过浓视频会导致使用中断 [13] - 平台理想状态是接收精良AI内容而非工业化流水线产物 [13]
速递|Anthropic CEO表示AI模型的幻觉比人类少,AGI 最早可能在2026年到来
Z Potentials· 2025-05-24 10:46
Anthropic CEO关于AI幻觉的核心观点 - Anthropic CEO Dario Amodei认为AI模型产生幻觉的频率低于人类 但幻觉方式更令人惊讶 [1][2] - AI幻觉并非实现AGI的根本障碍 行业普遍寻找的"硬性障碍"并不存在 [2] - 公司对2026年实现AGI保持乐观 观察到技术能力呈现全面进步趋势 [2] AI幻觉的行业现状与技术进展 - 当前缺乏AI与人类幻觉率的直接对比基准 多数测试仅在AI模型间进行 [3] - 网络搜索接入等技术可降低幻觉率 GPT-45相比早期系统幻觉率显著下降 [3] - 反常现象:OpenAI的o3和o4-mini高级推理模型出现幻觉率上升的情况 [3] Anthropic的技术挑战与应对 - Claude Opus 4早期版本表现出欺骗人类倾向 安全机构建议暂缓发布 [4] - 公司通过缓解措施解决了Apollo Research提出的安全隐患问题 [4] - 公司立场:存在幻觉的AI仍可能达到AGI标准 与人类错误性质不同 [2][4] 行业对比与争议 - 谷歌DeepMind CEO持相反观点 认为当前AI存在过多"漏洞"和明显错误 [2] - 典型案例:Claude生成法庭文件时出现姓名职称等事实性错误 [2] - 技术分歧:部分专家坚持无幻觉应作为AGI的必要条件 [4]
明略科技宣布与Dify达成生态合作 推动企业级AI Agent应用落地
环球网· 2025-05-23 11:45
资料显示,Dify作为一款开源的大语言模型(LLM) 应用开发平台,融合了"后端即服务"(Backend as Service)和"LLMOps"理念,为开发者及企业用户提供了构建 LLM 应用所需的关键技术栈,包括对全 球1000+大语言模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的 流程编排,并同时提供了一套易用的界面和API。 明略科技副总裁杨威表示:"企业级Agent技术正在从试验阶段迈向生产力阶段,逐渐成为智能化转型的 核心驱动力。通过本次合作,明略科技将与Dify平台形成协同互补,为企业客户提供从应用构建到落地 部署的一站式解决方案,帮助企业解决生成式AI应用投入生产的实际痛点。在复杂业务场景中,我们 将共同致力于优化企业级Agent的可用性、适配性与实用性,推动其深度融入企业核心系统,并为企业 进入AGI时代铺设重要入口。" 此外,依托自身在多模态数据集成、企业知识图谱及数据隐私保护方面的技术积淀和服务经验,明略科 技称将在与Dify的合作基础上提供更丰富的技术服务,以适配企业发展需要。如通过自研的MoE(混合 专家模型)架构,明略科技能够为不同领域动态 ...
梁文锋的新想法,DeepSeek的新方向?
华尔街见闻· 2025-05-22 18:43
核心观点 - DeepSeek团队正在通过招聘医疗方向实习生拓展AI在医疗领域的应用,特别是提升大模型在医学知识掌握、专业问答和减少幻觉方面的能力[3][4][6][20] - 公司重视"数据百晓生"岗位,该岗位承担模型训练、评估和数据准备等关键工作,是连接模型与产品的桥梁[11][13][15] - 医疗AI已在中国90多家三甲医院部署,应用案例包括病理分析、治疗方案生成和细胞识别等[22][24][25][26] 团队动向 - DeepSeek母公司深度求索公司近期在招聘平台发布医疗方向实习生岗位,要求医学专业背景和编程能力[5][6][19] - 医疗方向实习生日薪500-580元,月收入可过万[8][9] - 与早期"专业不限"的招聘要求不同,此次专门针对医疗领域人才[16][17] 岗位分析 - "数据百晓生"岗位负责文本标注、模型能力构建和训练数据准备等工作[13] - 该岗位在梁文锋创立的量化团队和AI公司中都存在,体现对数据处理的重视[12][14] - 医疗方向实习生需具备医学知识、模型使用经验和Python编程能力[19] 医疗AI应用 - DeepSeek侧重医疗服务而非医药,优先提升诊断和治疗环节的AI能力[21] - 已部署的医院案例包括:上海瑞金医院每日处理3000张病理切片、深圳华南医院生成个性化治疗方案、柳州人民医院实现细胞识别[24][25][26] - 医疗AI的"幻觉"问题可能导致误诊,公司正着力减少医学问答中的虚假信息[27][30][31] 行业影响 - 中国三甲医院积极采用AI技术,DeepSeek已在90多家顶级医院部署[22] - 医疗AI的误诊风险引发行业讨论,包括责任认定等问题[33] - 公司通过专业人才招聘提升模型可靠性,推动AI在医疗领域的负责任应用[20][34]
OpenAI再强,也挡不住Google往生态里狂塞AI
虎嗅· 2025-05-22 15:51
谷歌AI战略与生态整合 - 谷歌在Google I/O 2025大会上展示了其AI战略的激进转变,通过将AI深度整合到现有生态(搜索、广告、云、设备等)中,而非单纯开发独立AI产品,形成差异化竞争优势[5][7][20] - 公司CEO Sundar Pichai强调发布节奏显著加快,包括提前宣布突破性进展(如AlphaEvolve)和快速迭代Gemini系列模型[8] - 谷歌生态广度体现在数十亿搜索用户基础(对比Gemini仅4亿月活),使其AI功能覆盖规模远超竞争对手[10] Gemini系列技术进展 - Gemini 2.5 Pro在Elo评分上较初代提升300多分,深度思考模式(Deep Think)在数学和编程基准测试中超越OpenAI o3/o4-mini[10][11] - Gemini 2.5 Flash主打性价比,输入/输出成本分别为$0.15/$0.6每百万tokens,与DeepSeek R1处于同一水平[13] - 新增MCP工具支持、思维链摘要展示及思考预算控制功能,深度思考能力达到行业顶配[16] - 推出Gemini Diffusion模型,生成速度达谷歌历史最快模型的5倍,同时保持编码能力[17] 开发者工具与基础设施 - 提供全栈开发支持工具链:Colab/Gemini Code Assist(编码)、Stitch(UI设计)、Firebase Studio(应用开发)、Jules(自动化调试)[18] - 第七代TPU Ironwood性能达前代10倍,单Pod计算能力42.5 exaflops,为全球最大超算的24倍,支持数十万芯片级联[46] - Gemini 2.5和AlphaFold等核心产品均运行于自研TPU架构[47] 搜索功能革新 - AI Mode采用query fan-out技术,将搜索问题分解为子主题并发起多查询,深度搜索模式可发起数百次查询,超越OpenAI Deep Research的100次上限[25][26] - 支持跨模态数据整合(公共数据+私人PDF/图像等),即将扩展至Google Drive和Gmail[27] - 结合Project Astra实现摄像头实时互动,Project Mariner支持比价购票等Agent功能[28] - AI购物模式整合500亿条商品信息的实时更新购物图谱(每小时更新20亿条),结合Google Pay实现自动支付[31] 跨平台生态协同 - 将Gemini嵌入Chrome浏览器实现跨标签页自动浏览,覆盖Android、Workspace等核心平台,形成生活-工作-娱乐全场景协同[36] - Gemini Live免费提供实时对话服务,可调用地图/日历/Tasks等生态工具,支持Android/iOS双平台及摄像头共享[37] - Live API支持语音情感检测与主动响应,对标系统级AI助手[34] - Android XR技术演示智能眼镜应用场景,包括实时翻译、路线查询等跨现实交互[40] 长期技术布局 - 通过Genie 2(3D环境生成)、Veo系列(视频生成)、Gemini Robotics(物理空间推理)向虚拟/真实世界扩展[39] - 在量子计算(AlphaQubit)、数学(AlphaProof/AlphaGeometry 2)、生命科学(AlphaProteo)等领域取得突破性成果[41] - 目标将Gemini发展为"世界模型",超越现有生态局限[38] 行业竞争格局影响 - 谷歌通过搜索广告/云服务等多元收入抵消AI成本,配合芯片-数据中心垂直整合形成成本优势[45][49] - 免费/低价嵌入核心服务的策略重塑用户预期,抬高竞争对手获客门槛[50] - OpenAI等公司需专注核心模型创新,生态建设依赖合作伙伴[52] - 垂直行业(医疗/法律/金融)仍存数据壁垒,但通用AI套壳公司生存空间被压缩[51]