Workflow
大模型评估
icon
搜索文档
给AI打个分,结果搞出17亿估值独角兽?
36氪· 2026-01-07 19:04
融资与估值 - 公司LMArena完成1.5亿美元A轮融资,由Felicis和加州大学投资公司UC Investments领投,Andreessen Horowitz、The House Fund等机构跟投 [3] - 本轮融资后,公司估值升至17亿美元 [1] - 此前在2025年5月,公司曾获得1亿美元种子轮融资,当时估值为6亿美元 [7] 公司背景与发展历程 - 公司前身为Chatbot Arena,最初由来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校成员组成的开源组织LMSYS创建 [4] - 早期创建Chatbot Arena的目的是为了更有效地评估其自身开发的开源模型小羊驼Vicuna [4][6] - 该平台通过用户众包投票进行模型评估的模式获得成功,后从开源项目独立成为商业公司lmarena.ai [7] - 公司核心团队为90后,且华人含量高 [3] 核心技术产品 - 公司主要项目为全球大模型动态竞技场LMArena [8] - 公司开发的开源推理引擎SGLang在业内首次实现了在96块H100上跑出几乎媲美DeepSeek官方报告吞吐量的开源方案,并已被xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用 [4] - 平台核心评估机制为匿名对战、基于Bradley–Terry模型的Elo式评分以及人机协同框架 [9][10] - 用户输入问题后,系统随机匹配两个模型进行匿名回答,用户根据回答质量投票,投票后揭晓模型身份 [10] - 平台通过算法平衡模型的出场次数、任务类型和样本分布,以确保评估公平客观 [10] 市场地位与运营数据 - LMArena已成为模型测评首选的排行榜,各家新模型发布时常在该平台测试 [7][10] - 平台累计获得涵盖文本、视觉、网络开发等跨模态的5000万张投票 [12] - 平台已完成400余种开放及专有模型的评估 [12] - 平台产出了覆盖文本、多模态、专家及职业等多个类别的14.5万个开源战斗数据点 [12] - 根据实时排行榜,当前Gemini 3 Pro以1490分位居榜首,获得21,938张投票 [10][11] 资金用途与未来计划 - 新筹集的资金将用于平台运营,确保稳定高效运行并提升用户体验 [12] - 资金也将用于扩大技术团队,为平台发展注入更多专业技术力量 [12]
给AI打个分,结果搞出17亿估值独角兽???
量子位· 2026-01-07 17:11
融资与估值 - 大模型评估平台LMArena完成1.5亿美元A轮融资[1] - 公司估值在此轮融资后升至17亿美元[1] - 此轮融资由Felicis和加州大学投资公司领投,Andreessen Horowitz、The House Fund等机构跟投[3] 公司起源与背景 - 公司前身是Chatbot Arena,最初由来自UC伯克利、斯坦福等顶尖高校的成员组成的开源组织LMSYS创建[5][6] - 团队曾开发开源推理引擎SGLang,在96块H100上实现了媲美DeepSeek官方报告吞吐量的开源方案[7] - SGLang已被xAI、英伟达、AMD、谷歌云、阿里云、美团、腾讯云等企业和机构采用[8] - 团队核心为90后华人,占比达99%[4] 核心业务与产品 - 公司核心业务是提供第三方大模型评估平台,主要产品为LMArena(原Chatbot Arena)[9][16][18] - 平台采用匿名对战、Elo式评分和人机协同框架进行评估[20] - 用户输入问题后,系统随机匹配两个模型进行匿名回答,用户投票选择更优答案后揭晓模型身份[21][22] - 基于Bradley–Terry模型的Elo评分机制,模型根据对战胜负增减分数,形成实时排行榜[22] - 平台通过算法平衡模型的出场次数、任务类型和样本分布,以确保评估公平[22] 市场地位与影响力 - 平台已成为全球大模型“出道”时的必测榜单,是模型测评首选的排行榜[14][23] - 截至报告时,平台累计获得5000万张跨模态投票,完成了400余种开放及专有模型的评估,并产出了14.5万个开源战斗数据点[25] - 在平台实时排行榜中,Gemini 3 Pro以1490分位居榜首[23][24] 发展历程与资金用途 - 平台最初因团队为评估自研的Vicuna模型而创建,后因影响力扩大而独立成为商业公司[10][11][15][16] - 2025年5月,公司获得1亿美元种子轮融资,估值达6亿美元[17] - 新一轮融资将用于平台运营以保障稳定高效运行,并扩大技术团队[25]
大模型作为评估者的「偏好」困境:UDA实现无监督去偏对齐
机器之心· 2025-11-28 08:51
文章核心观点 - 当前大模型评估体系存在严重的“自我偏好偏差”问题,即模型在作为评估者时会系统性偏爱自己生成的答案,导致评估结果不公平[2] - 智谱AI提出的无监督去偏对齐方法UDA,通过将去偏问题转化为动态校准优化的序列学习问题,有效解决了上述偏差问题[7][13] - UDA方法无需人工标注,通过无监督共识驱动训练,在ArenaHard数据集上实现了评估方差减少59%和人类对齐度提升24.7%的显著效果[20][23][24] 现有LLM评判系统问题 - 现有系统如Chatbot Arena采用Elo评分机制,面临自我偏好固化、异质性偏差和静态评分缺陷三大挑战[4] - 自我偏好偏差幅度从-38%到+90%不等,导致不同裁判模型评分标准差最高达158.5分[2][5] - 传统Elo使用固定K因子,无法区分关键对决与平庸比较,小样本下信噪比极低[5] UDA方法框架 - 将成对评估建模为实例级自适应过程,通过轻量级网络动态生成调整参数,输出校准后的Elo更新[10] - 特征工程涵盖高维特征、标量特征和自我感知特征,这些特征无需人工标注,完全从响应分布中自动构建[11][12] - 训练目标采用多任务损失函数,驱动各裁判轨迹向共识收敛、保持排名相关性并强化集体一致性[14] 理论创新 - 核心理论洞见是对齐多样化裁判的共识将降低系统总偏差,通过凸组合收缩实现集体方差缩减[16][17] - 即使共识本身有噪声,减少离散度仍能提升整体可信度,为无监督对齐提供了理论动机[18] 实验结果 - 在ArenaHard数据集上,UDA将平均裁判间标准差从158.5降至64.8,减少59%[23] - 与人类评估的相关性系数从0.651提升至0.812,提升24.7%[23][24] - 在零样本迁移中未经重新训练仍实现63.4%的方差缩减,证明领域无关的去偏能力[23] - 消融实验显示自我感知特征至关重要,移除后人类相关性暴跌至0.510[23][24] 技术影响 - 评判校准从提示工程问题转变为可学习的问题,模型能在交互中自主演化出公平评分策略[25] - 该框架有效提升了低质量评委的表现,使其接近高质量评委水平,显著增强了评估的鲁棒性、可复现性与人类对齐度[25]
3位00后,估值700亿
36氪· 2025-10-28 20:09
公司融资与估值 - 公司完成2.5亿美元(约合人民币18亿元)新融资,估值达到100亿美元(约合人民币710亿元),是其今年2月20亿美元估值的5倍 [1] - 公司成立于2023年,至今合计融资额达3.5亿美元(约合人民币25亿元) [1] - 新融资由风投公司Felicis领投,Benchmark、General Catalyst和Robinhood Ventures等风投公司参投 [3] 业务发展与财务表现 - 公司核心业务为AI招聘,通过AI筛选简历并为候选人快速匹配岗位,后基于庞大人才网络拓展至数据标注和大模型评估业务 [3][8] - 公司17个月营收运行率从1美元增长至5亿美元(约合人民币36亿元) [1] - 截至今年2月,公司年度经常性收入已达到7000万美元(约合人民币4.97亿元) [3] - 公司管理的专家总数达30000名,所有专家的日薪总计超过150万美元(约合人民币1065万元) [3][9] 创始团队与公司背景 - 公司由三位00后创始人于2023年大二辍学后创立,他们分别是CTO Adarsh Hiremath(哈佛大学计算机科学专业)、CEO Brendan Foody和COO Surya Midha(均来自乔治城大学,分别为经济学和外交专业) [1][4] - CEO Brendan Foody在2021年曾创立云基础设施公司Serosin,成功将高性能计算机使用成本降低90% [4] 技术平台与运营模式 - 企业客户通过自然语言描述岗位需求,公司AI工具可在几秒内对数十万份简历、作品集、社交平台及代码库进行深度语义搜索以匹配最佳候选人 [5] - 公司首创AI生产力指数(APEX),用于评估AI模型执行具有经济价值知识工作的能力,涵盖投资银行、法律、咨询和医疗四个专业领域 [10] - APEX v1.0包含200个案例,由约100名顶级专家团队构建,专业人员完成其中任务平均需要3.5小时 [10][11] 市场竞争与行业动态 - 竞争对手Scale AI被Meta以140亿美元收购49%股份后,其部分客户和员工转向公司,促使公司收入翻倍 [14] - Scale AI已起诉公司涉嫌窃取商业机密,案件目前尚无定论 [14] - OpenAI发布的医疗大模型测试评估集HealthBench采用了公司的APEX体系,GPT-5在该评估中获得64.2%的最高分 [11]