Workflow
多模态大模型
icon
搜索文档
合合信息多模态文本智能产品"上新",覆盖AI教育、AI健康、AI Infra多元场景
格隆汇· 2026-01-13 15:48
核心观点 - 人工智能产业进入“落地为王”新阶段,AI技术与多元化场景融合成为行业焦点 [1] - 合合信息集中发布基于多模态大模型的系列创新产品,覆盖AI教育、健康管理、基础设施及智能体应用等多个领域,展现了文本智能技术与垂直场景结合的创新潜力,为AI商业化落地提供新思路 [1] AI产品与垂直场景应用 - 在通用文档处理领域,公司旗下扫描全能王推出“CS-AI一站式智能化文档解决方案”,实现从影像数字化向文档全周期智能服务升级,覆盖扫描、阅读、编辑和学习等核心场景 [2] - 该解决方案可自动修复图像质量问题,实现智能重排文档与优化排版,并依托文档解析与版面还原技术优势,预计在跨境电商、出境游、专业文档翻译等市场展现强劲出海潜力 [2] - 在教育领域,公司面向国内外市场推出AI错题学习管理工具“蜜蜂试卷”与“QuizAI”,可智能识别手写体试卷,提供批改及“举一反三”等互动学习功能,实现个性化教学 [4] - 在健康领域,公司推出AI饮食健康助手Appediet,用户通过拍照即可识别食物营养成分并生成热量报告,还可结合用户健康数据定制饮食计划、提供营养分析及食谱推荐 [7] 企业级AI基础设施与智能体 - 在企业级市场,Agent智能体的规模化落地将AI基础设施推至重要位置,高质量数据是其发挥效能的关键 [8] - 据IDC预测,到2028年全球数据量将增长至393.8ZB,2023至2028年复合年均增长率达24.4% [8] - 针对企业数据碎片化、格式杂的问题,公司旗下TextIn发布AI基础设施产品xParse,以AI赋能通用文档非结构化数据挖掘,应用于知识库与Agent落地、智能翻译、合规风险管理等场景 [8] - 麦肯锡2025年AI报告提到,62%的受访组织已在试验智能体类应用 [9] - 公司打造Agentic AI产品INTSIG Docflow,使产品能像“数字员工”一样,对合同、票据、报表、招投标文件等高复杂度非结构化文档进行解析、分类、抽取、审核、比对及跨系统业务流转 [9] 商业数据智能分析应用 - 公司旗下启信慧眼推出多项AI原生应用,作用于企业风险管控、营销与智能决策 [10] - “AI智能寻源”功能用AI自动拆解寻源品类的结构化参数,过滤信息杂质,让客户实现“一句话从3.4亿家企业中,找到合作目标”,在具体场景中帮助客户寻源拓客效率平均提升超过30% [10] - “AI准入尽调”功能将行业经验与全盘数据相结合,给出供应商合作建议 [10] - “AI关系洞察”功能用AI透视隐形风险,智能锁定关键风险,降低决策门槛及业务风险 [10] - 启信慧眼AI原生应用功能已在制造、医药、半导体、电子、能源、汽车、金融等多个行业中应用,日均风险扫描次数超过2000万次 [12] 行业趋势与公司战略 - AI技术正向着多模态融合、Agent智能体规模化的方向加速突破 [12] - 公司将持续深耕AI领域,推进多模态文本智能技术研发,不断拓宽技术应用边界,探索AI应用落地新机遇与商业化增长新路径 [12]
最新测评集:几乎所有大模型,视觉能力都不如3岁小孩
观察者网· 2026-01-12 20:30
多模态大模型视觉能力评测结果 - 红杉中国xBench与UniPatAI团队发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力[1] - 首轮测试结果显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线[1][4] - 在包含20道视觉中心任务的BabyVision-Mini测试中,大多数顶尖模型得分集中在明显低于3岁儿童平均水平的区间[4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距[4] 模型与人类表现对比 - 在BabyVision-Mini测试中,三岁儿童能凭本能轻松完成垃圾分类连线等视觉任务,而最强的Gemini3-Pro-Preview模型虽写下大段推理过程,最终仍给出错误答案[4][6] - 在包含388道题目的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1%[8] - 大模型方面,在Full测试中表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7%[8] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间[8] 视觉能力系统性缺失的类别 - 评测指出,大模型的不足体现在视觉能力的四大类别上的全方位不足,包括精细辨别、视觉追踪、空间感知以及视觉模式识别,说明存在系统性缺失[10] - 第一类挑战来自“非语言细节”缺失:模型将视觉信息转为语言概括(如“像钩子、有两个腿”)时,细微的像素级差异被抹平,导致选项在token空间里变得“几乎一样”[12] - 第二类挑战体现在轨迹追踪任务:模型将连续路径翻译成“左/右/上/下”的离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”[14] - 第三类挑战是空间想象能力缺失:在三维方块计数等任务中,模型依靠语言推理,但文字描述并非真实三维结构,导致漏掉隐藏块、搞错投影关系[14] - 第四类挑战是图形规律归纳难题:模型会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则[17] 核心原因与潜在改进方向 - 研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中许多题目具有“不可言说”的特性,即无法在不损失信息的情况下被完整语言化[19] - 人类通过指一指、圈一圈、沿线追踪等直觉方式解题,而模型必须将视觉信息压缩为token进行语言化处理,此过程中大量关键细节丢失,最终导致推理失误[19] - 研究团队通过让视觉推理“落地到视觉操作”上,例如Sora2一笔一划成功绘制了左上角鳄鱼的连线图像,展示了潜在改进方向[19] - 然而,Sora2也仅画对了鳄鱼这一条线,其他模型则一条线也未成功[21] - 团队认为,未来通过让模型进行绘画、临摹等方式进行推理,或许可以恢复大模型文字推理所缺失的能力[21] - 团队总结指出,很难想象一个视觉能力低于3岁儿童的机器人能够可靠地在真实物理世界里帮助人类,未来的模型必须从根本上重建视觉能力,而非依赖语言推理[21]
欢迎和具身智能之心一起前行,合伙人招募啦~
具身智能之心· 2026-01-12 19:00
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请 旨在通过招募合作伙伴共同拓展业务 涵盖技术服务 培训 课程开发与科研辅导等多个领域 [1] 合作背景与目标 - 年底收到大量合作伙伴与学员的诉求 期望公司在线上/线下培训 方案咨询 数据采集 技术升级等多个方向进行赋能 [1] - 公司认为更大的事业需要更多人参与 希望通过招募优秀伙伴实现“众人拾柴火焰高” [1] 合作方向与领域 - 合作技术方向广泛 包括但不限于视觉语言动作 视觉语言导航 扩散策略 强化学习 视觉语言动作结合强化学习 遥操作 动作捕捉 仿真到现实迁移 多模态大模型 仿真 运动控制 端到端学习 3D感知等多个前沿方向 [3] - 合作主要面向具身智能解决方案研发 硬件研发以及培训合作 [4] - 培训合作分为企业端与消费端 企业端主要面向企业 高校及研究院所 消费端主要面向学生及求职人群 [4] 合作激励与联系方式 - 公司将提供高额酬金与丰富的行业资源以吸引合作伙伴 [2] - 感兴趣的从业者可通过添加指定微信进行进一步咨询 [5]
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
机器之心· 2026-01-12 13:01
文章核心观点 - 当前顶尖多模态大模型在纯视觉理解能力上存在严重缺陷,其能力仅相当于三岁幼儿水平,与人类存在系统性差距[3][4][15] - 视觉理解中的许多核心任务是“无法言说”的,无法在不丢失信息的情况下转化为语言描述,导致依赖文本推理的大模型在基础视觉任务上频繁出错[25][26][31] - 构建像BabyVision这样的评测集,将“看懂世界”的能力拆解为可量化的原子任务,对于诊断模型短板、引导多模态与具身智能发展至关重要[14][49] 评测集设计与方法 - 研究团队发布了名为BabyVision的多模态理解评测集,旨在评估模型不依赖语言的纯视觉能力[3] - 评测集最终包含388道高质量视觉题目,涵盖4大类共22种基础视觉子任务[13][18] - 数据构建过程严谨:参考儿童认知教材,从互联网爬取约4000张候选图片,经人工筛选标注,并实行双盲质检以确保题目质量[18] 核心视觉能力分类 - **精细辨别**:分辨细微的视觉差异,包含8个子任务[16] - **视觉追踪**:跟随路径、线条与运动轨迹,包含5个子任务[16] - **空间感知**:理解三维结构及其关系,包含5个子任务[16] - **视觉模式识别**:识别逻辑与几何规律,包含4个子任务[16] 模型与人类表现对比 - 在BabyVision-Mini的20道题测试中,顶尖多模态模型的表现落后于各年龄段儿童,甚至在三岁幼儿的基础视觉任务上失败[7][9] - 在完整的BabyVision评测中,人类基线(16位本科背景测试者)准确率高达94.1%[20][21] - 闭源模型中表现最佳的Gemini3-Pro-Preview准确率为49.7%,距离6岁儿童水平仍差约20个百分点[15][22] - 开源模型中表现最佳的Qwen3VL-235B-Thinking准确率仅为22.2%,多数模型集中在12%至19%区间[21] - 模型能力的落后是系统性的,在四大类视觉能力上均全面下滑,并非单一缺陷[23] 模型面临的核心挑战 - **挑战1:看不见“非语言细节”**:模型将视觉信息压缩成语言描述时,像素级错位等细微差异被抹平,导致无法区分相似选项[27][29][32] - **挑战2:追线追丢了**:对于连线追踪任务,模型将其转化为离散的方位步骤描述,在路径交叉点时容易“换轨”追错线,而人类本能是连续追踪[30][34][41] - **挑战3:缺少真正的空间想象**:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系[36] - **挑战4:图形规律归纳难**:模型容易关注表面属性(如颜色、形状),误将“结构规则”理解为“外观统计”,导致在规则迁移时产生幻觉[37][40] 生成式视觉推理的探索 - 研究团队推出了BabyVision-Gen,从原数据集中标注出280道适合生成式作答的题目,要求模型输出图像或视频来展示解题过程[42][48] - 初步评测显示,生成式模型在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注),但整体仍缺乏稳定获得完全正确解的能力[42][48] - 这表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[42] 对行业发展的意义 - 该评测揭示了多模态大模型在迈向通用智能与具身智能道路上的关键瓶颈:基础视觉能力严重不足[44][46] - BabyVision的价值在于为行业提供了可测量、可诊断、可迭代的评估工具,明确了差距所在与发展方向[49] - 现实世界的交互不依赖语言提示,因此补全“看得准、追得住、想得出、归纳得了”的视觉地基是实现可信赖的真实世界AI部署的前提[46][47][51]
多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
新浪财经· 2026-01-12 09:57
多模态大模型视觉能力评测 - 红杉中国xbench与UniPat AI团队联合发布新的多模态理解评测集BabyVision,旨在测评大模型在不依赖语言提示时的纯视觉理解能力[1][33] - 评测核心观点指出,当前多模态大模型在语言与文本推理上突飞猛进,但在需要“看懂”而非“说清”的视觉问题上能力仍明显不足[1][33] - 评测设计理念是避免视觉问题退化为可完全用文字描述的文本题,从而迫使模型展现真正的视觉基础能力:比较、追踪、空间想象、模式归纳[1][33] 评测方法与设计 - BabyVision将视觉能力拆解为4大类共22个子任务,包括精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务)和视觉模式识别(4个子任务)[2][10][34][42] - 评测集构建参考了儿童认知教材和视觉发育测验,通过种子示例从互联网爬取约4000张候选图片,并经过严格的人工标注与双盲质检,最终产出388道高质量视觉题目[9][11][41][43] - 为确保“纯视觉”考核,团队在数据收集时过滤掉包含大量文字或需要文化常识的图片,并确保每道题的答案可通过视觉推理得出[11][43] 评测结果与表现差距 - 人类基线准确率高达94.1%(基于16位至少本科背景的测试者完成全量388题)[11][43] - 闭源模型中表现最强的Gemini3-Pro-Preview准确率为49.7%,其后GPT-5.2为34.8%、Doubao-1.8为30.2%[2][12][34][44] - 开源模型中表现最强的Qwen3VL-235B-Thinking整体准确率为22.2%,多数开源模型准确率在12%至19%区间[2][12][34][44] - 在BabyVision-Mini(20道题)的对比实验中,大多数模型分数低于平均3岁儿童,Gemini3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点[4][6][36][38] 模型能力短板分析 - 评测结果显示,模型在四大类视觉能力上表现均全面下滑,表明存在“系统性缺基础视觉能力”问题,而非单点缺陷[12][44] - 一些子任务如“Count 3D Blocks”在多模型中普遍表现极低,暴露了模型在结构化场景理解上的严重不足[12][44] - 关键原因在于许多视觉题目是“unspeakable”的,即视觉细节难以被无损压缩成语言token,模型若采用先复述再推理的语言捷径,关键信息会在压缩过程中丢失[2][14][34][46] 视觉任务面临的典型挑战 - 挑战1“非语言细节”:模型将形状概括为语言描述时,会抹平像素级错位等细微差异,导致选项在token空间里变得“几乎一样”[14][16][46][48] - 挑战2“追线追丢了”:在连线/轨迹题中,模型将连续路径翻译为离散的“左/右/上/下”步骤,遇到交叉点时易“换轨”追错线,而人类本能是锁定一条线追踪至终点[6][16][19][38][48][51] - 挑战3“缺少真正的空间想象”:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系,而人类是在脑中构建并旋转立体结构[19][21][51][53] - 挑战4“图形规律归纳难”:模型常关注表面属性(颜色、形状),误将“结构规则”解读为“外观统计”,导致在规则迁移时产生幻觉,而人类抽象的是关系映射与变换规则[21][23][53][55] 生成式推理的新方向 - BabyVision-Gen从原基准中重标注出280道适合生成式作答的题目,要求模型用图像或视频输出解题过程或答案[2][24][34][56] - 在BabyVision-Gen上评测多种生成模型(如Nano-Banana-Pro、Qwen-Image、Veo-3、Sora-2)发现,生成式推理在视觉追踪、精细辨别等任务上表现出“更像人类”的行为(如画轨迹、做标注)[23][55] - 自动评测工具与人工评测的一致性达到96%,但生成模型整体仍缺乏稳定到达完全正确解的能力[2][24][34][56] - 该方向表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[23][55] 评测集的价值与意义 - BabyVision的价值在于将“看懂世界”拆解为22个可测量、可诊断、可迭代的原子能力,为多模态与具身智能(embodied AI)补齐视觉短板提供了明确的路线图[3][29][35][61] - 评测突显了补强视觉地基对于实现真正通用智能与具身智能的必要性,即需要“看得准、追得住、想得出、归纳得了”[28][60] - 该评测属于红杉中国xbench双轨评估体系中的AGI Tracking赛道,用于追踪模型的AGI演进进程[1][30][33][62] xbench评估体系介绍 - xbench采用双轨评估体系,分为AGI Tracking赛道与Profession Aligned赛道,旨在同时追踪模型的理论能力上限与其在真实世界中的经济与实用价值[1][30][33][62] - 该体系采用长青评估机制,通过持续维护并动态更新测试内容以确保时效性和相关性[30][62] - xbench在AGI Track首期发布了科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),BabyVision是其多模态评估集,后续将发布面向Agent指令遵循的AgentIF等评测集[31][63] - xbench此前已构建面向招聘和营销领域的垂类Agent评测框架,后续计划发布覆盖生物技术、金融、法律等场景的垂类评测集[32][64]
智源2026十大趋势发布会-获取你的2026年AI发展路线图
2026-01-12 09:41
关键要点总结 涉及的行业与公司 * 行业:人工智能(AI),涵盖基础模型、AI Agent、具身智能(机器人)、科学智能(AI for Science)、AI应用(C端/B端)、AI安全、合成数据、智能体互联网(Agented Web)等领域[1][2][12] * 公司/机构:智源研究院(技术预判与成就主体)[1][3][5]、Google(RT系列、SCN、VLA研究)[20][31]、微软亚洲研究院(合成数据研究)[23]、英伟达(AI训练硬件主导)[24]、DeepMind(cosine entity)[40]、OpenAI(ChatGPT)[21]、Anthropic(宪法AI)[62]、国内厂商如阿里、字节、腾讯、百度、蚂蚁(灵光、阿福、豆包、夸克等应用)[21][42][44][52] 核心观点与论据 技术趋势与范式演进 * **多模态世界模型成为共识**:通过视频等多模态数据预训练,学习真实世界动态规律,从Next Token Prediction向Next Day Prediction演进,实现从语言学习到多模态世界学习的阶段跨越[1][13][14] * **机器智能进入新范式**:从表层功能模仿转向理解和建模物理世界运行规律,进入“状态空间预测”或“下一个状态预测”范式,使AI具备推演未来演化趋势和变化的能力[1][2][6] * **Scaling Law持续有效且融合**:多模态大模型、世界模型与Scaling Law三项技术融合发展,Group 4和Dream I3模型的发布证明了Scaling Law在预训练和后训练阶段持续有效[2][12][52] * **AI for Science成为科研关键工具**:从“口拍”向“AI3 tis”转变,科学基础模型、Agent workflow与自动化实验室连接,使AI具备从数字模拟到真实实验的认知闭环能力[1][18] * **合成数据打通Scaling Law**:合成数据已证明具备真实信息争议,是有效燃料,预计到2030年国内合成数据市场规模将超过真实数据并成为主导[23][35] 细分领域发展现状与预测 * **具身智能(聚生智能)**: * 中国聚生企业数量超过230家,其中人形机器人企业100多家,但业务模式同质化严重,行业面临出清[1][17] * 存在四大挑战:从开环到闭环任务、数据饥饿、标准化不一致、安全性探索不足[29][32] * 2025年最重要的进展是找到了规模化提供数据的方法[50] * 技术路线主要分为分层模型、端到端VLA模型和事件模型三类,各有优劣[31][33] * **AI Agent与智能体互联网**: * AI Agent向专业化与统一协议方向发展[1][2] * 智能体互联网(Agented Web)核心特征:智能体成为网络新主体、通过协议直接交互、以开放协作取代封闭生态[26] * 多智能体系统有望成为企业Agent应用主流,MCPASA等智能体协议可能迎来类似TCP/IP的重要时刻[20] * 未来个人与企业间的交互将由个人智能体直接连接企业智能体,无需中间平台[26] * **AI应用市场**: * **C端**:AI超级应用(All in one)趋势明确,ChatGPT日活和月活已超过Twitter(X),国内有望看到新BAT诞生[21][42] * **B端**:2026年上半年可能因试点项目效果不佳进入“幻灭低谷期”,但下半年经过反思并采用成熟工具后,有望迎来V形反转和更多行业标杆案例[22][41][46] * **垂直赛道**:突围关键在于从token付费转变为服务付费,创造利润空间,如nano banana将收费提高至0.5美元[45] 挑战、瓶颈与应对 * **数据挑战**:高质量文本数据预计在2026年耗尽,推动合成数据与强化学习发展[23];科学数据存在稀缺性、标准化不一、开放性不足等问题[56] * **成本与性能瓶颈**:模型成本和输出速度是智能体连接的最大瓶颈,但模型成本降低速度未减弱[51];中国基模研发面临训练算力规模不足的挑战[54] * **安全风险**:截至去年12月初,全球共报告330起AI安全风险事件,比前一年显著增加[24];应对措施包括内生安全(优化训练周期)和外部围栏(输入输出检查),参考Anthropic宪法等[62] * **技术依赖**:全球85%的AI训练依赖英伟达体系,带来潜在供应风险[24] 其他重要内容 * **科研合作与社区**:智源社区通过每日更新28万篇精选AI核心论文、举办直播分享、读书会、专访、大会等方式助力学者和促进科研合作[8] * **结构决定功能理念**:在生命科学和AI领域,“结构决定功能”和“功能塑造结构”两个角度都重要,环境是所有智能的来源[9][10] * **仿真技术关键性**:合成数据的核心在于将真实世界物理特征分布规律转化为可执行的仿真环境,需要自研仿真底层确保仿真与现实对齐(减少sim-to-real gap)[37][58];仿真是规模化评测模型能力的重要路径[38] * **行业落地时间表**:零售与电商有望在2026年第三季度率先出现成功用例;金融业预计到2026年底;制造业因设备异构化问题最晚落地[48] * **颠覆性变化预测**:可能在2026或2027年出现颠覆当前Transformer架构的变化[11];2026年可能的颠覆包括:生成式模型发现未知事物、数据评测闭环、智能体颠覆互联网格局、程序员工作范式革命、世界模型迭代等[59]
多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
红杉汇· 2026-01-12 09:04
文章核心观点 - 红杉中国xbench与UniPat AI团队联合发布名为BabyVision的全新多模态理解评测集 旨在量化评估大模型的基础视觉原子能力 揭示其与人类在“看懂世界”上存在的巨大差距 [1] - 评测结果显示 当前顶尖多模态大模型的视觉理解能力普遍低于3岁儿童 表明模型存在“系统性缺基础视觉能力”的问题 而非单一缺陷 [2][4][13] - 视觉问题的核心挑战在于其“unspeakable”特性 即无法在不丢失信息的情况下被完整语言化 模型试图将视觉信息压缩为文本token会导致关键细节丢失 从而无法进行真正的视觉推理 [14][15] - 研究团队提出通过生成式视觉推理(如画图、描线)可能是补齐模型视觉短板的一个方向 并为此开发了BabyVision-Gen评测集进行探索 [26][27][28] - BabyVision的价值在于将复杂的“看懂世界”能力拆解为22个可测量、可诊断的原子视觉任务 为多模态大模型的未来发展提供了明确的迭代与改进方向 [9][32] 评测背景与设计理念 - 该评测属于红杉中国xbench双轨评估体系中AGI Tracking赛道下的多模态评估集 旨在追踪模型的AGI演进进程 [1] - 评测设计核心理念是量化那些“人类直觉就会、但构成智能地基”的视觉原子能力 这是具身智能走向现实世界的必修课 [9] - 为避免模型通过语言推理走捷径 评测严格控制语言依赖 题目要求简单 答案必须依靠视觉信息本身得出 [2] 评测数据集构建 - 研究团队参考儿童认知教材和视觉发育测验 梳理出4大类共22种基础视觉子任务 [9] - 通过逆向图像搜索和关键词搜索从互联网爬取约4000张候选图片 并严格筛选版权合规、不含大量文字或需文化常识的素材 [9] - 经过专业人员人工标注、设计问题与答案 并进行“双盲质检” 最终产出388道高质量视觉题目 [10] 视觉能力分类 - 视觉能力被提炼为四大核心类别:视觉模式识别(4个子任务)、精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务) [9][11] 评测结果分析 - 人类基线测试(16位至少本科背景者)在388道题上的准确率达到94.1% [13] - 闭源最强模型Gemini3‑Pro‑Preview的准确率为49.7% 是唯一稳定超过3岁儿童基线的模型 但距离6岁儿童仍差约20个百分点 [4][13] - 开源侧最强模型Qwen3VL‑235B‑Thinking整体准确率为22.2% 多数模型准确率在12–19%区间 [13] - 模型在四大类视觉能力上表现均落后 差距并非集中在单一类别 属于系统性缺陷 [13] - 在某些子任务上模型几乎“全员翻车” 例如Count 3D Blocks任务普遍表现偏低 [13] 模型面临的核心挑战 - **挑战1:无法处理“非语言细节”** 在拼图/补全等任务中 模型将形状用语言概括会抹平像素级的细微差异 导致选项在token空间里变得“几乎一样” [16][17] - **挑战2:视觉追踪能力薄弱** 在连线/轨迹题中 人类本能地沿线追踪 而模型将线翻译为离散的方位步骤 遇到交叉点容易“换轨”追错线 [8][20] - **挑战3:缺乏真正的空间想象** 在三维方块计数等任务中 人类在脑中构建3D结构 而模型缺少稳定的3D内部表征与变换能力 容易漏掉隐藏块或搞错投影关系 [21][23] - **挑战4:图形规律归纳困难** 在视觉模式归纳任务中 人类抽象的是关系映射与变换规则 而模型容易误读为表面属性的统计 导致迁移时产生幻觉规则 [24][26] 生成式视觉推理的探索 - 研究团队推出BabyVision‑Gen评测集 从原基准中标注出280道适合“生成式作答”的题目 要求模型输出图像或视频来表达解题过程或答案 [26][27] - 开发了自动评测工具 与人工评测的一致性达到96% [27] - 初步结论显示 生成式推理在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注) 但整体仍缺乏稳定到达完全正确解的能力 [28] - 这表明将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径 [28] 评测的意义与行业影响 - 视觉能力是通用智能与具身智能走向现实世界的基础 很难想象视觉能力低于3岁孩子的机器人能在真实物理世界中可靠地帮助人类 [32] - BabyVision将“看懂世界”拆解为可测量、可诊断、可迭代的22个原子能力 明确了当前多模态大模型的差距所在 为行业下一步发展提供了引导 [32] - 展望2026年 世界模型与视觉多模态预计将迎来新一轮突破性进展 此次评测旨在迎接并参与新一轮技术突破的到来 [1]
陪伴机器人,正在改写9亿人的孤独经济
机器人大讲堂· 2026-01-11 17:39
文章核心观点 - 在情绪消费崛起与AI技术爆发的双重驱动下,陪伴机器人正从玩具赛道突围,快速成长为一个覆盖多场景、多人群的千亿级市场,并正在改写人类与科技相处的方式 [1][3] 一、孤独经济爆发:9亿人催生的陪伴刚需 - 消费需求向高层次情感需求转型,“情绪价值”成为产品溢价关键,2025年国内AI玩具线上市场销售额同比暴涨394.9%,其中主打情感陪伴的品类份额从7.0%跃升至15.7% [4] - 18-35岁独居青年超1.2亿,对拟人化交互陪伴产品需求强烈;25-30岁女性是核心消费群体,占比达72%,二手平台上字节跳动“显眼包”AI玩具溢价超200% [7] - 双职工家庭增多催生儿童陪伴需求,90后“科技育儿先锋族”父母青睐兼顾教育与互动的产品 [7] - 60岁以上老年人口达2.8亿,空巢老人占比超50%,高端陪伴机器人成为养老市场新刚需 [7] - 需求旺盛推动市场扩容,预计全球AI陪伴市场规模将从目前3000万美元飙升至2030年的700-1500亿美元;国内市场2024年规模约10亿元,预计2030年达38.6亿美元,年复合增长率高达75% [9] 二、技术破壁:从被动响应到主动共情 - 多模态大模型成熟,解决了“答非所问”痛点,能理解语境、情绪和潜台词,提供个性化回应 [11] - 大模型API调用成本降至极低水平,为规模化普及奠定基础 [12] - 整合多模态传感器(视觉、触觉、温度等),实现情绪识别与主动交互,例如三星等产品具备环境感知功能 [14] - 日本GROOVE X的LOVOT 3.0搭载深度相机和情感算法,售价2.98万元,成为CES销量冠军 [14] - 通过持续交互实现“千人千面”的成长型陪伴,优化用户回应方式,部分品牌采用“共创+成长”模式,使用户留存率提升50%以上 [16] 三、市场重构:三类玩家角逐千亿赛道 - **传统玩具商**:凭借成熟供应链和IP储备转型,核心优势在于“玩具+IP赋能”,带IP属性的AI玩具溢价可达3-5倍;例如奥飞娱乐推出“喜羊羊超能铃铛娃娃”(定价399元),Haivivi通过奥特曼等IP授权,2025年1-10月销售额破亿,市场份额达20.5% [19] - **科技新锐**:凭借硬核技术主攻中高端市场;例如字节跳动“显眼包”在二手平台炒至300-1000元;珞博智能Fuzozo销量突破12万台;噜咔博士AI拍学机2025年销售额超6200万元,社媒互动量增长1755.9%;可以科技Loona全球销量累计超9万台 [21] - **跨界玩家**:通过场景创新开辟新赛道;例如索尼Aibo机器狗、松下球形底座机器人、TCL Ai Me概念产品、三星Ballie球形滚动机器人(由谷歌Gemini驱动)等 [23] - 市场竞争未固化,2025年AI玩具TOP10品牌中4家为新上榜企业,教辅和潮玩赛道成为新品牌突围重点 [25] 四、产品进化:三级价格带覆盖全场景需求 - **入门级(100-500元)**:主打基础语音交互+IP形象,注重性价比,代表产品有奥飞AI喜羊羊等,2025年千元以下市场占比已成为主流 [27] - **中端(500-3000元)**:具备情绪识别、多语言交互等进阶功能,目标用户为一线城市中产家庭和20-40岁单身女性,该价格带增速最快,销售额占比已超40% [28] - **高端(>3000元)**:支持多模态交互、医疗级陪护等,服务于高净值家庭及养老机构,代表产品如LOVOT(2.98万元),硬件毛利可达60%以上 [30] - 产品形态多元,包括AI潮玩、AI教辅益智类、AI机器人,功能与价格高度匹配,避免了同质化竞争 [30] 五、未来趋势:四大方向定义陪伴新形态 - **情感计算精准化**:强化情感计算算法,实现更精准的情绪识别与多模态交互反馈 [32] - **IP融合深度化**:“IP+AI”双向赋能成为核心竞争力,未来产品将深度融入IP性格特质与语调风格,例如上影元《中国奇谭》IP积累超3亿播放量,具备开发潜力 [32] - **场景拓展多元化**:向成人情绪疗愈、老年医疗陪护、宠物互动、文旅教育等B端场景延伸 [34] - **变现模式服务化**:从“单次销售”转向“长期服务变现”,如推出C端订阅制、B端硬件销售+软件授权模式,并构建IP衍生与用户共创的全链路变现生态 [35][36] 六、机遇与挑战:千亿蓝海的成长烦恼 - **技术挑战**:视觉识别、情感分析、多模态交互等技术融合进展缓慢,部分产品存在交互不流畅、情感响应精度不足等问题 [37] - **安全与风险**:联网产品存在用户敏感信息泄露风险,尤其是未成年人信息保护;儿童过度依赖可能影响社交技能,老年人对新科技接受较慢 [37] - **同质化趋势**:尤其入门级市场已出现功能相似产品,缺乏差异化创新可能引发价格战 [39] - **发展机遇**:算力成本降低、大模型能力升级及供应链成熟将提升产品性价比;IP赋能、场景创新、服务化变现等策略有助于构建竞争壁垒 [40]
在谷歌深耕14年,华人研究员创立视觉AI公司,计划融资5000万美元
机器之心· 2026-01-11 10:17
公司概况与融资 - 由两位华人前谷歌资深研究员创立一家名为Elorian的全新视觉AI公司[1] - 公司计划完成一轮约5000万美元的种子融资[1] - 由前CRV普通合伙人Max Gazor于去年10月创立的风投机构Striker Venture Partners正在洽谈领投该轮融资[1] 创始人背景 - 创始人之一戴明博(Andrew Dai)本科毕业于剑桥大学计算机科学,在爱丁堡大学获得机器学习博士学位,在Google DeepMind工作14年后离职[1][3] - 戴明博在Google DeepMind担任首席研究科学家/主任级别研究管理职务,负责领导与Gemini大型AI模型研发相关的数据团队工作[3] - 创始人之一杨寅飞(Yinfei Yang)曾在Apple AI/ML担任研究科学家/多模态负责人,此前也在Google Research担任研究科学家[1][5] - 杨寅飞在视觉-语言联合表示和大规模多模态学习方面有重要贡献,其代表性研究成果推动了多模态表示学习的发展[5] - 两位创始人均已在LinkedIn上将公司状态更新为「隐身(stealth)」,戴明博的资料显示其担任CEO[5] 技术方向与目标 - 公司致力于打造能够同时理解和处理文本、图像、视频与音频的前沿AI模型[1] - 核心目标是构建能够通过同时处理图像、视频与音频,对现实世界进行视觉理解与分析的多模态AI模型[8] - 机器人是其潜在应用方向之一,但公司还设想了更多未对外披露的具体应用场景[8]
海尔消费金融2025年“特征英雄”落下帷幕,数智化风控质效显著
搜狐财经· 2026-01-06 15:50
公司近期活动与成果 - 海尔消金2025年“特征英雄”活动圆满收官 该活动旨在激发全员坚持数据科学驱动理念 深度挖掘金融服务场景中数据驱动的核心价值 扩充多维数据样本并验证数据特征核心优势[1] - 活动共吸引32名员工参与 从海量数据中挖掘出2023个高质量特征 相当于为风控系统增添了2023个新工具与新视角[5] - 2025年公司智能风控系统累计上线实时特征达10,427个 同比大幅增加70%[6] - 公司通过举办此类竞赛活动 激发全员拥抱AI的热情 强化数据驱动理念 挖掘数据资产 拓展特征来源和衍生技术 以服务实际业务并持续输出落地价值[6] 风控技术应用与创新 - 公司利用大模型替代人工对语音数据进行批量处理 提取有效信息用于信贷模型研发 以降低信用风险[5] - 公司挖掘信贷场景中时序特征的潜在价值 突破传统“静态快照”局限 利用RNN、Transformer等序列模型解析用户信息时序数据 精准识别“以贷养贷”行为以阻断风险传导[5] - 通过使用多模态大模型 提升了意图识别和风险判定的精度 能精准捕捉“还款困难”等语义特征[5] - 智能预警模型使早期风险识别效率提升10% 为信贷业务安全稳定开展提供保障[5] - 公司将AI深度嵌入全流程风控系统 既大幅降低了欺诈风险 又有效提升了信贷审批效率 形成“风险可控、服务高效”的双重优势[6] 行业趋势与公司战略 - 在数字经济与金融科技深度融合的背景下 以大模型、图学习、自然语言处理为代表的深度学习技术的成熟和普及 对信贷风控模型产生了颠覆性影响 行业呈现出多种人工智能技术融合应用的趋势[6] - 未来 随着联邦学习、强化学习、AGI等技术的发展和应用 风控模型将在数据隐私保护、动态策略优化等方面进一步突破 推动行业向更智能、更精准、更安全的方向发展[7] - 海尔消金坚持科技创新驱动 高度重视风控体系的智能化建设 随着公司AI First战略的持续深化 公司将更全面、更广泛地拥抱AI技术 持续强化数据治理与技术应用能力 在创新与风险平衡中实现信贷业务高质量发展[6][7] 行业认可 - 公司风控模型团队主创的“新时代人工智能背景下的信贷风控模型体系变革研究”项目 入选中国金融传媒评选的“转型成果综合评价实践案例” 公司综合AI风控技术实力得到行业权威认可[6]