多模态智能

搜索文档
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位· 2025-07-30 14:06
豆包APP视觉推理功能升级 - 核心功能升级为视觉推理,支持图片深度思考,通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具(放大/裁剪/旋转)等多步骤,例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片,通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理:在熊猫群像中精准定位足球,采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索:识别鄂温克族口弦琴、云南翅果藤等冷门内容,结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助:解答IMO数学题(经ChatGPT验证答案正确),一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制,区别于传统AI"先搜后想",支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力,例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合:Transformer架构统一处理文字/图像/音频,支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛,OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求(工业/医疗)形成共振,促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放,降低用户使用门槛[76][77]
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 12:03
世界模型数据集Sekai - 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构联合推出持续迭代的高质量视频数据集项目Sekai,旨在构建动态且真实的世界供交互探索 [2] - 数据集汇聚来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角视频,配有精细化的多维度标签 [2] - 包含两个互补子集:面向真实世界的Sekai-Real(YouTube视频)和面向虚拟场景的Sekai-Game(游戏视频) [3] 数据集特点 - Sekai-Real从8623小时YouTube视频中筛选出6620小时,确保分辨率不低于1080P、帧率高于30FPS,并保留原生立体声 [3][5][6] - 通过多维度采样模块提取300小时高质量子集Sekai-Real-HQ,综合考虑画质、内容多样性、地点、天气等因素 [3][9] - Sekai-Game来源于虚幻引擎5游戏《Lushfoil Photography Sim》,录制60小时实况视频并获取精确标注信息,最终处理得到36小时数据 [3][5][9] 数据处理流程 - 预处理阶段包括镜头边界检测、剪辑提取与转码(统一为H.265 MP4格式,720p分辨率,30fps帧率),以及视频过滤去除低质量片段 [8] - 标注阶段利用GPT-4o解析位置信息,Qwen 2.5-VL生成平均176字的时序描述,改进的MegaSaM提取相机轨迹 [8] - 采样阶段开发综合质量与多样性的策略,优化训练数据成本 [9] 应用与成果 - 基于Sekai数据训练交互式视频世界探索模型Yume,支持通过键鼠操作控制生成视频 [2] - 最终数据具备精准的三级位置信息、四大内容分类维度、详细视频描述及相机轨迹标注 [10] - 目标推动世界建模与多模态智能发展,应用于视频生成、自主导航等领域 [10]
不走寻常路的淘天技术节:AI狼人杀、Poster路演、博见社轮番上阵
量子位· 2025-07-01 11:51
技术节概况 - 淘天集团举办第四届硬核少年技术节 主题为AI技术展示与交流 活动在北京和杭州两地同步进行 [1][3] - 技术节突出实用主义技术美学 展示近40项AIGX技术体系成果 涵盖电商全场景应用 [8][10][31] - 活动形式分为AI展示场 交流场 开放场 比赛场 强调技术落地与产业结合 [3][4] AIGX技术体系进展 - 开源强化学习训练框架ROLL 支持十亿至千亿参数大模型训练 提升大语言模型在人类偏好对齐等场景的性能 [14][15] - 自研百亿参数推荐大模型RecGPT接入手机淘宝首屏 实现用户点击量两位数增长 加购次数提升5% [34][39] - 阿里妈妈万相营造技术实现云上商业化 打通B端客户商业化链路 [42][43] 特色活动设计 - AI展示场采用Poster路演形式 直观呈现AIGX技术在索引 推荐 创意等领域的应用 [7][11] - AI交流场博见社设置京杭双城分会场 聚焦多模态智能与AI Agent 邀请学界和工业界专家分享 [16][18][59] - AI比赛场创新设置AI狼人杀 测试AI Agent在语言理解与策略演化方面的能力 [25][26][27] 技术文化特质 - 技术节体现淘天集团朝气与匠心的文化特质 年轻技术人主导项目展示 强调系统能力持续打磨 [51][54][55] - AIGX技术体系覆盖电商全链路 从基础研究到产业化形成完整闭环 [31][32][44] - 推荐系统升级为发现式消费场 通过用户行为分析实现预判式推荐 [37][41]
一天 15k 星,代码生成碾压 Claude,连 Cursor 都慌了?谷歌 Gemini CLI 杀疯了
AI前线· 2025-06-26 13:44
谷歌Gemini CLI发布 - 谷歌正式发布终端环境下的AI助手Gemini CLI,支持每分钟60次、每天1,000次免费模型调用 [1] - 该工具是继Claude Code和OpenAI Codex CLI之后,第三家推出的终端智能体工具,标志着终端工具从小众走向主流 [3] - 开发者每月在Claude Code上的花费高达数百至数千美元,显示终端工具市场潜力巨大 [3] 产品特性与优势 - 提供业界最宽松的免费调用配额:每分钟60次、每天1,000次请求,全部免费 [4] - 接入Gemini 2.5 Pro模型,具备百万token上下文窗口和Agentic AI能力 [4][15] - 支持代码编写、问题调试、项目管理、文档查询及代码解释等多项功能 [9] - 开源项目,采用Apache 2.0许可,发布不到一天即获得15.1k星标 [8] - 支持多平台运行(Mac/Linux/Windows),Windows上为原生实现无需WSL [10] 技术架构与设计理念 - 采用通用模型Gemini 2.5 Pro而非专用代码模型,强调多能力协同发展 [15][17] - 产品负责人认为现实开发任务需要模型具备代码外的上下文理解能力 [17] - 研究团队探索双路线:扩展上下文窗口与发展agentic编程模型 [23] - 系统提示词精确定义工具行为,强调注释应解释"为什么"而非"做了什么" [13] 市场反馈与竞争态势 - 社区关注焦点集中在超大免费配额上,认为这将给Anthropic带来巨大压力 [6] - 开发者反馈Gemini 2.5 Pro在50万行代码规模项目中表现优于Claude Code [18] - 在Trae平台上编程完成率大幅超过Claude 3.7,修复bug速度也更快 [20] - 有案例显示Gemini解决3D渲染问题仅需5分钟,而Claude Code耗时2小时未果 [21] 技术演进方向 - 数据层面注重代码仓库上下文理解,目标从简单补全转向复杂修改 [21] - 方法论层面利用内部工程师资源提升模型匹配专业开发者需求的能力 [22] - 研究团队模拟人类开发者工作方式,同时探索突破人类经验限制的新解法 [24]
张亚勤:后ChatGPT时代,中国人工智能产业的机遇、5大发展方向与3个预测
36氪· 2025-05-16 12:27
ChatGPT的技术突破与行业影响 - ChatGPT成为历史上最快突破1亿用户的科技应用,两个月内实现这一里程碑 [3] - ChatGPT基于GPT-3.5优化,语言能力显著超越GPT-3,首次通过图灵测试 [1][4] - 生成式AI领域出现技术质变,ChatGPT标志着AI从垂直工具向通用智能体的跃升 [4][6] 大模型驱动的IT行业结构重塑 - 新IT架构分为四层:算力基石层、IaaS层、基础模型层(MaaS)、垂直模型层(VFM)+SaaS层 [9] - 垂直基础模型层和SaaS层是创新风口,边缘计算领域存在大量机会 [11] - 企业可通过精调训练(Fine Tuning)和提示工程(Prompt Engineering)降低开发成本 [12] 中国AI产业的发展机遇 - 中文大模型需多语种训练数据,非中文数据不会成为瓶颈 [15][16] - 国内技术差距集中在高端芯片、算法系统和平台级技术,但追赶潜力大 [17] - 垂直领域(如医疗、边缘智能)是主要机会点,"百模大战"加速市场活力 [18][19] AI大模型的五大发展方向 - 多模态智能:整合文字、图像、视频、生物信息等跨模态数据 [32] - 边缘智能:部署轻量化模型到终端设备,实现低延时处理 [33] - 物理智能与生物智能:推动自动驾驶、机器人及医疗领域突破 [33] 生成式AI的未来技术路线 - 基础大模型+垂直模型+边缘模型构成技术底座,生态规模将超移动互联网10倍 [34] - 统一标识(Tokenisation)和规模定律(Scaling Law)是核心要素 [34] - 5年内可能在Transformer等主流框架外出现颠覆性新技术 [34][35]
山东“加码”10亿元资金 “券”力推动人工智能全链条发展
环球网资讯· 2025-05-13 12:14
政策支持 - 山东省级财政统筹整合10亿元人民币资金支持人工智能发展重点集群、平台、企业和项目,政策延续至2026年年底 [1] - 创新推出"算力券""模型券""语料券""数据集"等支持政策,为人工智能发展提供强劲支撑 [1] - 印发《推进方案》和《政策措施》,"一揽子"推出28条、45项政策措施,形成完整"政策包" [3] 应用场景 - 《推进方案》聚焦化工、铝业、医疗、数字政务等13个重点领域,明确赋能应用方向、具体目标和重点模型支撑 [3] - 支持打造元宇宙"名品"和"名景",培育人形机器人等终端产品,支持扩大智能家居消费 [5] 研发投入 - 每年布局150项以上基础研究项目,支持多模态智能、具身智能、群体智能等前沿理论研究 [4] - 支持人工智能产业科技创新行动,加大对基础软件、智能硬件等技术攻关的引导力度 [4] - 实施人工智能芯片和软件奖补,提升自主可控能力 [4] 要素供给 - 按照购买算力交易金额比例实施"算力券"奖补,强化普惠智能算力供给 [4] - 每年遴选10个高质量语料库实施"语料券"奖补 [4] - 每年遴选30个大模型产品实施"模型券"奖补,加快高效能大模型建设 [5] 发展目标 - 到2027年在关键芯片、具身智能、垂域大模型等领域布局建设30家左右省重点实验室、20家左右省技术创新中心 [5] - 集聚省级以上科技人才240余人,培育孵化50家以上科技型企业 [5] - 强化底层技术和行业关键共性技术研究,催生重大标志性创新成果 [5]
统筹10亿资金,推进“人工智能+”发展
齐鲁晚报· 2025-05-13 05:07
政策支持与资金投入 - 山东省政府出台《推进方案》和《政策措施》,计划2025年省级财政投入10亿元支持人工智能创新发展,其中新出台增量政策涉及2亿元 [1] - 政策包含28条具体措施,设立人工智能产业基金,支持重点集群、平台、企业及项目,政策延续至明年年底 [4] - 创新推出"算力券""模型券""语料券"等支持政策,强化算力、数据、模型等核心要素供给 [6] 重点赋能领域 - 产业发展方面聚焦化工、铝业、钢铁、矿山开采、高端装备、生物医药6大支柱产业,推动规模化应用以重塑产业优势 [2] - 生活消费领域选择家居、出行、医疗、文旅4个方向,通过AI技术提升消费体验,如文旅领域应用全息投影重现传统文化场景 [3] - 政务服务领域覆盖数字政务、社会治理、公共安全3个方向,提升服务精准化与效率 [3] 科技创新与要素供给 - 每年布局150项以上AI基础研究项目,支持多模态智能、具身智能等前沿理论研究 [5] - 每年遴选10项重大产业攻关项目解决"卡脖子"问题,加强基础软件和智能硬件技术攻关 [5] - 每年遴选30个大模型产品实施"模型券"奖补,推动垂直领域行业大模型建设 [6] 应用场景与生态建设 - 目标到2027年培育20个基础级AI大模型、50个标杆应用场景、100个融合示范案例 [3] - 每年遴选10个高价值标杆场景给予奖补,支持建设行业"产业大脑"和元宇宙"名品""名景" [7] - 加强企业梯度培育,对国家级专精特新"小巨人"企业给予奖励,落实税收优惠政策 [7] 资源保障与金融支持 - 统筹专项资金、超长期特别国债和政府债券,支持"人工智能+"重点项目 [8] - 推动组建人工智能产业基金,拓展企业市场化融资渠道 [8]
刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理
量子位· 2025-04-10 21:25
核心观点 - 商汤最新发布的日日新SenseNova V6模型在纯文本和多模态任务中多项指标超越GPT-4.5、Gemini 2.0 Pro及DeepSeek V3,具备强推理、强交互和长记忆三大特点[4][6][8] - 该模型采用6000亿参数MoE架构,实现文本、图像和视频的原生融合,并支持秒级视频解析、自动剪辑、实时音视频交互等实用功能[4][10][13] - 技术突破包括原生多模态融合训练、64K tokens长思维链合成、混合增强学习及长视频动态压缩四大核心技术[26][30][36][41] - 商汤强调AI应服务于日常生活场景,如数学辅导、游戏解说、城市识别等,体现"百姓日用"的产品定位[18][19][48][56] 性能表现 - 纯文本任务:MMLU-Pro得分78.66(GPT-4.5为78.63)、BigBench Hard 94.98(GPT-4.5为94.45)、DROP 92.28(GPT-4.5为90.30)[6] - 多模态任务:MMBench(v1.1) 89.40(GPT-4.5为83.40)、MMVet 85.92(GPT-4.5为75.30)、Math Vista 79.40(GPT-4.5为70.50)[6] - 推理能力:V6 Reasoner在MATH-500达到97.40分(OpenAI o1为97.00)、AIME 2024 78.33分(GPT-4.5*仅38.75)[6] 技术架构 - 原生多模态融合:通过桥接技术避免模态间能力失衡,在SuperCLUE和OpenCompass评测中位列国内第一[26][29] - 长思维链合成:支持64K tokens(约5万字)深度思考,储备超1000万条思维链数据用于复杂推理[30][32] - 混合增强学习:结合RLHF与RFT训练方法,平衡逻辑严谨性与情感表达自然度[36][38] - 长视频处理:10分钟视频可压缩至16K tokens保留核心语义,实现跨模态时序对齐[41][42] 应用场景 - 视频解析:支持分钟级视频总结、秒级片段推演(如柯南剧情分析、足球进球剪辑)[2][3][4] - 实时交互:通过商量APP实现韩剧片段情感分析(识别sad情绪)、看图猜城市(精准识别长沙)[13][16] - 教育辅助:识别手写数学题并提供个性化解题指导,突破标准答案局限[19][21] - 具身智能:为机器人集成多模态感知能力,延伸至物理世界交互[22][50] 行业观点 - 商汤联合创始人杨帆认为具身智能需直面质疑才能推动产业成熟[51][52] - 银河通用张直政指出技术泡沫是创新驱动力,需将想象转化为产品[53] - 上海交大闫维新预测危险替代场景或成具身智能3-5年内落地方向[55]