多模态大模型
搜索文档
奇多多AI学伴亮相2025云栖大会,无界方舟用AI“慧眼”开启智能早教时代
财富在线· 2025-09-29 18:24
产品发布与市场反响 - 无界方舟在2025云栖大会推出国内首款基于端到端实时多模态互动模型的AI学伴机器人“奇多多”,成为全场焦点 [1] - 产品在京东预售上线一周销量突破10000台,显示市场对优质AI早教产品的强烈需求 [1] - 展会期间现场获得上百位家长下单预定,并吸引几十家AI产品后续对接公司EVA模型的合作机会 [3] 产品核心功能与差异化优势 - 产品具备真正的多模态理解能力,能识别孩子手中的任意绘本、教材、卡片等读物,无论中文、英文或复杂混合排版,并能看懂现场绘画,对日常物品进行即时科普 [7] - 提供三种阅读模式:朗读模式(识别所有类型读物、多种主流语言文字)、翻译模式(支持多语言即时互译)、指读模式(文字、单词、图案识别及科普),可替代传统点读笔、词典笔、故事机等多种产品 [7] - 通过对比表格显示,产品在科普认知拓展、单词/词组学习、阅读绘本/期刊/杂志、学科解题、双语互动、英文翻译、情绪安抚、成长记录、亲子语音通话等功能上具备显著优势,整合了多种单一功能产品的价值 [12] - 交互体验革新,无需按压拍照或对话,语音交互延迟≤250ms,视频交互延迟≤400ms,书籍/实物识别延迟≤300ms,匹配儿童快速转移的注意力特性 [9][16][18] - 具备个性化成长属性,拥有48种情绪计算体系,100+种眼神表情互动,可克隆父母音色,并通过“存储型记忆+参数化记忆”技术打造专属记忆引擎 [20][26] 底层技术突破 - 产品基于公司自研的EVA实时多模态互动模型,该模型采用“模态中枢+成长型认知引擎”架构,实现了从“成人适配”到“儿童友好”的突破 [13][14] - EVA模型的“书籍全域识别引擎”支持所有类别书籍甚至手写本,识别准确率达96%;实物识别在复杂环境下保持93%以上准确率;儿童手写和涂鸦识别准确率达94% [24] - 针对儿童早教场景视觉识别的四大核心挑战(非标准书籍、实物形态多变、复杂环境干扰、儿童非标准书写)进行了全面优化 [24] - 采用创新PrivateLoRA技术构建隐私优先的大模型架构,将涉及用户隐私的计算任务本地化,无需原始数据上传至云端,加强儿童信息安全与隐私保护 [28] 商业化前景与生态战略 - 早教硬件市场看似红海,但行业退货率高达30%-70%,AI类产品退货率尤高,表明现有产品力并未真正满足市场需求,为技术驱动的新型产品创造了机会 [11] - 公司计划开放EVA OS生态,将核心多模态交互能力标准化、可插拔化,向硬件合作伙伴提供多模态交互API、知识与视觉接口、硬件适配SDK等 [30] - 首批合作伙伴已取得成效:某知名儿童出版社接入EVA书籍识别能力后,其小众科普书用户阅读时长提升3.5倍;户外玩具厂商通过实物识别API使产品销量增长52% [30] - EVA OS致力于打造开放协同的生态,通过开发者社区和技术支持赋能合作伙伴,共同推动多模态AI在智能硬件领域的创新与应用 [30]
曝顶级AI大牛,加入阿里通义,事关下一代大模型
36氪· 2025-09-29 17:56
人才变动 - 全球顶尖AI科学家许主洪加盟阿里通义 转向通义大模型研发工作[2] - 许主洪拥有超20年AI产业和学术经验 发表300多篇顶级学术论文 被引用超过5万次 曾被评为全球顶尖1% AI科学家[2] - 许主洪曾担任Salesforce副总裁 从零构建亚洲AI研究生态系统 2023年创立多模态AI创企HyperAGI[2] 职务安排 - 2025年2月许主洪加入阿里 担任集团副总裁兼智能信息事业群首席科学家 负责AI To C业务多模态基础模型及智能体研究[4] - 原核心任务包括组建顶级AI算法团队 整合通义/夸克/天猫精灵等内部资源 促进多模态交互产品迭代[4] - 加入7个多月后转向通义实验室团队 可能从AI To C商业化研发转向更基础前沿的大模型研发[7] 战略布局 - 阿里通义大模型处于"拼迭代速度"和"多模态发展"关键阶段 需要顶尖产学研多栖AI人才[7] - 阿里云CTO周靖人透露 通义家族持续与全球AI领先者竞争 比拼模型迭代效率 多模态演进是必然趋势[7] - 公司期待在多模态方面进一步创新突破 许主洪被视作最适牵头人选[7] 技术方向 - 许主洪认为用统一框架做理解和生成是多模态大模型演进趋势 但该领域尚处初级阶段需实践验证[7] - 统一多模态模型面临全模态交互挑战 支持音/视/图/文全模态交互的公开单模型非常少见[10] - 图像和语意理解生成统一模型鲜有出现 理解与生成效果难以平衡[10] - 多模态Agent AI时代刚起步 需解决基础能力/智能体功能模块/数据世界连接/物理世界交互等技术难题[10]
传梅卡曼德机器人秘密申请香港IPO 预计募资15.6亿港元
智通财经· 2025-09-25 09:52
上市计划与融资情况 - 公司已秘密提交香港上市申请 预计募资2亿美元(合15.6亿港元)[1] - 累计融资额超20亿元人民币 最新一轮融资约5亿元人民币[1] - 投资方包括IDG资本、美团、红杉中国、源码资本、英特尔资本、启明创投等知名机构[1] 技术能力与产品布局 - 公司专注于具身智能机器人领域 产品包括工业级3D相机、机器人编程软件、机器视觉软件[1] - 自研通用机器人"眼脑手"全栈技术 涵盖多模态大模型、成像算法、AI识别算法、机器人控制等核心技术[2] - 在2025世界人工智能大会展示近10个前沿应用单元 包括双臂机器人叠衣、人形机器人取货等场景[2] 市场地位与商业化进展 - 连续五年(2020-2024)位列中国3D视觉引导工业机器人市场占有率第一[2] - 产品进入全球100+《财富》500强企业的灯塔工厂 市场占有率保持全球领先[2] - 业务覆盖中国、美国、日本、韩国、欧洲、东南亚等国家和地区[2] 行业应用与客户基础 - 技术已在汽车、新能源、物流、重工、3C、家电、食品等行业实现跨领域批量化应用[2] - 最新融资将用于拓展产品线与场景应用 提升全球商业化与客户服务能力[1]
百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流
选股宝· 2025-09-25 08:14
模型系列概述 - Qianfan-VL系列包含3B、8B和70B三个版本 参数量从小到大 分别对应不同应用场景 [1] 模型规格对比 - 3B版本支持32k上下文长度 不支持思考功能 适用于端上实时场景和OCR文字识别 [2] - 8B版本支持32k上下文长度 支持思考功能 适用于服务端通用场景和微调优化场景 [2] - 70B版本支持32k上下文长度 支持思考功能 适用于离线数据合成和复杂推理计算场景 [2] - 全系列模型均在百度自研昆仑芯P800芯片上完成训练 [2] 核心功能特性 - 多模态大模型具备图像理解和文字处理能力 可分析复杂图表数据与趋势 [3] - OCR能力实现全场景覆盖 支持印刷体、手写字、艺术字及数学公式识别 [3] - 教育场景深度优化 专注于K12阶段 擅长拍照解题、几何推理和函数分析 [3] 性能基准测试 - 在ScienceQA测试中70B版本达到98.76分接近满分 显著超越竞争对手 [4] - 中文多模态基准测试CCBench中70B版本获得80.98分 相比同级别对手70分左右优势明显 [5] - 数学解题测试(Mathvista-mini, Math Vision, Math Verse)中70B版本呈现碾压式领先 [5] - 具体测试得分:A-Bench_VAL(78.1) CCBench(80.98) SEEDBench_IMG(79.13) SEEDBench2_Plus(73.17) MMVet(57.34) MMMU_VAL(58.33) ScienceQA_TEST(98.76) ScienceQA_VAL(98.81) MMT-Bench_VAL(71.06) MTVQA_TEST(32.18) BLINK(59.44) MMStar(69.47) RealWorldQA(71.63) Q-Bench1_VAL(77.46) POPE(88.97) RefCOCO(91.01) [4] 硬件支撑体系 - 训练基于百度自研昆仑芯P800芯片 2025年4月建成国内首个3万卡P800集群 [6] - 模型训练在超过5000张昆仑芯P800卡集群上完成 [6] - 芯片参数:7nm制程 INT8算力256 TOPS 内存16/32GB GDDR6 内存带宽1.2 TB/s 功耗150/160W 互联带宽600 GB/s [7] - 功耗控制显著优于竞争对手 A100功耗250/400W H100功耗700W [7] 芯片架构创新 - 采用XPU-R架构 实现计算单元与通信单元硬件分离 [8] - "通算融合"技术通过精巧调度掩盖数据传输等待时间 大幅提高芯片利用率 [8] - "昆仑芯超节点"方案将64张P800集成单机柜 机内通信带宽提升8倍 单机训练性能提升10倍 [8] 模型架构设计 - 语言模型部分:3B版本基于Qwen2.5 8B和70B版本基于Llama 3.1 [10] - 视觉编码器采用InternViT 最高支持4K超高清图像处理 [10] - 采用创新"四阶段训练管线"提升模型性能 [10] 训练方法论 - 第一阶段跨模态对齐:冻结语言和视觉模块 仅更新MLP Adapter连接件 [14] - 第二阶段通用知识注入:投放2.66T tokens通用数据 全面开放参数训练 [14] - 第三阶段领域增强知识注入:精选OCR/文档理解/数学解题等高质数据专项训练 掺入通用数据防止灾难性遗忘 [14] - 第四阶段后训练:通过指令微调数据提升指令遵循能力 [14] - 专业数据通过高精度数据合成管线自主生成 [15] 开源与部署 - 全系列模型已在GitHub和Hugging Face平台全面开源 [16] - 百度智能云千帆平台提供在线体验和部署服务 [17] - 具体开源地址:GitHub(https://github.com/baidubce/Qianfan-VL) Hugging Face(70B/8B/3B版本) ModelScope(百度千帆组织) [17]
等了大半年的Qwen3-VL终于也开源了!
自动驾驶之心· 2025-09-24 14:35
阿里云通义千问Qwen3-VL多模态模型发布 - 阿里云在云栖大会期间密集开源了Qwen3-Omni系列、Qwen-Image-Edit-2509、Qwen3-VL、Qwen3Guard-Gen等12个模型[4] - 同时发布了未开源的API产品包括Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等[5] - Qwen3-VL-235B-A22B作为MoE架构模型采用MRoPE-Interleave位置编码技术 显著提升长视频理解能力[7] 模型架构升级 - vision encoder部分将patch_size从14扩大到16 激活函数从silu变为gelu_pytorch_tanh[6] - projector部分在MLP-based Projector基础上增加DeepStack 将vision encoder中8、16、24三层特征插入LLM[6] - llm decoder部分采用Qwen3模型 支持Dense和MoE两种架构[7] 性能基准测试表现 - 在MMMUVAL测试中获得78.7分 接近Gemini2.5-Pro的80.9分[10] - MathVistamini测试达到84.9分 显著超越GPT5的50.9分和Claude-Opus-4.1的74.5分[10] - MMBench_EN_V1.1 dev测试获得89.9分 超越InternVL3的89.0分[10] - DocVQATEST测试达到97.1分 领先Gemini2.5-Pro的94.0分和GPT5的89.6分[10] - OCRBench测试获得920分 大幅超越Gemini2.5-Pro的872分和GPT5的787分[10] 实际应用测试结果 - OCR手写体识别准确率显著提升 色彩识别能力改善明显[13] - 表格识别任务保持高水平表现 能够准确还原HTML表格结构[17][19] - 数学计算能力突出 在GDP数据计算任务中准确识别江苏省141633.8亿元为最大值并计算占比10.56%[36][37][39] - 图片排序任务表现优异 正确理解雪糕购买滑倒的因果逻辑序列[71][73] - 色盲测试全部通过 准确识别数字6和74[93][97] - 医疗报告分析能力强大 准确解读体检报告异常指标[27][28] 现存技术局限 - 网页复刻任务效果较差 生成的HTML代码美观度不足[23] - 目标计数存在误差 将10个菇娘儿误判为11个[46] - 空间变换能力有限 复杂三维变换任务回答错误[89] - 地标识别存在偏差 将上海金茂大厦误认为上海中心大厦[104] - 多图对比任务表现不佳 奔跑的人定位任务行列序号判断错误[52][54] 模型部署建议 - 当前235B-A22B参数规模较大 期待推出30B-A3B等轻量化版本满足更广泛部署需求[106] - 推理版本存在过度思考导致错误的问题 需要优化思考机制[13] - 在GUI界面理解任务中表现良好 得益于精准的grouding能力[13]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 19:01
模型发布与市场反响 - 行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告正式发布 [1] - 模型在HuggingFace和ModelScope平台的合计下载量已超过22万次 [4] - 模型开源后广受社区好评,并登上HuggingFace Trending榜单第二名 [3] 核心技术突破 - 提出统一的3D-Resampler架构,实现最高96倍的视觉压缩率,将6个连续视频帧压缩为仅64个视觉Token [8][11] - 采用面向文档的统一OCR和知识学习范式,摆脱对外部解析工具的依赖,在OmniDocBench上取得通用MLLM中的最好表现 [8][26] - 运用可控混合快速/深度思考的多模态强化学习策略,在节省30%训练开销的同时,推理耗时仅为同规格深度思考模型的42.9%-68.2% [9][29] 性能评测表现 - 模型参数量为8B,在OpenCompass综合评测中取得77.0的平均分,超越GPT-4o-latest和Qwen2.5-VL-72B等模型 [2][34] - 在Video-MME视频理解评测集上,时间开销仅为同级模型的1/10,显存占用相比Qwen2.5-VL7B减少至46.7% [8][36] - 在幻觉抑制方面表现优异,ObjHalBench的CHAIRs指标为9.3,优于对比模型 [33] 效率与成本优势 - 统一的3D-Resampler架构实现了图像与视频处理的统一编码,从2D扩展至3D仅需轻量化的SFT阶段,极大降低训练成本 [12][14] - 在OpenCompass评测中,模型以7.5小时的推理时间获得77.0的分数,优于其他同规模模型所需11.0小时和17.5小时 [37] - 高密度视频压缩技术使模型在处理视频时具有显著的效率优势,时间开销大幅降低 [36] 行业影响与学术认可 - MiniCPM-V系列模型由清华大学自然语言处理实验室和面壁智能联合开发,系列模型总下载量超过1300万次 [49] - 相关技术论文发表于国际著名期刊Nature Communications,谷歌学术引用超过600次 [49] - 系列模型曾入选HuggingFace 2024年度最受欢迎和下载开源模型榜单、中关村论坛年会10项重大科技成果等 [49]
阿里一夜扔出三个开源王炸,猛刷32项开源SOTA
36氪· 2025-09-23 17:06
阿里通义多模态大模型技术突破 - 开源原生全模态大模型Qwen3-Omni 支持文本、图像、音频和视频无缝处理及实时流式响应 在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA 超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源模型 [1] - 语音生成模型Qwen3-TTS支持17种音色与10种语言 在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品 [1] - 图像编辑模型Qwen-Image-Edit-2509更新 首要更新是支持多图编辑 可拼接不同图片中的人物+人物、人物+物体等 [1] Qwen3-Omni功能与性能 - 支持119种文本语言交互、19种语音理解语言与10种语音生成语言 延迟方面纯模型端到端音频对话延迟低至211ms 视频对话延迟低至507ms 支持30分钟音频理解 [4] - 在全方位性能评估中 单模态任务表现与参数规模相当的Qwen系列单模态模型持平 音频任务表现更好 在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平 [10] - 采用Thinker-Talker架构 Thinker负责文本生成 Talker专注于流式语音Token生成 直接接收来自Thinker的高层语义表征 支持高并发与快速推理 [12][13] Qwen3-TTS技术特性 - 中英稳定性在seed-tts-eval test set上取得SOTA表现 超越SeedTTS、MiniMax、GPT-4o-Audio-Preview [14] - 多语言稳定性和音色相似度在MiniMax TTS multilingual test set上 WER在中文、英文、意大利语、法语达到SOTA 显著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview [14][16] - 具备高表现力的拟人音色 提供17种音色选择 每一种音色均支持10种语言 支持方言生成包括普通话、闽南语、吴语、粤语等9种方言 [14][15] 图像编辑模型升级 - Qwen-Image-Edit-2509支持多图输入 通过拼接方式提供"人物+人物"、"人物+商品"、"人物+场景"等多种玩法 [22] - 单图一致性增强 人物编辑一致性增强包括增强人脸ID保持 商品编辑一致性增强包括增强商品ID保持 文字编辑一致性增强支持多种文字的字体、色彩、材质编辑 [25] - 原生支持ControlNet 包括深度图、边缘图、关键点图等 [25] 实际应用场景表现 - 具备良好的世界知识储备 通过识别啤酒品牌、植物等画面进行测试 模型均能给出准确回答 [3] - 支持分析音乐风格、元素 以及对视频中画面进行推理 如分析出视频中的用户是在解数学题还会对这道题进行解答 [9] - 在多人交互场景中能分析人物的性别、说话的语气、内容等 如分析方言类型及对话内容 [8]
光模块再冲锋,中际旭创涨超4%!英伟达拟向OpenAI投资至多1000亿美元!云计算ETF汇添富(159273)一度大涨超2%!
新浪财经· 2025-09-23 10:41
行业事件驱动 - 英伟达与OpenAI达成战略合作意向 将建设至少10吉瓦AI数据中心并配备数百万块英伟达GPU 英伟达计划投资至多1000亿美元支持新系统落地[3] - 合作消息直接催化光模块板块大涨 中际旭创涨超4% 新易盛涨超3%[3] - 算力板块受海外消息影响整体走强 云计算ETF汇添富(159273)盘中最高涨超2% 当日成交额近2000万元 近20日净流入超7亿元[1][3] 个股表现 - 中际旭创涨幅4.64% 成交额97.46亿元 在云计算ETF中权重占比15.82%[4] - 新易盛涨幅3.54% 成交额91.48亿元 权重占比15.57%[4] - 阿里巴巴-W涨2.20% 成交额49.44亿元 权重占比8.67%[4] - 腾讯控股微跌0.31% 浪潮信息涨0.77% 中科曙光跌0.59%[4] 光模块行业前景 - 英伟达GPU和自研ASIC快速迭代 每代芯片Scaleout带宽保持翻倍提升 带动光模块使用量飙升[5] - AI多模态大模型参数量提升推动带宽容量扩张 芯片互连领域呈现"光进铜退"趋势[5] - 市场采用GPU:光模块=1:2.5换算比例 若Scale Up应用CPO技术 比例将变为GPU:光引擎=1:11.5[5] - 光模块应用范围从GPU扩展至CPU、FPGA、ASIC及HBM等领域 行业未来将演进为光引擎行业 市场规模预计大幅增长[5] 算力需求与资本开支 - 推理算力需求成为驱动全球云厂商资本开支的关键因素[6] - 2025年海外四大云厂商合计资本开支预计同比增长50%至3338亿美元 2026年投资规模将进一步扩大[6] - 美国科技巨头公布大规模投资计划 Meta计划到2028年投资6000亿美元 苹果投资6000亿美元 谷歌投资2500亿美元 微软每年投资750-800亿美元[6] - 算力服务板块(云服务、算力租赁、IDC提供商)将成为AI基础设施需求的二阶受益者[6][7] - 万卡集群成为大模型竞赛入场券 运营商和互联网大厂持续加大投入 为算力服务公司打开新成长空间[7] 产品布局 - 云计算ETF汇添富(159273)覆盖A+H算力龙头 标的指数涵盖硬件设备、云计算服务、IT服务等六大领域[7] - 指数软硬件比例6:4 港股权重超26% 全面布局AI算力驱动下的云计算机遇[7]
自驾方向适合去工作、读博还是转行?
自动驾驶之心· 2025-09-22 18:30
自动驾驶行业职业发展考量 - 个人需评估自身在自动驾驶领域的积累,包括算力、算法、硬件或机器人相关基础,高校实验室若缺乏实战经验可能导致与工业界需求脱节[2] - 读博需具备开拓者思维,能够独立探索前沿课题(如端到端VLA),并选择专业实验室,避免导师半路出家影响研究进度[2] - 职业选择应基于现有基础强弱,若基础薄弱需通过系统化学习避免踩坑,例如加入专业社区获取指导[3] 自动驾驶之心知识星球社区资源 - 社区集视频、图文、学习路线、问答、求职交流为一体,当前成员超4000人,目标2年内规模近万人[3] - 提供近40+技术路线梳理,涵盖VLA benchmark、综述、入门路线等,缩短检索时间[5] - 邀请数十位一线产业界和学术界嘉宾答疑,覆盖端到端自动驾驶、多模态大模型等热点话题[5] 社区技术内容体系 - 技术方向覆盖感知、规划控制、仿真等40+领域,包括BEV感知、扩散模型、世界模型等关键技术[7][14] - 学习路线包含自动驾驶感知、仿真、规划控制等模块,如端到端学习路线、3DGS算法原理等[14] - 汇总开源项目、数据集(近60+)、仿真平台,助力快速上手项目实践[14][31][33] 社区教育与实践支持 - 提供原创直播课程,涵盖感知融合、多传感器标定、SLAM、端到端自动驾驶等9大系列视频教程[8] - 与多家自动驾驶公司建立内推机制,直接对接岗位如端到端算法工程师、云端大模型工程师等[9] - 社区成员来自上海交大、CMU、蔚小理、华为等300家机构,促进学术与工业界交流[13][98] 行业前沿技术聚焦 - 重点布局端到端自动驾驶,梳理一段式/二段式量产方案、VLA算法及数据集[35][43] - 深入探讨3DGS与NeRF在自动驾驶仿真、场景重建中的应用,邀请学者分享最新工作[37][87] - 覆盖视觉语言模型(VLM)、世界模型、扩散模型等热点,整合量产方案与学术研究[41][47][49]