多模态大模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态大模型

搜索文档

业务合伙人招募！4D标注/世界模型/VLA/模型部署等方向

自动驾驶之心· 2025-10-02 11:04

业务合伙人招募计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 主要技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向包括具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等前沿领域 [3] 岗位要求 - 候选人需毕业于QS200以内高校，并拥有硕士及以上学历 [4] - 拥有顶级学术会议发表成果的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享，包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]

多模态大模型

自动驾驶相关课程研发

多模态大模型

自动驾驶相关课程研发

AI+教育，一个被远远低估的赛道

凤凰网· 2025-09-29 20:29

行业背景与市场潜力 - 2024年5月GPT-4o的发布展示了AI实时语音辅导的潜力，对教育行业产生冲击，但随后通用大模型未持续发力，反而激发了AI+教育市场的潜力，教育赛道多方势力开始投入 [1] - 辅导作业是家长的刚需，学生知识体系庞杂导致家长难以应对，这催生了学习机市场的火热 [3] - 行业内AI老师多数还停留在L2阶段，能够做到播放讲解视频、作业批改，但往往是独立的AI板块，并非真正的教学过程 [13] 产品功能与技术应用 - 学而思学习机通过多模态能力的引入，实现了能看见、会理解的功能，可以通过扫描学生作业完成实时批改和讲解 [2] - 学习机内嵌的智能体“小思”可以与学生对话互动，例如通过语音指令“复活数学家”召唤虚拟祖冲之进行一对一互动，激发学习兴趣 [4] - 产品涵盖数学、语文、英语等学科，覆盖学龄前启蒙至高中课程体系，并能通过AI测试判断孩子学习情况，提供针对性辅导方案 [5] - AI作业批改是最大亮点之一，通过多模态识别扫描题目后实时生成解题过程，提供更详细的解题思路拆解 [6][7] - 小思AI 1对1超级教育智能体具备L3级别能力，可实时观察学生学习过程，逐步检查解题步骤并给出反馈，实现有来有回的陪跑式教学 [13] 公司战略与技术路径 - 好未来在2023年初决定让技术团队放下其他工作，专注于大模型，但放弃自研通用大模型，选择在顶级开源模型上进行二次调教与强化 [8] - 公司采用双轨路线，结合DeepSeek通用大模型（负责百科问答、会话）和自研的九章垂类大模型（负责拍批、答疑、精准学等教育专项功能） [9] - 九章大模型建立在优秀开源通用大模型之上，并加入大量教育行业专业数据进行后训练，以解决通用大模型存在的幻觉和知识点匹配不精准问题 [9][10] - 公司认为随着通用大模型能力提升，垂类模型更需要通过专业数据构建自身护城河 [10] 未来发展方向 - 好未来将AI老师等级划分为L1-L5，L1为初级找素材，L2为独立板块讲题批改，L3为限定场景多能力组合，L4为高度自主贯穿多场景，L5为完全体AI老师 [12] - 公司目前已具备L3级别AI老师的雏形，行业攻坚重点在于多模态交互和个性化学习 [13] - 公司认为AI可以在学习模式、教育内容和师生交流互动上无限趋近甚至重构真人老师，但不会完全替代，因教育本质包含情感互动和价值观导向 [14] - 好未来坚定看好AI老师方向，认为真人老师能做的部分工作未来AI老师都能干且干得更好 [15]

好未来(US:TAL)

多模态大模型

学而思学习机T4旗舰款

小思AI 1对1超级教育智能体

多模态大模型

学而思学习机T4旗舰款

小思AI 1对1超级教育智能体

奇多多AI学伴亮相2025云栖大会，无界方舟用AI“慧眼”开启智能早教时代

财富在线· 2025-09-29 18:24

在近日举办的2025云栖大会现场，无界方舟推出的国内首款基于「端到端实时多模态互动模型」的AI 学伴机器人——奇多多，成为全场焦点。这款产品在京东预售仅上线一周，销量便突破了10000台，这个数字不仅体现了市场对优质AI早教产品的渴望，更预示着多模态大模型在消费级硬件领域的商业化曙光正在到来。正如一位现场宝妈所说："太好了！终于不止是AI玩具了，而是解决了很多早教痛点问题。"在AI技术日益成熟的今天，奇多多的成功或许验证了：在早教赛道，"功能驱动"比"概念炒作"更能让市场买单。更令人瞩目的是，奇多多在展会期间，现场获得了上百位家长下单预定，同时吸引了几十家AI产品后续对接无界方舟EVA模型的合作机会，成为本届大会最具商业潜力的AI硬件产品。云栖大会现场火爆，奇多多展现真实力在云栖大会3号馆·前沿应用馆奇多多星球展台，奇多多吸引了大量参展观众及宝宝驻足体验。孩子们手拿绘本、练习、玩具、绘画作品等，与奇多多进行自然互动，现场气氛热烈。奇多多展现出的不仅仅是语音交互能力，更是真正的多模态理解能力。它能够识别孩子手中的任意绘本/教材/卡片等读物，无论中文、英文，甚至儿童读物复杂分散的混合排版，都 ...

多模态大模型

奇多多AI学伴机器人

EVA实时多模态互动模型

多模态大模型

奇多多AI学伴机器人

EVA实时多模态互动模型

曝顶级AI大牛，加入阿里通义，事关下一代大模型

36氪· 2025-09-29 17:56

人才变动 - 全球顶尖AI科学家许主洪加盟阿里通义转向通义大模型研发工作[2] - 许主洪拥有超20年AI产业和学术经验发表300多篇顶级学术论文被引用超过5万次曾被评为全球顶尖1% AI科学家[2] - 许主洪曾担任Salesforce副总裁从零构建亚洲AI研究生态系统 2023年创立多模态AI创企HyperAGI[2] 职务安排 - 2025年2月许主洪加入阿里担任集团副总裁兼智能信息事业群首席科学家负责AI To C业务多模态基础模型及智能体研究[4] - 原核心任务包括组建顶级AI算法团队整合通义/夸克/天猫精灵等内部资源促进多模态交互产品迭代[4] - 加入7个多月后转向通义实验室团队可能从AI To C商业化研发转向更基础前沿的大模型研发[7] 战略布局 - 阿里通义大模型处于"拼迭代速度"和"多模态发展"关键阶段需要顶尖产学研多栖AI人才[7] - 阿里云CTO周靖人透露通义家族持续与全球AI领先者竞争比拼模型迭代效率多模态演进是必然趋势[7] - 公司期待在多模态方面进一步创新突破许主洪被视作最适牵头人选[7] 技术方向 - 许主洪认为用统一框架做理解和生成是多模态大模型演进趋势但该领域尚处初级阶段需实践验证[7] - 统一多模态模型面临全模态交互挑战支持音/视/图/文全模态交互的公开单模型非常少见[10] - 图像和语意理解生成统一模型鲜有出现理解与生成效果难以平衡[10] - 多模态Agent AI时代刚起步需解决基础能力/智能体功能模块/数据世界连接/物理世界交互等技术难题[10]

阿里巴巴(US:BABA)

多模态大模型

Artificial Intelligence

阿里通义大模型

多模态大模型

Artificial Intelligence

阿里通义大模型

传梅卡曼德机器人秘密申请香港IPO 预计募资15.6亿港元

智通财经· 2025-09-25 09:52

上市计划与融资情况 - 公司已秘密提交香港上市申请预计募资2亿美元（合15.6亿港元）[1] - 累计融资额超20亿元人民币最新一轮融资约5亿元人民币[1] - 投资方包括IDG资本、美团、红杉中国、源码资本、英特尔资本、启明创投等知名机构[1] 技术能力与产品布局 - 公司专注于具身智能机器人领域产品包括工业级3D相机、机器人编程软件、机器视觉软件[1] - 自研通用机器人"眼脑手"全栈技术涵盖多模态大模型、成像算法、AI识别算法、机器人控制等核心技术[2] - 在2025世界人工智能大会展示近10个前沿应用单元包括双臂机器人叠衣、人形机器人取货等场景[2] 市场地位与商业化进展 - 连续五年（2020-2024）位列中国3D视觉引导工业机器人市场占有率第一[2] - 产品进入全球100+《财富》500强企业的灯塔工厂市场占有率保持全球领先[2] - 业务覆盖中国、美国、日本、韩国、欧洲、东南亚等国家和地区[2] 行业应用与客户基础 - 技术已在汽车、新能源、物流、重工、3C、家电、食品等行业实现跨领域批量化应用[2] - 最新融资将用于拓展产品线与场景应用提升全球商业化与客户服务能力[1]

机器人(SZ:300024)

多模态大模型

通用具身智能机器人‘眼脑手’

工业级3D相机

机器人编程软件

多模态大模型

通用具身智能机器人‘眼脑手’

工业级3D相机

机器人编程软件

百度Qianfan-VL开源，纯国产自研昆仑芯跑出世界一流

选股宝· 2025-09-25 08:14

模型系列概述 - Qianfan-VL系列包含3B、8B和70B三个版本参数量从小到大分别对应不同应用场景 [1] 模型规格对比 - 3B版本支持32k上下文长度不支持思考功能适用于端上实时场景和OCR文字识别 [2] - 8B版本支持32k上下文长度支持思考功能适用于服务端通用场景和微调优化场景 [2] - 70B版本支持32k上下文长度支持思考功能适用于离线数据合成和复杂推理计算场景 [2] - 全系列模型均在百度自研昆仑芯P800芯片上完成训练 [2] 核心功能特性 - 多模态大模型具备图像理解和文字处理能力可分析复杂图表数据与趋势 [3] - OCR能力实现全场景覆盖支持印刷体、手写字、艺术字及数学公式识别 [3] - 教育场景深度优化专注于K12阶段擅长拍照解题、几何推理和函数分析 [3] 性能基准测试 - 在ScienceQA测试中70B版本达到98.76分接近满分显著超越竞争对手 [4] - 中文多模态基准测试CCBench中70B版本获得80.98分相比同级别对手70分左右优势明显 [5] - 数学解题测试(Mathvista-mini, Math Vision, Math Verse)中70B版本呈现碾压式领先 [5] - 具体测试得分：A-Bench_VAL(78.1) CCBench(80.98) SEEDBench_IMG(79.13) SEEDBench2_Plus(73.17) MMVet(57.34) MMMU_VAL(58.33) ScienceQA_TEST(98.76) ScienceQA_VAL(98.81) MMT-Bench_VAL(71.06) MTVQA_TEST(32.18) BLINK(59.44) MMStar(69.47) RealWorldQA(71.63) Q-Bench1_VAL(77.46) POPE(88.97) RefCOCO(91.01) [4] 硬件支撑体系 - 训练基于百度自研昆仑芯P800芯片 2025年4月建成国内首个3万卡P800集群 [6] - 模型训练在超过5000张昆仑芯P800卡集群上完成 [6] - 芯片参数：7nm制程 INT8算力256 TOPS 内存16/32GB GDDR6 内存带宽1.2 TB/s 功耗150/160W 互联带宽600 GB/s [7] - 功耗控制显著优于竞争对手 A100功耗250/400W H100功耗700W [7] 芯片架构创新 - 采用XPU-R架构实现计算单元与通信单元硬件分离 [8] - "通算融合"技术通过精巧调度掩盖数据传输等待时间大幅提高芯片利用率 [8] - "昆仑芯超节点"方案将64张P800集成单机柜机内通信带宽提升8倍单机训练性能提升10倍 [8] 模型架构设计 - 语言模型部分：3B版本基于Qwen2.5 8B和70B版本基于Llama 3.1 [10] - 视觉编码器采用InternViT 最高支持4K超高清图像处理 [10] - 采用创新"四阶段训练管线"提升模型性能 [10] 训练方法论 - 第一阶段跨模态对齐：冻结语言和视觉模块仅更新MLP Adapter连接件 [14] - 第二阶段通用知识注入：投放2.66T tokens通用数据全面开放参数训练 [14] - 第三阶段领域增强知识注入：精选OCR/文档理解/数学解题等高质数据专项训练掺入通用数据防止灾难性遗忘 [14] - 第四阶段后训练：通过指令微调数据提升指令遵循能力 [14] - 专业数据通过高精度数据合成管线自主生成 [15] 开源与部署 - 全系列模型已在GitHub和Hugging Face平台全面开源 [16] - 百度智能云千帆平台提供在线体验和部署服务 [17] - 具体开源地址：GitHub(https://github.com/baidubce/Qianfan-VL) Hugging Face(70B/8B/3B版本) ModelScope(百度千帆组织) [17]

多模态大模型

多模态大模型

等了大半年的Qwen3-VL终于也开源了！

自动驾驶之心· 2025-09-24 14:35

阿里云通义千问Qwen3-VL多模态模型发布 - 阿里云在云栖大会期间密集开源了Qwen3-Omni系列、Qwen-Image-Edit-2509、Qwen3-VL、Qwen3Guard-Gen等12个模型[4] - 同时发布了未开源的API产品包括Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等[5] - Qwen3-VL-235B-A22B作为MoE架构模型采用MRoPE-Interleave位置编码技术显著提升长视频理解能力[7] 模型架构升级 - vision encoder部分将patch_size从14扩大到16 激活函数从silu变为gelu_pytorch_tanh[6] - projector部分在MLP-based Projector基础上增加DeepStack 将vision encoder中8、16、24三层特征插入LLM[6] - llm decoder部分采用Qwen3模型支持Dense和MoE两种架构[7] 性能基准测试表现 - 在MMMUVAL测试中获得78.7分接近Gemini2.5-Pro的80.9分[10] - MathVistamini测试达到84.9分显著超越GPT5的50.9分和Claude-Opus-4.1的74.5分[10] - MMBench_EN_V1.1 dev测试获得89.9分超越InternVL3的89.0分[10] - DocVQATEST测试达到97.1分领先Gemini2.5-Pro的94.0分和GPT5的89.6分[10] - OCRBench测试获得920分大幅超越Gemini2.5-Pro的872分和GPT5的787分[10] 实际应用测试结果 - OCR手写体识别准确率显著提升色彩识别能力改善明显[13] - 表格识别任务保持高水平表现能够准确还原HTML表格结构[17][19] - 数学计算能力突出在GDP数据计算任务中准确识别江苏省141633.8亿元为最大值并计算占比10.56%[36][37][39] - 图片排序任务表现优异正确理解雪糕购买滑倒的因果逻辑序列[71][73] - 色盲测试全部通过准确识别数字6和74[93][97] - 医疗报告分析能力强大准确解读体检报告异常指标[27][28] 现存技术局限 - 网页复刻任务效果较差生成的HTML代码美观度不足[23] - 目标计数存在误差将10个菇娘儿误判为11个[46] - 空间变换能力有限复杂三维变换任务回答错误[89] - 地标识别存在偏差将上海金茂大厦误认为上海中心大厦[104] - 多图对比任务表现不佳奔跑的人定位任务行列序号判断错误[52][54] 模型部署建议 - 当前235B-A22B参数规模较大期待推出30B-A3B等轻量化版本满足更广泛部署需求[106] - 推理版本存在过度思考导致错误的问题需要优化思考机制[13] - 在GUI界面理解任务中表现良好得益于精准的grouding能力[13]

多模态大模型

Qwen3-Omni系列模型

Qwen-Image-Edit-2509模型

Qwen3Guard-Gen系列模型

多模态大模型

Qwen3-Omni系列模型

Qwen-Image-Edit-2509模型

Qwen3Guard-Gen系列模型

打算招聘几位大佬共创平台（4D标注/世界模型/VLA等方向）

自动驾驶之心· 2025-09-24 07:32

QS200以内高校，硕士及以上学历，手握顶会的大佬优先。待遇说明自动驾驶资源共享（求职、读博、出国留学推荐等）；点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线业务合伙人自动驾驶之心业务合伙人招募来啦！我们团队今年计划向国内外招募10名优秀的合伙人，负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发；主要方向如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向，欢迎加入我们；岗位要求丰厚的现金激励；创业项目合作与推荐；联系我们更多欢迎添加微信咨询，备注" 机构/公司 + 自动驾驶合作咨询 "。 ...

多模态大模型

多模态大模型

8B硬刚72B！MiniCPM-V 4.5技术报告正式出炉

量子位· 2025-09-23 19:01

模型发布与市场反响 - 行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告正式发布 [1] - 模型在HuggingFace和ModelScope平台的合计下载量已超过22万次 [4] - 模型开源后广受社区好评，并登上HuggingFace Trending榜单第二名 [3] 核心技术突破 - 提出统一的3D-Resampler架构，实现最高96倍的视觉压缩率，将6个连续视频帧压缩为仅64个视觉Token [8][11] - 采用面向文档的统一OCR和知识学习范式，摆脱对外部解析工具的依赖，在OmniDocBench上取得通用MLLM中的最好表现 [8][26] - 运用可控混合快速/深度思考的多模态强化学习策略，在节省30%训练开销的同时，推理耗时仅为同规格深度思考模型的42.9%-68.2% [9][29] 性能评测表现 - 模型参数量为8B，在OpenCompass综合评测中取得77.0的平均分，超越GPT-4o-latest和Qwen2.5-VL-72B等模型 [2][34] - 在Video-MME视频理解评测集上，时间开销仅为同级模型的1/10，显存占用相比Qwen2.5-VL7B减少至46.7% [8][36] - 在幻觉抑制方面表现优异，ObjHalBench的CHAIRs指标为9.3，优于对比模型 [33] 效率与成本优势 - 统一的3D-Resampler架构实现了图像与视频处理的统一编码，从2D扩展至3D仅需轻量化的SFT阶段，极大降低训练成本 [12][14] - 在OpenCompass评测中，模型以7.5小时的推理时间获得77.0的分数，优于其他同规模模型所需11.0小时和17.5小时 [37] - 高密度视频压缩技术使模型在处理视频时具有显著的效率优势，时间开销大幅降低 [36] 行业影响与学术认可 - MiniCPM-V系列模型由清华大学自然语言处理实验室和面壁智能联合开发，系列模型总下载量超过1300万次 [49] - 相关技术论文发表于国际著名期刊Nature Communications，谷歌学术引用超过600次 [49] - 系列模型曾入选HuggingFace 2024年度最受欢迎和下载开源模型榜单、中关村论坛年会10项重大科技成果等 [49]

多模态大模型

3D-Resampler架构

统一OCR和知识学习范式

混合强化学习策略

多模态大模型

3D-Resampler架构

统一OCR和知识学习范式

混合强化学习策略

阿里一夜扔出三个开源王炸，猛刷32项开源SOTA

36氪· 2025-09-23 17:06

阿里通义多模态大模型技术突破 - 开源原生全模态大模型Qwen3-Omni 支持文本、图像、音频和视频无缝处理及实时流式响应在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA 超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源模型 [1] - 语音生成模型Qwen3-TTS支持17种音色与10种语言在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品 [1] - 图像编辑模型Qwen-Image-Edit-2509更新首要更新是支持多图编辑可拼接不同图片中的人物+人物、人物+物体等 [1] Qwen3-Omni功能与性能 - 支持119种文本语言交互、19种语音理解语言与10种语音生成语言延迟方面纯模型端到端音频对话延迟低至211ms 视频对话延迟低至507ms 支持30分钟音频理解 [4] - 在全方位性能评估中单模态任务表现与参数规模相当的Qwen系列单模态模型持平音频任务表现更好在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平 [10] - 采用Thinker-Talker架构 Thinker负责文本生成 Talker专注于流式语音Token生成直接接收来自Thinker的高层语义表征支持高并发与快速推理 [12][13] Qwen3-TTS技术特性 - 中英稳定性在seed-tts-eval test set上取得SOTA表现超越SeedTTS、MiniMax、GPT-4o-Audio-Preview [14] - 多语言稳定性和音色相似度在MiniMax TTS multilingual test set上 WER在中文、英文、意大利语、法语达到SOTA 显著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview [14][16] - 具备高表现力的拟人音色提供17种音色选择每一种音色均支持10种语言支持方言生成包括普通话、闽南语、吴语、粤语等9种方言 [14][15] 图像编辑模型升级 - Qwen-Image-Edit-2509支持多图输入通过拼接方式提供"人物+人物"、"人物+商品"、"人物+场景"等多种玩法 [22] - 单图一致性增强人物编辑一致性增强包括增强人脸ID保持商品编辑一致性增强包括增强商品ID保持文字编辑一致性增强支持多种文字的字体、色彩、材质编辑 [25] - 原生支持ControlNet 包括深度图、边缘图、关键点图等 [25] 实际应用场景表现 - 具备良好的世界知识储备通过识别啤酒品牌、植物等画面进行测试模型均能给出准确回答 [3] - 支持分析音乐风格、元素以及对视频中画面进行推理如分析出视频中的用户是在解数学题还会对这道题进行解答 [9] - 在多人交互场景中能分析人物的性别、说话的语气、内容等如分析方言类型及对话内容 [8]

多模态大模型

Qwen3-TTS-Flash

Qwen-Image-Edit-2509

多模态大模型

Qwen3-TTS-Flash

Qwen-Image-Edit-2509