Workflow
多模态大模型
icon
搜索文档
业务合伙人招募!4D标注/世界模型/VLA/模型部署等方向
自动驾驶之心· 2025-10-02 11:04
业务合伙人招募计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 主要技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向包括具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等前沿领域 [3] 岗位要求 - 候选人需毕业于QS200以内高校,并拥有硕士及以上学历 [4] - 拥有顶级学术会议发表成果的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
AI+教育,一个被远远低估的赛道
凤凰网· 2025-09-29 20:29
行业背景与市场潜力 - 2024年5月GPT-4o的发布展示了AI实时语音辅导的潜力,对教育行业产生冲击,但随后通用大模型未持续发力,反而激发了AI+教育市场的潜力,教育赛道多方势力开始投入 [1] - 辅导作业是家长的刚需,学生知识体系庞杂导致家长难以应对,这催生了学习机市场的火热 [3] - 行业内AI老师多数还停留在L2阶段,能够做到播放讲解视频、作业批改,但往往是独立的AI板块,并非真正的教学过程 [13] 产品功能与技术应用 - 学而思学习机通过多模态能力的引入,实现了能看见、会理解的功能,可以通过扫描学生作业完成实时批改和讲解 [2] - 学习机内嵌的智能体“小思”可以与学生对话互动,例如通过语音指令“复活数学家”召唤虚拟祖冲之进行一对一互动,激发学习兴趣 [4] - 产品涵盖数学、语文、英语等学科,覆盖学龄前启蒙至高中课程体系,并能通过AI测试判断孩子学习情况,提供针对性辅导方案 [5] - AI作业批改是最大亮点之一,通过多模态识别扫描题目后实时生成解题过程,提供更详细的解题思路拆解 [6][7] - 小思AI 1对1超级教育智能体具备L3级别能力,可实时观察学生学习过程,逐步检查解题步骤并给出反馈,实现有来有回的陪跑式教学 [13] 公司战略与技术路径 - 好未来在2023年初决定让技术团队放下其他工作,专注于大模型,但放弃自研通用大模型,选择在顶级开源模型上进行二次调教与强化 [8] - 公司采用双轨路线,结合DeepSeek通用大模型(负责百科问答、会话)和自研的九章垂类大模型(负责拍批、答疑、精准学等教育专项功能) [9] - 九章大模型建立在优秀开源通用大模型之上,并加入大量教育行业专业数据进行后训练,以解决通用大模型存在的幻觉和知识点匹配不精准问题 [9][10] - 公司认为随着通用大模型能力提升,垂类模型更需要通过专业数据构建自身护城河 [10] 未来发展方向 - 好未来将AI老师等级划分为L1-L5,L1为初级找素材,L2为独立板块讲题批改,L3为限定场景多能力组合,L4为高度自主贯穿多场景,L5为完全体AI老师 [12] - 公司目前已具备L3级别AI老师的雏形,行业攻坚重点在于多模态交互和个性化学习 [13] - 公司认为AI可以在学习模式、教育内容和师生交流互动上无限趋近甚至重构真人老师,但不会完全替代,因教育本质包含情感互动和价值观导向 [14] - 好未来坚定看好AI老师方向,认为真人老师能做的部分工作未来AI老师都能干且干得更好 [15]
奇多多AI学伴亮相2025云栖大会,无界方舟用AI“慧眼”开启智能早教时代
财富在线· 2025-09-29 18:24
在近日举办的2025云栖大会现场,无界方舟推出的国内首款基于「端到端实时多模态互动模型」的AI 学伴机器人——奇多多,成为全场焦点。这款产品在京东预售仅上线一周,销量便突破了10000台,这 个数字不仅体现了市场对优质AI早教产品的渴望,更预示着多模态大模型在消费级硬件领域的商业化 曙光正在到来。 正如一位现场宝妈所说:"太好了!终于不止是AI玩具了,而是解决了很多早教痛点问题。"在AI技术日 益成熟的今天,奇多多的成功或许验证了:在早教赛道,"功能驱动"比"概念炒作"更能让市场买单。更 令人瞩目的是,奇多多在展会期间,现场获得了上百位家长下单预定,同时吸引了几十家AI产品后续 对接无界方舟EVA模型的合作机会,成为本届大会最具商业潜力的AI硬件产品。 云栖大会现场火爆,奇多多展现真实力 在云栖大会3号馆·前沿应用馆奇多多星球展台,奇多多吸引了大量参展观众及宝宝驻足体验。孩子们手 拿绘本、练习、玩具、绘画作品等,与奇多多进行自然互动,现场气氛热烈。 奇多多展现出的不仅仅是语音交互能力,更是真正的多模态理解能力。它能够识别孩子手中的任意绘 本/教材/卡片等读物,无论中文、英文,甚至儿童读物复杂分散的混合排版,都 ...
曝顶级AI大牛,加入阿里通义,事关下一代大模型
36氪· 2025-09-29 17:56
人才变动 - 全球顶尖AI科学家许主洪加盟阿里通义 转向通义大模型研发工作[2] - 许主洪拥有超20年AI产业和学术经验 发表300多篇顶级学术论文 被引用超过5万次 曾被评为全球顶尖1% AI科学家[2] - 许主洪曾担任Salesforce副总裁 从零构建亚洲AI研究生态系统 2023年创立多模态AI创企HyperAGI[2] 职务安排 - 2025年2月许主洪加入阿里 担任集团副总裁兼智能信息事业群首席科学家 负责AI To C业务多模态基础模型及智能体研究[4] - 原核心任务包括组建顶级AI算法团队 整合通义/夸克/天猫精灵等内部资源 促进多模态交互产品迭代[4] - 加入7个多月后转向通义实验室团队 可能从AI To C商业化研发转向更基础前沿的大模型研发[7] 战略布局 - 阿里通义大模型处于"拼迭代速度"和"多模态发展"关键阶段 需要顶尖产学研多栖AI人才[7] - 阿里云CTO周靖人透露 通义家族持续与全球AI领先者竞争 比拼模型迭代效率 多模态演进是必然趋势[7] - 公司期待在多模态方面进一步创新突破 许主洪被视作最适牵头人选[7] 技术方向 - 许主洪认为用统一框架做理解和生成是多模态大模型演进趋势 但该领域尚处初级阶段需实践验证[7] - 统一多模态模型面临全模态交互挑战 支持音/视/图/文全模态交互的公开单模型非常少见[10] - 图像和语意理解生成统一模型鲜有出现 理解与生成效果难以平衡[10] - 多模态Agent AI时代刚起步 需解决基础能力/智能体功能模块/数据世界连接/物理世界交互等技术难题[10]
传梅卡曼德机器人秘密申请香港IPO 预计募资15.6亿港元
智通财经· 2025-09-25 09:52
上市计划与融资情况 - 公司已秘密提交香港上市申请 预计募资2亿美元(合15.6亿港元)[1] - 累计融资额超20亿元人民币 最新一轮融资约5亿元人民币[1] - 投资方包括IDG资本、美团、红杉中国、源码资本、英特尔资本、启明创投等知名机构[1] 技术能力与产品布局 - 公司专注于具身智能机器人领域 产品包括工业级3D相机、机器人编程软件、机器视觉软件[1] - 自研通用机器人"眼脑手"全栈技术 涵盖多模态大模型、成像算法、AI识别算法、机器人控制等核心技术[2] - 在2025世界人工智能大会展示近10个前沿应用单元 包括双臂机器人叠衣、人形机器人取货等场景[2] 市场地位与商业化进展 - 连续五年(2020-2024)位列中国3D视觉引导工业机器人市场占有率第一[2] - 产品进入全球100+《财富》500强企业的灯塔工厂 市场占有率保持全球领先[2] - 业务覆盖中国、美国、日本、韩国、欧洲、东南亚等国家和地区[2] 行业应用与客户基础 - 技术已在汽车、新能源、物流、重工、3C、家电、食品等行业实现跨领域批量化应用[2] - 最新融资将用于拓展产品线与场景应用 提升全球商业化与客户服务能力[1]
百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流
选股宝· 2025-09-25 08:14
模型系列概述 - Qianfan-VL系列包含3B、8B和70B三个版本 参数量从小到大 分别对应不同应用场景 [1] 模型规格对比 - 3B版本支持32k上下文长度 不支持思考功能 适用于端上实时场景和OCR文字识别 [2] - 8B版本支持32k上下文长度 支持思考功能 适用于服务端通用场景和微调优化场景 [2] - 70B版本支持32k上下文长度 支持思考功能 适用于离线数据合成和复杂推理计算场景 [2] - 全系列模型均在百度自研昆仑芯P800芯片上完成训练 [2] 核心功能特性 - 多模态大模型具备图像理解和文字处理能力 可分析复杂图表数据与趋势 [3] - OCR能力实现全场景覆盖 支持印刷体、手写字、艺术字及数学公式识别 [3] - 教育场景深度优化 专注于K12阶段 擅长拍照解题、几何推理和函数分析 [3] 性能基准测试 - 在ScienceQA测试中70B版本达到98.76分接近满分 显著超越竞争对手 [4] - 中文多模态基准测试CCBench中70B版本获得80.98分 相比同级别对手70分左右优势明显 [5] - 数学解题测试(Mathvista-mini, Math Vision, Math Verse)中70B版本呈现碾压式领先 [5] - 具体测试得分:A-Bench_VAL(78.1) CCBench(80.98) SEEDBench_IMG(79.13) SEEDBench2_Plus(73.17) MMVet(57.34) MMMU_VAL(58.33) ScienceQA_TEST(98.76) ScienceQA_VAL(98.81) MMT-Bench_VAL(71.06) MTVQA_TEST(32.18) BLINK(59.44) MMStar(69.47) RealWorldQA(71.63) Q-Bench1_VAL(77.46) POPE(88.97) RefCOCO(91.01) [4] 硬件支撑体系 - 训练基于百度自研昆仑芯P800芯片 2025年4月建成国内首个3万卡P800集群 [6] - 模型训练在超过5000张昆仑芯P800卡集群上完成 [6] - 芯片参数:7nm制程 INT8算力256 TOPS 内存16/32GB GDDR6 内存带宽1.2 TB/s 功耗150/160W 互联带宽600 GB/s [7] - 功耗控制显著优于竞争对手 A100功耗250/400W H100功耗700W [7] 芯片架构创新 - 采用XPU-R架构 实现计算单元与通信单元硬件分离 [8] - "通算融合"技术通过精巧调度掩盖数据传输等待时间 大幅提高芯片利用率 [8] - "昆仑芯超节点"方案将64张P800集成单机柜 机内通信带宽提升8倍 单机训练性能提升10倍 [8] 模型架构设计 - 语言模型部分:3B版本基于Qwen2.5 8B和70B版本基于Llama 3.1 [10] - 视觉编码器采用InternViT 最高支持4K超高清图像处理 [10] - 采用创新"四阶段训练管线"提升模型性能 [10] 训练方法论 - 第一阶段跨模态对齐:冻结语言和视觉模块 仅更新MLP Adapter连接件 [14] - 第二阶段通用知识注入:投放2.66T tokens通用数据 全面开放参数训练 [14] - 第三阶段领域增强知识注入:精选OCR/文档理解/数学解题等高质数据专项训练 掺入通用数据防止灾难性遗忘 [14] - 第四阶段后训练:通过指令微调数据提升指令遵循能力 [14] - 专业数据通过高精度数据合成管线自主生成 [15] 开源与部署 - 全系列模型已在GitHub和Hugging Face平台全面开源 [16] - 百度智能云千帆平台提供在线体验和部署服务 [17] - 具体开源地址:GitHub(https://github.com/baidubce/Qianfan-VL) Hugging Face(70B/8B/3B版本) ModelScope(百度千帆组织) [17]
等了大半年的Qwen3-VL终于也开源了!
自动驾驶之心· 2025-09-24 14:35
阿里云通义千问Qwen3-VL多模态模型发布 - 阿里云在云栖大会期间密集开源了Qwen3-Omni系列、Qwen-Image-Edit-2509、Qwen3-VL、Qwen3Guard-Gen等12个模型[4] - 同时发布了未开源的API产品包括Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等[5] - Qwen3-VL-235B-A22B作为MoE架构模型采用MRoPE-Interleave位置编码技术 显著提升长视频理解能力[7] 模型架构升级 - vision encoder部分将patch_size从14扩大到16 激活函数从silu变为gelu_pytorch_tanh[6] - projector部分在MLP-based Projector基础上增加DeepStack 将vision encoder中8、16、24三层特征插入LLM[6] - llm decoder部分采用Qwen3模型 支持Dense和MoE两种架构[7] 性能基准测试表现 - 在MMMUVAL测试中获得78.7分 接近Gemini2.5-Pro的80.9分[10] - MathVistamini测试达到84.9分 显著超越GPT5的50.9分和Claude-Opus-4.1的74.5分[10] - MMBench_EN_V1.1 dev测试获得89.9分 超越InternVL3的89.0分[10] - DocVQATEST测试达到97.1分 领先Gemini2.5-Pro的94.0分和GPT5的89.6分[10] - OCRBench测试获得920分 大幅超越Gemini2.5-Pro的872分和GPT5的787分[10] 实际应用测试结果 - OCR手写体识别准确率显著提升 色彩识别能力改善明显[13] - 表格识别任务保持高水平表现 能够准确还原HTML表格结构[17][19] - 数学计算能力突出 在GDP数据计算任务中准确识别江苏省141633.8亿元为最大值并计算占比10.56%[36][37][39] - 图片排序任务表现优异 正确理解雪糕购买滑倒的因果逻辑序列[71][73] - 色盲测试全部通过 准确识别数字6和74[93][97] - 医疗报告分析能力强大 准确解读体检报告异常指标[27][28] 现存技术局限 - 网页复刻任务效果较差 生成的HTML代码美观度不足[23] - 目标计数存在误差 将10个菇娘儿误判为11个[46] - 空间变换能力有限 复杂三维变换任务回答错误[89] - 地标识别存在偏差 将上海金茂大厦误认为上海中心大厦[104] - 多图对比任务表现不佳 奔跑的人定位任务行列序号判断错误[52][54] 模型部署建议 - 当前235B-A22B参数规模较大 期待推出30B-A3B等轻量化版本满足更广泛部署需求[106] - 推理版本存在过度思考导致错误的问题 需要优化思考机制[13] - 在GUI界面理解任务中表现良好 得益于精准的grouding能力[13]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 19:01
模型发布与市场反响 - 行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告正式发布 [1] - 模型在HuggingFace和ModelScope平台的合计下载量已超过22万次 [4] - 模型开源后广受社区好评,并登上HuggingFace Trending榜单第二名 [3] 核心技术突破 - 提出统一的3D-Resampler架构,实现最高96倍的视觉压缩率,将6个连续视频帧压缩为仅64个视觉Token [8][11] - 采用面向文档的统一OCR和知识学习范式,摆脱对外部解析工具的依赖,在OmniDocBench上取得通用MLLM中的最好表现 [8][26] - 运用可控混合快速/深度思考的多模态强化学习策略,在节省30%训练开销的同时,推理耗时仅为同规格深度思考模型的42.9%-68.2% [9][29] 性能评测表现 - 模型参数量为8B,在OpenCompass综合评测中取得77.0的平均分,超越GPT-4o-latest和Qwen2.5-VL-72B等模型 [2][34] - 在Video-MME视频理解评测集上,时间开销仅为同级模型的1/10,显存占用相比Qwen2.5-VL7B减少至46.7% [8][36] - 在幻觉抑制方面表现优异,ObjHalBench的CHAIRs指标为9.3,优于对比模型 [33] 效率与成本优势 - 统一的3D-Resampler架构实现了图像与视频处理的统一编码,从2D扩展至3D仅需轻量化的SFT阶段,极大降低训练成本 [12][14] - 在OpenCompass评测中,模型以7.5小时的推理时间获得77.0的分数,优于其他同规模模型所需11.0小时和17.5小时 [37] - 高密度视频压缩技术使模型在处理视频时具有显著的效率优势,时间开销大幅降低 [36] 行业影响与学术认可 - MiniCPM-V系列模型由清华大学自然语言处理实验室和面壁智能联合开发,系列模型总下载量超过1300万次 [49] - 相关技术论文发表于国际著名期刊Nature Communications,谷歌学术引用超过600次 [49] - 系列模型曾入选HuggingFace 2024年度最受欢迎和下载开源模型榜单、中关村论坛年会10项重大科技成果等 [49]
阿里一夜扔出三个开源王炸,猛刷32项开源SOTA
36氪· 2025-09-23 17:06
阿里通义多模态大模型技术突破 - 开源原生全模态大模型Qwen3-Omni 支持文本、图像、音频和视频无缝处理及实时流式响应 在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA 超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源模型 [1] - 语音生成模型Qwen3-TTS支持17种音色与10种语言 在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品 [1] - 图像编辑模型Qwen-Image-Edit-2509更新 首要更新是支持多图编辑 可拼接不同图片中的人物+人物、人物+物体等 [1] Qwen3-Omni功能与性能 - 支持119种文本语言交互、19种语音理解语言与10种语音生成语言 延迟方面纯模型端到端音频对话延迟低至211ms 视频对话延迟低至507ms 支持30分钟音频理解 [4] - 在全方位性能评估中 单模态任务表现与参数规模相当的Qwen系列单模态模型持平 音频任务表现更好 在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平 [10] - 采用Thinker-Talker架构 Thinker负责文本生成 Talker专注于流式语音Token生成 直接接收来自Thinker的高层语义表征 支持高并发与快速推理 [12][13] Qwen3-TTS技术特性 - 中英稳定性在seed-tts-eval test set上取得SOTA表现 超越SeedTTS、MiniMax、GPT-4o-Audio-Preview [14] - 多语言稳定性和音色相似度在MiniMax TTS multilingual test set上 WER在中文、英文、意大利语、法语达到SOTA 显著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview [14][16] - 具备高表现力的拟人音色 提供17种音色选择 每一种音色均支持10种语言 支持方言生成包括普通话、闽南语、吴语、粤语等9种方言 [14][15] 图像编辑模型升级 - Qwen-Image-Edit-2509支持多图输入 通过拼接方式提供"人物+人物"、"人物+商品"、"人物+场景"等多种玩法 [22] - 单图一致性增强 人物编辑一致性增强包括增强人脸ID保持 商品编辑一致性增强包括增强商品ID保持 文字编辑一致性增强支持多种文字的字体、色彩、材质编辑 [25] - 原生支持ControlNet 包括深度图、边缘图、关键点图等 [25] 实际应用场景表现 - 具备良好的世界知识储备 通过识别啤酒品牌、植物等画面进行测试 模型均能给出准确回答 [3] - 支持分析音乐风格、元素 以及对视频中画面进行推理 如分析出视频中的用户是在解数学题还会对这道题进行解答 [9] - 在多人交互场景中能分析人物的性别、说话的语气、内容等 如分析方言类型及对话内容 [8]