多模态大模型
搜索文档
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 19:01
模型发布与市场反响 - 行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告正式发布 [1] - 模型在HuggingFace和ModelScope平台的合计下载量已超过22万次 [4] - 模型开源后广受社区好评,并登上HuggingFace Trending榜单第二名 [3] 核心技术突破 - 提出统一的3D-Resampler架构,实现最高96倍的视觉压缩率,将6个连续视频帧压缩为仅64个视觉Token [8][11] - 采用面向文档的统一OCR和知识学习范式,摆脱对外部解析工具的依赖,在OmniDocBench上取得通用MLLM中的最好表现 [8][26] - 运用可控混合快速/深度思考的多模态强化学习策略,在节省30%训练开销的同时,推理耗时仅为同规格深度思考模型的42.9%-68.2% [9][29] 性能评测表现 - 模型参数量为8B,在OpenCompass综合评测中取得77.0的平均分,超越GPT-4o-latest和Qwen2.5-VL-72B等模型 [2][34] - 在Video-MME视频理解评测集上,时间开销仅为同级模型的1/10,显存占用相比Qwen2.5-VL7B减少至46.7% [8][36] - 在幻觉抑制方面表现优异,ObjHalBench的CHAIRs指标为9.3,优于对比模型 [33] 效率与成本优势 - 统一的3D-Resampler架构实现了图像与视频处理的统一编码,从2D扩展至3D仅需轻量化的SFT阶段,极大降低训练成本 [12][14] - 在OpenCompass评测中,模型以7.5小时的推理时间获得77.0的分数,优于其他同规模模型所需11.0小时和17.5小时 [37] - 高密度视频压缩技术使模型在处理视频时具有显著的效率优势,时间开销大幅降低 [36] 行业影响与学术认可 - MiniCPM-V系列模型由清华大学自然语言处理实验室和面壁智能联合开发,系列模型总下载量超过1300万次 [49] - 相关技术论文发表于国际著名期刊Nature Communications,谷歌学术引用超过600次 [49] - 系列模型曾入选HuggingFace 2024年度最受欢迎和下载开源模型榜单、中关村论坛年会10项重大科技成果等 [49]
阿里一夜扔出三个开源王炸,猛刷32项开源SOTA
36氪· 2025-09-23 17:06
阿里通义多模态大模型技术突破 - 开源原生全模态大模型Qwen3-Omni 支持文本、图像、音频和视频无缝处理及实时流式响应 在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA 超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源模型 [1] - 语音生成模型Qwen3-TTS支持17种音色与10种语言 在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品 [1] - 图像编辑模型Qwen-Image-Edit-2509更新 首要更新是支持多图编辑 可拼接不同图片中的人物+人物、人物+物体等 [1] Qwen3-Omni功能与性能 - 支持119种文本语言交互、19种语音理解语言与10种语音生成语言 延迟方面纯模型端到端音频对话延迟低至211ms 视频对话延迟低至507ms 支持30分钟音频理解 [4] - 在全方位性能评估中 单模态任务表现与参数规模相当的Qwen系列单模态模型持平 音频任务表现更好 在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平 [10] - 采用Thinker-Talker架构 Thinker负责文本生成 Talker专注于流式语音Token生成 直接接收来自Thinker的高层语义表征 支持高并发与快速推理 [12][13] Qwen3-TTS技术特性 - 中英稳定性在seed-tts-eval test set上取得SOTA表现 超越SeedTTS、MiniMax、GPT-4o-Audio-Preview [14] - 多语言稳定性和音色相似度在MiniMax TTS multilingual test set上 WER在中文、英文、意大利语、法语达到SOTA 显著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview [14][16] - 具备高表现力的拟人音色 提供17种音色选择 每一种音色均支持10种语言 支持方言生成包括普通话、闽南语、吴语、粤语等9种方言 [14][15] 图像编辑模型升级 - Qwen-Image-Edit-2509支持多图输入 通过拼接方式提供"人物+人物"、"人物+商品"、"人物+场景"等多种玩法 [22] - 单图一致性增强 人物编辑一致性增强包括增强人脸ID保持 商品编辑一致性增强包括增强商品ID保持 文字编辑一致性增强支持多种文字的字体、色彩、材质编辑 [25] - 原生支持ControlNet 包括深度图、边缘图、关键点图等 [25] 实际应用场景表现 - 具备良好的世界知识储备 通过识别啤酒品牌、植物等画面进行测试 模型均能给出准确回答 [3] - 支持分析音乐风格、元素 以及对视频中画面进行推理 如分析出视频中的用户是在解数学题还会对这道题进行解答 [9] - 在多人交互场景中能分析人物的性别、说话的语气、内容等 如分析方言类型及对话内容 [8]
光模块再冲锋,中际旭创涨超4%!英伟达拟向OpenAI投资至多1000亿美元!云计算ETF汇添富(159273)一度大涨超2%!
新浪财经· 2025-09-23 10:41
行业事件驱动 - 英伟达与OpenAI达成战略合作意向 将建设至少10吉瓦AI数据中心并配备数百万块英伟达GPU 英伟达计划投资至多1000亿美元支持新系统落地[3] - 合作消息直接催化光模块板块大涨 中际旭创涨超4% 新易盛涨超3%[3] - 算力板块受海外消息影响整体走强 云计算ETF汇添富(159273)盘中最高涨超2% 当日成交额近2000万元 近20日净流入超7亿元[1][3] 个股表现 - 中际旭创涨幅4.64% 成交额97.46亿元 在云计算ETF中权重占比15.82%[4] - 新易盛涨幅3.54% 成交额91.48亿元 权重占比15.57%[4] - 阿里巴巴-W涨2.20% 成交额49.44亿元 权重占比8.67%[4] - 腾讯控股微跌0.31% 浪潮信息涨0.77% 中科曙光跌0.59%[4] 光模块行业前景 - 英伟达GPU和自研ASIC快速迭代 每代芯片Scaleout带宽保持翻倍提升 带动光模块使用量飙升[5] - AI多模态大模型参数量提升推动带宽容量扩张 芯片互连领域呈现"光进铜退"趋势[5] - 市场采用GPU:光模块=1:2.5换算比例 若Scale Up应用CPO技术 比例将变为GPU:光引擎=1:11.5[5] - 光模块应用范围从GPU扩展至CPU、FPGA、ASIC及HBM等领域 行业未来将演进为光引擎行业 市场规模预计大幅增长[5] 算力需求与资本开支 - 推理算力需求成为驱动全球云厂商资本开支的关键因素[6] - 2025年海外四大云厂商合计资本开支预计同比增长50%至3338亿美元 2026年投资规模将进一步扩大[6] - 美国科技巨头公布大规模投资计划 Meta计划到2028年投资6000亿美元 苹果投资6000亿美元 谷歌投资2500亿美元 微软每年投资750-800亿美元[6] - 算力服务板块(云服务、算力租赁、IDC提供商)将成为AI基础设施需求的二阶受益者[6][7] - 万卡集群成为大模型竞赛入场券 运营商和互联网大厂持续加大投入 为算力服务公司打开新成长空间[7] 产品布局 - 云计算ETF汇添富(159273)覆盖A+H算力龙头 标的指数涵盖硬件设备、云计算服务、IT服务等六大领域[7] - 指数软硬件比例6:4 港股权重超26% 全面布局AI算力驱动下的云计算机遇[7]
自驾方向适合去工作、读博还是转行?
自动驾驶之心· 2025-09-22 18:30
自动驾驶行业职业发展考量 - 个人需评估自身在自动驾驶领域的积累,包括算力、算法、硬件或机器人相关基础,高校实验室若缺乏实战经验可能导致与工业界需求脱节[2] - 读博需具备开拓者思维,能够独立探索前沿课题(如端到端VLA),并选择专业实验室,避免导师半路出家影响研究进度[2] - 职业选择应基于现有基础强弱,若基础薄弱需通过系统化学习避免踩坑,例如加入专业社区获取指导[3] 自动驾驶之心知识星球社区资源 - 社区集视频、图文、学习路线、问答、求职交流为一体,当前成员超4000人,目标2年内规模近万人[3] - 提供近40+技术路线梳理,涵盖VLA benchmark、综述、入门路线等,缩短检索时间[5] - 邀请数十位一线产业界和学术界嘉宾答疑,覆盖端到端自动驾驶、多模态大模型等热点话题[5] 社区技术内容体系 - 技术方向覆盖感知、规划控制、仿真等40+领域,包括BEV感知、扩散模型、世界模型等关键技术[7][14] - 学习路线包含自动驾驶感知、仿真、规划控制等模块,如端到端学习路线、3DGS算法原理等[14] - 汇总开源项目、数据集(近60+)、仿真平台,助力快速上手项目实践[14][31][33] 社区教育与实践支持 - 提供原创直播课程,涵盖感知融合、多传感器标定、SLAM、端到端自动驾驶等9大系列视频教程[8] - 与多家自动驾驶公司建立内推机制,直接对接岗位如端到端算法工程师、云端大模型工程师等[9] - 社区成员来自上海交大、CMU、蔚小理、华为等300家机构,促进学术与工业界交流[13][98] 行业前沿技术聚焦 - 重点布局端到端自动驾驶,梳理一段式/二段式量产方案、VLA算法及数据集[35][43] - 深入探讨3DGS与NeRF在自动驾驶仿真、场景重建中的应用,邀请学者分享最新工作[37][87] - 覆盖视觉语言模型(VLM)、世界模型、扩散模型等热点,整合量产方案与学术研究[41][47][49]
国家队20亿重金押注吉利旗下卫星公司;英特尔英伟达联手,人形机器人公司狂揽10亿美元 | 每周十大股权投资
搜狐财经· 2025-09-22 13:35
商业航天领域融资 - 时空道宇完成20亿元人民币战略投资 由浙江新能源汽车产业基金独家投资 专注于低轨星座系统构建 支持全球实时数据通信 [1] - 星际荣耀获得7亿元人民币D+轮融资 投资方包括成都先进资本和成都空港科创投等国资机构 定位商业航天运载系统领域 从事运载火箭研发生产及发射服务 [1] 人工智能与机器人领域融资 - Figureai完成10亿美元C轮融资 投资方包括英特尔 英伟达 Salesforce和博枫等科技资本 聚焦人形机器人研发制造 目标应用于工业制造与服务场景 [2] - 微分智飞完成1亿元人民币Pre-A轮融资 投资方包括五源资本 光速光合 深创投和百度风投 开发无人机具身智能平台 应用场景包括农业植保 物流配送和安防监控 [6] - Groq获得75亿美元战略投资 投资方包括贝莱德 三星风投和思科资本 专注于AI芯片研发 产品特点为高算力低功耗 主要应用于数据中心与云计算场景 [4] 半导体与电子设计自动化融资 - 合见工软完成5亿元人民币A+轮融资 由国新科创基金独家投资 作为国内EDA领域代表性企业 为集成电路设计公司提供工具与解决方案 [3] 新材料与先进制造融资 - 青昀新材完成数亿元人民币C轮融资 由高瓴创投领投 元禾璞华和东方雨虹等机构跟投 主要从事新型材料研发生产与销售 产品具备跨行业应用潜力 [5] 生物科技与医疗健康融资 - 华龛生物完成数亿元人民币B+轮融资 投资方包括中关村发展集团 招银国际和国新基金等机构 专注于细胞治疗技术领域 涉及再生医学和肿瘤治疗方向 [7] 多模态大模型技术融资 - 生数科技完成数亿元人民币A轮融资 投资方包括启明创投 百度 达泰资本和博华资本 核心团队具有腾讯背景 主要围绕多模态大模型开展研发与应用 [2]
和Seed大佬交流了下,自动驾驶大模型还有些小儿科。。。
自动驾驶之心· 2025-09-22 07:32
大模型技术社区业务方向 - 平台主要关注大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等技术领域 [1] - 社区目标是构建国内最大的大模型技术社区,持续为行业和个人输送各类人才及产业学术信息 [1] - 社区正在快速搭建相关模块,旨在培养未来领袖 [1][2]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
公司业务与招聘计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 业务合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 招聘主要技术方向 - 招聘方向涵盖大模型/多模态大模型、扩散模型、视觉语言模型、端到端自动驾驶、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿技术领域 [3] 岗位要求与待遇 - 候选人需来自QS200以内高校,拥有硕士及以上学历,拥有顶会论文者优先 [4] - 提供的待遇包括自动驾驶行业资源共享、丰厚的现金激励以及创业项目合作与推荐机会 [5]
具身领域的大模型基础部分,都在这里了......
具身智能之心· 2025-09-21 00:03
社区定位与目标 - 社区旨在打造集视频、图文、学习路线、问答、求职交流为一体的综合类大模型技术社区,为初学者和进阶者提供交流与技术分享平台 [1] - 社区目标是成为大模型前沿技术聚集地,汇集来自国内外知名高校实验室及头部公司的嘉宾,高校包括上交、清华、北京大学等,公司包括阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等 [3][68] 核心学习路线与内容 - 社区汇总了大模型全栈学习路线图,核心领域包括RAG、AI Agent和多模态大模型 [3] - RAG学习路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [3][9][10][12][14][16][18][20][22][23][24] - AI Agent学习路线涵盖前沿综述、评测、强化学习、多模态Agent、Agent通讯等7个子领域 [25][26][28][30][32][34][35][37][39][41] - 多模态大模型训练路线包括开源数据集、MLLM、VLM、大模型微调、RLHF、MoE等9个技术方向 [42][43][45][47][49][51][53][55][56][57][59] - 社区扩展了大模型量化、部署及推理相关内容,以满足成员部署自有模型的需求 [61][62][63][64] 社区资源与福利 - 社区已邀请40余位学术界和工业界专家,来自国内外知名高校和头部公司 [68] - 成员福利包括第一时间掌握学术进展与工业应用、与行业大佬交流工作与求职问题、获得大模型相关岗位推荐及投资与项目对接机会 [7][70] - 未来计划不定期邀请行业大佬进行直播分享,内容可反复观看,旨在邀请国内外顶尖学术界和工业界专家 [66]
但我还是想说:建议个人和小团队不要碰大模型训练!
自动驾驶之心· 2025-09-21 00:03
大模型应用策略 - 对于小规模团队,部署开源大语言模型结合检索增强生成技术已能满足99%的需求,在触及开源模型性能边界前不建议进行模型微调[2] - 若开源模型在特定垂直领域效果不佳,应优先尝试检索增强生成技术和上下文学习等低成本方案,而非直接进行模型微调[3] - 建议将最复杂的任务分配给o1系列模型,将需要较高智能的任务分配给4o等第一梯队模型[3] - 除付费模型外,可考虑采用DeepSeek、豆包、Qwen等国产开源大模型[4] - 基础模型能力的每次重大提升都如同一次技术版本更新,从业者需敏锐识别现有模型能力与业务需求的差异[6] - 应避免在低收益赛道进行无意义投入,采取错位竞争和降维打击策略更为有效[7] 核心技术趋势与人才需求 - 检索增强生成和智能体技术是当前大模型领域最具代表性的技术,企业对掌握这些技能的人才需求高涨[8] - 行业正积极构建技术社区,汇集来自上海交通大学、清华大学、北京大学、上海人工智能实验室、香港科技大学、香港大学等顶尖高校及阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等头部企业的专家[10][43] 技术社区资源体系 - 社区提供集视频、图文、学习路线、问答、求职交流为一体的综合型大模型技术平台[8][10] - 技术学习路线图全面覆盖检索增强生成、智能体、多模态大模型三大方向,包括Graph RAG、知识导向RAG、多模态RAG、推理RAG、智能体强化学习、多模态智能体、多智能体等细分领域[10] - 社区已邀请40余位学术界和工业界专家,计划不定期举办行业大佬直播分享活动[41][43] - 提供大模型相关工作岗位推荐和行业机会挖掘服务,助力职业发展[13][44]