Workflow
多模态大模型
icon
搜索文档
福布斯中国“人工智能科技企业TOP 50”发布,创新集群阶梯崛起
证券时报网· 2025-06-27 22:39
行业格局与区域分布 - 上海以21家入选企业领跑全国,企业呈现"硬科技+国际化"特质,主要覆盖新能源汽车、生物医药、机器人、半导体集成电路等制造业场景 [2] - 北京14家获奖企业延续中关村"技术原创性"基因,代表企业包括寒武纪的AI芯片与智谱清言的通用大模型 [2] - 武汉人工智能产业近五年复合增长率超40%,核心产业规模突破700亿元,拥有28家省级以上科研平台,年均培养专业人才超3000人 [3] - 中部地区创新活力显现,武汉9家入选企业中,兰丁股份的宫颈癌AI筛查系统已服务超2000家医疗机构,紫东太初多模态大模型拿下多个标杆案例 [2][3] 企业生态与创新特征 - 行业形成金字塔结构:顶端为百度云、阿里云等标准巨头,中部为宇树科技等"隐形冠军",基底为鲸海拾贝等新锐企业 [4] - TOP 50企业共拥有专利破26万项,头部5家企业占据90%专利总量,但AIGC领域软件著作权年增速达45%且主要来自中小企业 [4] - 上市企业占比25%,非上市企业占比75%,显示初创团队可通过算法突破和垂直场景深耕构建竞争力 [5] - 未上市独角兽企业投资逻辑转向商业化验证,例如具身智能领域企业原力无限充电机器人提升运营效率40%,蔚蓝科技四足机器人全球销量第一 [5] 技术趋势与投资方向 - 多模态大模型向轻量化、行业化演进,量子计算与AI芯片加速融合突破算力瓶颈 [7] - AI+医疗将向药物研发、健康管理等全链条延伸,工业机器人已在生产环节实现成本优势 [7] - 中部地区产业崛起改写传统格局,中国AI产业进入自主生态构建阶段,体现在技术突破、产业链协同和区域布局优化 [7]
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 17:41
论文辅导服务 - 提供前沿论文辅导服务 覆盖多模态大模型 视觉语言动作 视觉语言导航 机器人抓取与导航 具身智能体泛化 3D高斯泼溅 端到端具身智能体 具身合成数据生成等领域 [2][3] - 服务范围包括CCF-A到CCF-C SCI一区到四区 EI 中文核心 毕业论文 申博等 [2] - 提供1V1定制化辅导 从选题创新点挖掘 实验设计 代码调试 论文写作到投稿策略全流程闭环辅导 [4] 导师团队 - 导师团队来自CMU Stanford MIT等名校的PhD及大厂研究员 具有ICRA NeurIPS CVPR等顶级会议审稿经验 [4] - 提供工业界和学术界双视角辅导 不仅关注论文发表 更关注落地价值 如机器人抓取鲁棒性 导航实时性优化等 [4] 优惠活动 - 前50名咨询的同学可免费匹配专属导师 进行深度Meeting 根据研究方向 学术基础 提供会议 期刊选投建议 [5]
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-06-27 17:34
业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点关注大模型/多模态大模型、扩散模型、VLA等技术方向[3] - 涉及端到端、具身交互、联合预测等前沿领域[3] - 需要SLAM、3D目标检测、世界模型等专业人才[3] - 包含闭环仿真3DGS、大模型部署与量化感知推理等技术岗位[3] 岗位要求 - 要求应聘者来自QS200以内高校[4] - 硕士及以上学历优先[4] - 拥有顶会论文者将获得优先考虑[4] 待遇福利 - 提供自动驾驶行业资源共享[6] - 包含求职、读博、出国留学等推荐机会[6] - 提供丰厚现金激励[6] - 可获得创业项目合作与推荐机会[6] 联系方式 - 咨询需添加微信并备注"机构/公司+自动驾驶合作咨询"[7]
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 17:15
自动驾驶大模型应用 - 核心观点:清华与理想汽车合作开发的DriveVLM系统通过大模型的few-shot能力解决自动驾驶长尾问题,推动L2向L4迭代 [2] - 创新点1:采用Chain-of-Thought(CoT)方法实现场景描述、分析与分层规划 [4] - 创新点2:DriveVLM-Dual快慢双系统集成传统模块,提升实时规划与空间推理能力 [4] - 创新点3:构建SUP-AD数据集聚焦自动驾驶五大维度,优化Corner Case处理 [4] 多模态大模型课程框架 - 第一章:涵盖多模态大模型基础概念、结构训练范式及公开数据集 [21] - 第二章:详解模态编码器、Input/Output Projector及LLM Backbone等核心模块 [23] - 第三章:聚焦图文/视频理解、轻量化模型等5类通用算法 [25] - 第四章:覆盖Adapter、LoRA等6种微调技术及强化学习应用 [28] - 第五章:重点解析DriveVLM等5种自动驾驶端到端大模型算法 [30] - 第六章:提供行业就业方向、面试准备等求职实战指导 [32] 技术实现与课程价值 - 数据构建:DriveVLM通过结构化LLM评估与pipeline流程优化数据集质量 [9][12] - 课程目标:培养通用大模型理论、自动驾驶前沿算法及工程部署能力 [41] - 适用人群:高校研究者、企业技术骨干及转行人员 [40] - 讲师背景:一线大厂算法专家,主导座舱与端到端大模型量产项目 [35]
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 08:49
核心观点 - 清华大学自然语言处理实验室提出基于参考概率奖励的强化学习(RLPR)技术,解决了现有RLVR范式在通用领域的应用局限 [4][7][24] - RLPR通过Prob-to-Reward方法和动态过滤机制显著提升奖励质量和训练稳定性,在Gemma、Llama、Qwen等主流模型上验证有效 [7][8][22][24] - 该方法利用大语言模型生成参考答案的概率作为奖励信号,无需领域特定规则验证器,实现领域无关的高效奖励生成 [13][14] 技术原理 - 观察到LLM生成参考答案的概率与推理质量高度相关,错误推理会导致参考答案生成概率显著下降 [11] - 提出构建不含思维链过程的对照奖励,通过差值计算去除无关因素干扰,实现奖励纠偏 [16] - 采用基于奖励标准差的动态过滤机制,结合EMA更新阈值,提升训练稳定性 [17] 性能优势 - PR奖励在0.5B规模即优于规则奖励和验证器模型奖励,通用领域质量可达0.91 ROC-AUC [19] - 在Qwen2.5 3B模型上使用不同训练模板均能取得稳定性能提升 [21] - 在Gemma、Llama等基座模型上超越使用规则奖励的RLVR基线 [22] 应用价值 - 突破现有RLVR局限于数学/代码领域的限制,可拓展至自然语言通用领域 [3][4][24] - 仅需一次前向传播即可生成奖励,显著降低人力和工程资源投入 [13] - 相关代码、模型、数据和论文已全部开源 [8][9]
京东外卖回应试点“骑手帮扔垃圾”功能;快手上线多模态大模型Kwai Keye-VL丨未来商业早参
每日经济新闻· 2025-06-27 07:42
京东外卖试点"骑手帮扔垃圾"功能 - 京东外卖正在小范围测试"骑手帮扔垃圾"功能 该服务目前仅处于方案和小范围测试阶段 尚未正式上线 [1] - 服务初衷是为有需求的用户提供额外便利 全职骑手完全自愿参与 不做强制要求 参与骑手每单可获得补贴 用户也可自发打赏 [1] - 服务需用户明确需求后才会触发 平台为骑手配备一次性手套和消毒液 确保安心配送 后续将根据反馈评估和优化该服务 [1] 快手发布多模态大模型Kwai Keye-VL - 快手发布全新多模态大模型Kwai Keye-VL 该模型在视频理解方面表现优异 能将视频内容转化为高效解决方案 并能智能选择思考模式 [2] - Kwai Keye-VL已正式开源 开源策略有助于吸引更多开发者和研究者参与 加速技术迭代和应用场景拓展 [2] - 该模型为快手在内容创作和推荐领域提供了更强技术支持 [2] 宇树科技期待与海尔等公司合作 - 宇树科技首席执行官王兴兴表示 非常期待与海尔等大型集团公司合作 [3] - 宇树科技在机器人领域具有技术优势 特别是在人工智能和机器人应用方面 [3] - 与海尔合作将有助于宇树科技拓展应用场景 提升技术商业化能力 更好应用于智能家居等领域 [3] 安心鲜生完成2800万元A轮融资 - 陕西安心鲜生连锁超市完成2800万元A轮融资 资金将用于深化智能供应链系统建设 加速全国仓储网络升级 [4] - 融资还将用于拓展"超市+驿站"融合门店规模 安心鲜生是一家专注于社区零售的连锁超市 [4] - 融资为其在社区零售领域拓展提供支持 有助于提升市场覆盖范围和品牌影响力 [4] 美团预测服务零售线上化趋势 - 美团核心本地商业首席执行官王莆中表示 未来5年服务零售会加速线上化 美团要做好服务零售商家线上化小帮手 [5] - 美团将引入最新AI技术 加速线上场景全面升级 预计2030年服务零售线上化率将增至25% 诞生300个千店品牌 [5] - 服务零售加速线上化是行业发展趋势 美团通过提前布局和技术创新 能更好抓住市场机会 提升市场份额 [5]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 14:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]
深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
自动驾驶之心· 2025-06-22 22:09
大模型微调技术 - 大模型高效微调成为业界焦点 无论是通用大模型还是智驾大模型 如何通过轻量微调变成专业模型成为热点话题 [2] - 开发大模型成本极高 ChatGPT单次训练成本超千万美元 DeepSeekv3单次训练成本超500万美元 小公司或个人难以承担 [2] - LoRA通过旁路降维再升维操作模拟intrinsic rank 训练时固定预训练模型参数 仅训练降维矩阵A与升维矩阵B [3] - LoRA初始化采用随机高斯分布初始化A 0矩阵初始化B 保证训练开始时旁路矩阵为0矩阵 [3] - LoRA思想类似残差连接 通过旁路更新模拟全参数微调过程 全参数微调可视为LoRA特例 [11] - LoRA推理时几乎不引入额外延迟 只需计算W=W0+△W [12] 多模态大模型课程内容 - 第一章介绍多模态大模型基础概念 包括结构&训练范式 公开数据集 应用场景 课程框架 [18] - 第二章讲解多模态大模型基础模块 包括模态编码器 Input Projector LLM Backbone Output Projector Modality Generator [20] - 第三章聚焦通用多模态大模型 涵盖图文理解 视频理解 任意模态 轻量大模型 统一视觉任务大模型算法 [22] - 第四章专注微调与强化学习技术 包括Adapter LoRA QLoRA Reward Model+PPO KTO DPO等算法实战 [25] - 第五章探讨多模态大模型在自动驾驶应用 包含DriveVLM等端到端自动驾驶前沿算法 [27] - 第六章提供求职专题 涵盖行业公司 发展方向 应用瓶颈 面试准备等实战经验 [29] 课程相关信息 - 讲师为一线大厂高级算法工程师 研究方向包括多模态大语言模型 Agent 参与过多车型量产项目 [32] - 课程适合高校研究人员 初创团队 企业技术骨干 转行人员等群体 [35] - 课程收获包括掌握通用大模型理论 自动驾驶前沿算法 微调部署能力 实际问题解决能力等 [36]
广联达(002410) - 002410广联达投资者关系管理信息20250621
2025-06-21 21:35
分组1:产业AI要素与公司优势 - 做好产业AI的三个关键要素为高质量数据、高价值场景、高可靠模型 [2] - 广联达在产业AI上的优势包括有自研大模型AecGPT、内置工程建设知识库、更懂图纸解析、领域知识回答更优、建筑工作流编排更优 [2] 分组2:AI价值场景落地 - 公司将建筑行业大模型与工程软件深度融合,提供智能化设计、交易、施工、运维、企业等系列应用产品及解决方案 [2] - AI场景落地方向为设计一体化、成本精细化、施工精细化 [2] 分组3:高价值AI应用特点 - 高价值AI应用应能从头到尾闭环交付 [4] - 其价值能被明确度量,如AI智能评标在海南使市场主体参与投标数量提升约10倍,节约财政资金约45.6亿元,平均中标下浮率为8% [5] - 能在过程中持续学习和优化 [5] 分组4:AI智能评标商业化落地 - AI产品商业化落地与技术成熟阶段相关,2024年交易阶段AI产品落地多,后续项目建设施工阶段AI应用价值将更凸显 [5][6] - AI智能评标通过减少人为干预保障公平公正,提升效率,破除地域限制,带来新增需求 [6] 分组5:未来高价值AI场景突破 - 技术维度上,多模态大模型突破后可带动施工现场安全管理需求场景,满足政府和企业对安全管理的需求 [6] - 市场维度上,新清单激发行业数据管理需求,AI自动建库可提高建库效率,产品已进入验证阶段,后续将规模化推广 [7]
今夏面世 OpenAI剧透GPT-5
北京商报· 2025-06-19 22:52
GPT-5发布计划 - GPT-5预计将于2024年夏季发布,具体日期未定,性能较GPT-4有显著提升 [1] - 公司内部讨论是否简单提升版本号或延续GPT-4的优化模式,7月是初步目标但可能调整 [3][4] - GPT-5定位为更接近通用人工智能的代理模型,具备推理、规划和跨情境互动能力 [3] 技术升级与竞争 - GPT-5目标是在某些任务上达到博士水平,而GPT-4仅相当于优秀高中生 [3] - 公司计划先发布GPT-4 5(代号Orion),作为最后一个非思维链模型,再推出集成技术的GPT-5 [6] - 深度求索的DeepSeek-R1性能接近公司o1模型,训练成本约600万美元,加剧行业竞争 [6] 产品策略与命名 - GPT-4o已完全取代GPT-4,其"全能"特性拓展了应用场景,但命名混乱问题待解决 [5] - 未来版本命名将简化,避免如o4-mini等复杂名称,GPT-5和GPT-6将更易使用 [5] - GPT-5将免费开放基础功能,订阅用户可享受更高智能级别 [5] 商业模式探索 - 公司主要收入来自企业客户购买增强版ChatGPT,但未排除广告可能性 [7] - 广告需谨慎处理,确保不修改模型输出且对用户有用,可能通过点击内容获得交易收入 [8] - 隐私保护是核心原则,公司反对《纽约时报》要求保留输出日志数据的诉讼 [7] 行业动态与挑战 - 多模态大模型领域将因GPT-5发布迎来新一轮技术竞争 [1] - 公司高管承认开源策略需调整,以应对竞争对手的追赶 [6] - GPT-5开发曾面临跳票、烧钱、缺人和数据不足等问题 [5]