多模态大模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态大模型

搜索文档

具身智能之心1v1论文辅导来啦～

具身智能之心· 2025-10-10 11:14

核心业务与服务 - 公司提供一站式论文辅导服务，专注于具身智能等前沿研究领域，包括多模态大模型、视觉语言动作、机器人抓取导航等方向 [1] - 服务覆盖从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导 [2] - 辅导服务涵盖CCF-A到CCF-C各类会议以及SCI一区到四区期刊，支持EI、中文核心、毕业论文和申博等多种需求 [1] 目标市场与专业领域 - 目标客户为研究具身智能前沿领域的学生和学者，具体研究方向包括3D高斯泼溅的实时渲染与动态场景建模、具身智能体的跨任务迁移与零样本适应等 [1] - 公司专注于顶级学术会议和期刊的产出，涉及领域包括ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等 [1] 竞争优势与团队构成 - 导师团队来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员，拥有顶级会议审稿经验 [1] - 公司提供工业界与学术界双视角辅导，不仅关注论文发表，更注重技术落地价值，如机器人抓取鲁棒性和导航实时性优化 [3] - 公司为前10名咨询者提供免费专属导师匹配和深度Meeting服务，进行一对一研究方向分析和选投建议 [4]

多模态大模型

视觉语言动作（VLA）

视觉语言导航（VLN）

具身智能之心论文辅导

多模态大模型

视觉语言动作（VLA）

视觉语言导航（VLN）

具身智能之心论文辅导

东吴证券晨会纪要-20251010

东吴证券· 2025-10-10 09:17

宏观策略 - 国庆假期海外市场由美国政府停摆和日本高市早苗当选自民党总裁两大事件主导，避险情绪升温及对美联储“盲降利率”预期推动黄金和比特币续创历史新高，黄金突破3960美元/盎司，比特币突破15万美元[1][17] - 全球政治右翼化与宽财政、宽货币趋势加剧地缘摩擦不确定性和政府债务不可持续性，经济从软着陆走向温和过热概率加大，大类资产中期表现预计为金>铜>股[1][17] - 美股在政府停摆期间因经济数据暂停发布呈现“没消息就是没消息”交易逻辑，标普500指数录得7连涨，日经225指数因高市早苗胜选上涨6.4%创历史新高[17] 固收市场 - 二级资本债周成交量合计约2299亿元，较上周增加521亿元，绿色债券新发行23只合计规模309.74亿元，周成交额703亿元较上周增加99亿元[2][3][23][25] - 银行业债券投资实际收益2025年上半年合计约1.42万亿元，较2024年同期1.37万亿元增长3.82%，但票息收入面临利率下行压力，投资收益成为主要增长动力[4][26][29] - 国有大行债券投资压力相对可控，股份行、城商行和农商行因金融资产体量及负债端稳定性较弱更易受债市逆风影响，或转向权益市场寻求收益[4][29] 电力设备与新能源 - 储能需求超预期，国内容量补偿电价出台推动大储增长，今明年预计30-40%增速，全球储能装机2025-2028年复合增长率达30-50%，电池供应紧张或延续至2026年年中[8][32] - 锂电板块9月排产略超预期，10月排产进一步提升10%，储能电池价格已上涨1-3分/wh，Q4仍有提升空间，材料环节产能打满且涨价诉求强烈[8][32] - 固态电池中试线2025年下半年密集落地，人形机器人领域特斯拉Gen3将于10-11月定型，2026年初量产，2030年预期100万台，产业链进展提速[8][32] 汽车行业 - 9月第4周乘用车销量环比增长26.7%，国内主流15家新能源车企9月交付87.7万辆同比增长15%，小鹏、小米、长城新能源首次突破4万辆[10] - 汽车行业进入电动化红利尾声与智能化黎明阶段，AI智能车主线聚焦Robotaxi/Robovan及C端卖车，供应链关注芯片、域控制器、传感器等环节[10] - 特斯拉三季度交付49.7万辆同比增长29.4%，发布FSD V14版本，美国市场推出降配降价版Model 3和Model Y以应对补贴下降[10] 电子与算力 - 国产算力投资逻辑从供给侧转向需求侧，多模态大模型如DeepSeek-V3.2、GLM-4.6实现与寒武纪、海光等国产芯片首日适配，推动算力内生增长[11][12] - OpenAI通过模型、应用与投资升级重塑AI产业格局，驱动算力、存储及高速互联需求指数级扩张，AI服务器代工、光通信等环节景气度跃升[13] - 芯原股份2025年Q3营收12.84亿元环比增长119.74%，新签订单15.93亿元同比增长145.80%，AI算力相关订单占比约65%[16] 个股聚焦 - 裕太微-U在网通以太网芯片领域实现2.5G PHY芯片收入超1.4亿元，车载以太网芯片已覆盖主流车厂，首款TSN交换机芯片标志技术深化[14] - 特海国际作为海底捞海外平台，预计2025-2027年门店数达130/140/149家，归母净利润复合增速50%，对应2025年PE为31倍[15] - 先导智能预计2025-2027年归母净利润15/20/25亿元，动态PE分别为64/48/39倍，发行限制性股票激励强化龙头地位[16]

多模态大模型

新能源汽车

多模态大模型

新能源汽车

国泰海通：Sora2加快推动AI视频发展 PGC、UGC应用多元创新加速

智通财经网· 2025-10-09 11:21

产品发布与性能 - OpenAI于9月30日正式发布最新视频生成模型Sora 2及同名IOS社交应用"Sora" [2] - Sora 2在视频真实性、音频同步和精细控制上实现重大突破，支持生成10秒的沉浸式内容 [2] - Sora 2 Pro版本生成时长提升到15秒，画面分辨率更高，质感更接近电影 [2] - Sora App已成功登顶苹果美国"热门免费应用"榜单，目前采用邀请制，优先在美加开放 [1][2][3] 技术特点与行业趋势 - 多模态视频生成逐步走向全局生成，通过文字、图片、视频作为提示词进行凭空生成，不依赖外部素材 [2] - 视频生成模型整体在稳定性、可控性、丰富度、生成时长方面持续提升 [1][2] - 该技术可应用于视频制作各环节，对内容制作整体呈现有效的降本增效，尤其在动画内容方面 [2] 应用场景与商业模式创新 - AI短视频能在社交、电商营销、教育等场景实现广泛应用，可根据提示词在创意视频、品牌广告等领域创造价值 [1][3] - Sora App通过创新"Cameo"功能将用户肖像无缝融入生成场景，重新定义社交互动与内容创作 [2] - OpenAI探索收费模式，Sora将提供控制选项让角色版权方自主决定是否允许用户使用其角色进行二次创作，未来可能形成"创作者+ IP方+平台"的分账生态 [3] 投资机会 - 平台和模型公司领域推荐美图公司 [4] - IP资源公司领域推荐上海电影，关注中文在线、掌阅科技、中信出版、果麦文化、新经典 [4] - 内容多元创新公司领域推荐慈文传媒、光线传媒、博纳影业、华策影视、百纳千成，关注欢瑞世纪、捷成股份 [4] - 其他多元应用公司领域，电商营销类推荐易点天下、浙文互联、值得买，教育类推荐南方传媒，关注豆神教育 [4]

多模态大模型

多模态大模型

我们正在找具身领域的合伙人......

具身智能之心· 2025-10-08 10:49

文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请，旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端（企业、高校、研究院所）和C端（学生、求职人群）的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型

AI需求侧核心逻辑正式向多模态大模型延展-国产算力认知强化！Tokens消耗 | 投研报告

中国能源网· 2025-10-08 10:01

海外多模态大模型进展 - OpenAI于10月1日上线Sora2/Pro App，支持最长15秒文生视频，物理运动更精准并支持用户客串生成内容，发布三天后登上美区App Store第一名 [1][1] - OpenAI在10月7日开发者大会上宣布ChatGPT可直接调用第三方应用，并推出GPT-5Pro、Sora2 API等开发者工具，标志其从单一对话工具向AI应用及社交平台转型 [1] - xAI于10月6日推出视觉生成模块Imagine，可从文字生成高质量图像与视频，Grok由问答助手升级为多模态创作AI，构建社交+搜索+创作一体化平台 [1] - Anthropic于9月30日发布Claude Sonnet 4.5编程模型，强调构建生产就绪级AI Agent能力，推动智能体从原型验证迈向实际部署 [1] - 多模态理解与生成技术已突破具备商业化价值临界点，AI生成视频动作可控性与内容观赏度显著提升，用户主动创作与付费意愿大幅提升 [1] 国内多模态能力发展 - 快手可灵2.5 Turbo于10月2日在全球视频生成模型榜单中登顶图生视频与文生视频双榜首，体现其视频生成与内容质量的国际领先水平 [2] - 字节跳动于10月2日与UCLA推出Self-Forcing++视频生成技术，可生成4分15秒高清视频，视觉稳定性提升至2.6倍 [2] - 字节跳动旗下豆包1.6-Vision模型于9月30日更新，通过工具调用将图像融入思维链，提升视觉理解精度 [2] - 腾讯于9月28日推出并开源混元图像3.0，作为业界首个开源工业级原生多模态生成模型，快速登顶Hugging Face热榜并保持领先 [2] - AI应用落地竞争核心从单一语言智能转向多模态生成与理解能力，国内头部厂商正快速补齐该关键环节并在国际基准测试中崭露头角 [2] 国产算力投资逻辑演变 - DeepSeek于9月30日发布DeepSeek-V3.2-Exp，DSA架构使得推理成本更低且支持更长上下文，模型支持国产开发生态tilelang语言，并实现与寒武纪、海光、昇腾等芯片的首日适配 [3] - 智谱于9月30日开源GLM-4.6，在Agentic Coding等关键能力上显著提升，代码生成性能已对齐Claude Sonnet 4，并完成与国产GPU的联合优化 [3] - 阿里巴巴于10月4日发布并开源Qwen3-VL系列多模态模型，实现昇腾芯片的0Day适配，加速国产硬件生态落地 [3] - 投资逻辑从因H20限售驱动的供给侧替代逻辑，演进为多模态能力突破带来的需求侧拉动，AI应用自身增长牵引形成国产算力原生成长路径 [3] - 随着多模态生成与实时推理场景不断丰富，国产算力有望进入内生驱动的新一轮成长周期 [3]

多模态大模型

Artificial Intelligence

快手可灵2.5Turbo

Self - Forcing++视频生成技术

多模态大模型

Artificial Intelligence

快手可灵2.5Turbo

Self - Forcing++视频生成技术

自动驾驶之心招募合伙人啦！4D标注/世界模型/模型部署等方向

自动驾驶之心· 2025-10-04 12:04

业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享，包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

闭环仿真3DGS

大模型部署与量化感知推理

多模态大模型

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

量子位· 2025-10-03 12:19

多模态大模型LIRA的技术突破 - 华中科技大学与金山办公团队联合提出多模态大模型LIRA，该模型在图像分割与视觉理解两项任务上均取得SOTA性能 [3][6] - LIRA的核心创新在于引入了两个新模块：语义增强特征提取器（SEFE）与交错局部视觉耦合（ILVC） [3] - 与InternVL2相比，LIRA在保持理解性能的同时，额外支持图像分割任务；与OMG-LLaVA相比，LIRA在图像分割任务上平均提升8.5%，在MMBench上提升33.2% [7] 现有技术痛点与LIRA的解决方案 - 现有模型如OMG-LLaVA和LISA存在分割结果不够精确、理解过程出现幻觉两大痛点，源于物体属性理解不足与细粒度感知能力局限 [1][2] - 语义增强特征提取器（SEFE）通过融合高层语义特征与细粒度像素特征，增强模型的属性理解能力，从而提升分割精度 [4][24][25] - 交错局部视觉耦合（ILVC）通过显式绑定局部图像区域与对应文本描述，为模型提供细粒度监督，从而有效减少理解幻觉 [5][24][26] 技术细节与工作原理 - SEFE模块融合了预训练多模态大模型的语义编码器和分割模型的像素编码器，通过多头交叉注意力机制融合特征后送入大语言模型 [28][29] - ILVC模块的工作流程为：使用token生成分割掩码，基于掩码裁剪图像区域并调整大小，输入SEFE提取局部特征，再将特征输入大语言模型生成区域描述，以此建立局部图像与文本的显式联系 [33][34] - 研究团队将根据用户查询和图像信息理解物体属性以实现准确分割的过程，定义为“推理分割”（Inferring Segmentation） [21][22] 实验性能与数据验证 - 在多个基准测试中，LIRA-8B模型在理解任务上表现优异，例如在VizWiz得分71.5、VQAv2得分80.4、MMB-en得分81.1、MMB-cn得分80.5 [36] - 在分割任务上，LIRA-8B模型在RefCOCO的TestA集得分83.4，在RefCOCO+的TestA集得分81.1，在RefCOCOg的Test集得分78.2 [36] - 消融实验证明SEFE模块有效：在InternLM2-1.8B骨干网络上，增加SEFE使VizWiz得分从62.7提升至67.0，VQAv2得分从71.1提升至76.1 [37] - ILVC模块能有效降低幻觉率：在ChairS数据集上，使用ILVC后，1.8B和7B规模模型的幻觉率分别降低了3.0%和4.8% [38] - 联合训练验证：LIRA-2B同时用理解数据和分割数据进行联合训练，性能仅较单独用理解数据训练略微下降0.2%，显著优于OMG-LLaVA在五个理解数据集上近15%的性能下降 [40][41] 行业意义与未来展望 - 该研究将多模态大模型的能力从视觉理解拓展至像素级分割，实现了理解与分割任务性能的协同提升 [9][43] - 研究团队探讨了token在分割任务中的作用，发现其logits能够准确反映被分割物体的属性，推测其可能蕴含更丰富的物体语义信息 [20][42] - 该工作为在细粒度多模态大模型中缓解幻觉提供了新视角，并为后续相关探索提供了启示 [43] - 该项目论文已被ICCV 2025录用 [8]

多模态大模型

多模态大模型

2025年AI驱动下通信云行业的全球化变革

艾瑞咨询· 2025-10-03 08:03

行业市场规模与增长前景 - 2024年全球互联网通信云市场规模约为68亿美元，同比增速放缓 [1][7] - 市场增速放缓主要受AI场景化落地处于观望期及宏观经济环境震荡影响 [1][7] - AI在当前云通信市场的渗透率仅约15%，未来2-3年有望迎来新一轮增长 [7] - 未来3-5年，随着AI陪伴、AI助理等新场景拓展，市场有望出现回暖 [7] 技术发展趋势 - 通信云从基础信息传输管道向AI交互中枢进化，聚焦场景化赋能与数据价值挖掘 [2][39] - 生成式AI推动文本、语音、视频融合交互，驱动厂商优化多模态传输效果 [3][39] - 厂商聚焦核心通信能力建设，通过开放接口接入第三方大模型满足GenAI需求 [25] - 未来技术将向多模态大模型与穿戴式硬件融合方向发展，构建新型交互基础设施 [42] 开发者与市场需求焦点 - 开发者对通信云的需求向安全、智能和开放三个方向收束 [2][13] - 智能方面，开放第三方大模型接口、提供低代码智能体创建工具成为基础套件 [2][30] - 开放方面，跨平台开发兼容与AI能力整合成为厂商主要竞争力之一 [2][30] - 企业客户在存量竞争时代更倾向于通过精细化运营提升产品竞争力 [10] 全球区域市场特征 - 全球市场呈现区域需求分化，受政策环境、基础设施及用户行为差异影响 [13] - 欧美成熟市场将数据隐私与合规性作为首要诉求，对AI新玩法接受度高 [13] - 新兴市场如东南亚、中东、拉美非洲更关注本土化适配与场景创新 [13] - 全球已有超过82%的国家和地区已建立或正在建立数据隐私法规 [16] 安全与合规升级 - 数据主权和隐私保护成为出海刚需，需明确数据所有权归属及加密传输 [2][18] - 地缘政治紧张推动各国对自主可控通信平台的需求，从技术选项升级为国家安全基石 [18] - 未来将运用QKD等更严格加密技术从底层重塑安全架构，构建可追溯的安全生态 [21] - 在出海服务中，与安全厂商的技术合作及强化属地化生态合作成为关注点 [32] 竞争格局与厂商策略 - 市场进入存量竞争阶段，IM PaaS市场TOP3厂商占比约90%，RTC PaaS市场TOP3占比近70% [35] - 厂商竞争焦点从基础通信能力转向差异化服务效能，如提供全栈大模型能力 [35] - 头部厂商通过封装从模型调用到场景组件的全栈AI能力优化交互体验 [35] - 为突破同质化，主权明晰、防篡改、可溯源的通信云服务成为全球竞争力关键 [35] 未来应用场景与商业化 - 短期将优先锚定低准确性、低实时性要求的价值场景实现突破 [27] - 长期将深入游戏、教育、办公、金融等场景，打造高沉浸式AI应用 [27][42] - 多模态大模型与穿戴式硬件的融合被视为未来3-5年的主要发力场景 [42] - 通信云角色从技术支撑层向商业基座升级，成为连接用户、设备与服务的神经中枢 [42]

多模态大模型

互联网通信云

多模态大模型

互联网通信云

业务合伙人招募！4D标注/世界模型/VLA/模型部署等方向

自动驾驶之心· 2025-10-02 11:04

业务合伙人招募计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 主要技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向包括具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等前沿领域 [3] 岗位要求 - 候选人需毕业于QS200以内高校，并拥有硕士及以上学历 [4] - 拥有顶级学术会议发表成果的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享，包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]

多模态大模型

自动驾驶相关课程研发

多模态大模型

自动驾驶相关课程研发

AI+教育，一个被远远低估的赛道

凤凰网· 2025-09-29 20:29

行业背景与市场潜力 - 2024年5月GPT-4o的发布展示了AI实时语音辅导的潜力，对教育行业产生冲击，但随后通用大模型未持续发力，反而激发了AI+教育市场的潜力，教育赛道多方势力开始投入 [1] - 辅导作业是家长的刚需，学生知识体系庞杂导致家长难以应对，这催生了学习机市场的火热 [3] - 行业内AI老师多数还停留在L2阶段，能够做到播放讲解视频、作业批改，但往往是独立的AI板块，并非真正的教学过程 [13] 产品功能与技术应用 - 学而思学习机通过多模态能力的引入，实现了能看见、会理解的功能，可以通过扫描学生作业完成实时批改和讲解 [2] - 学习机内嵌的智能体“小思”可以与学生对话互动，例如通过语音指令“复活数学家”召唤虚拟祖冲之进行一对一互动，激发学习兴趣 [4] - 产品涵盖数学、语文、英语等学科，覆盖学龄前启蒙至高中课程体系，并能通过AI测试判断孩子学习情况，提供针对性辅导方案 [5] - AI作业批改是最大亮点之一，通过多模态识别扫描题目后实时生成解题过程，提供更详细的解题思路拆解 [6][7] - 小思AI 1对1超级教育智能体具备L3级别能力，可实时观察学生学习过程，逐步检查解题步骤并给出反馈，实现有来有回的陪跑式教学 [13] 公司战略与技术路径 - 好未来在2023年初决定让技术团队放下其他工作，专注于大模型，但放弃自研通用大模型，选择在顶级开源模型上进行二次调教与强化 [8] - 公司采用双轨路线，结合DeepSeek通用大模型（负责百科问答、会话）和自研的九章垂类大模型（负责拍批、答疑、精准学等教育专项功能） [9] - 九章大模型建立在优秀开源通用大模型之上，并加入大量教育行业专业数据进行后训练，以解决通用大模型存在的幻觉和知识点匹配不精准问题 [9][10] - 公司认为随着通用大模型能力提升，垂类模型更需要通过专业数据构建自身护城河 [10] 未来发展方向 - 好未来将AI老师等级划分为L1-L5，L1为初级找素材，L2为独立板块讲题批改，L3为限定场景多能力组合，L4为高度自主贯穿多场景，L5为完全体AI老师 [12] - 公司目前已具备L3级别AI老师的雏形，行业攻坚重点在于多模态交互和个性化学习 [13] - 公司认为AI可以在学习模式、教育内容和师生交流互动上无限趋近甚至重构真人老师，但不会完全替代，因教育本质包含情感互动和价值观导向 [14] - 好未来坚定看好AI老师方向，认为真人老师能做的部分工作未来AI老师都能干且干得更好 [15]

好未来(US:TAL)

多模态大模型

学而思学习机T4旗舰款

小思AI 1对1超级教育智能体

多模态大模型

学而思学习机T4旗舰款

小思AI 1对1超级教育智能体