Workflow
多模态AI
icon
搜索文档
外滩大会直击|首发突破1W预定量,无界方舟发布「奇多多 AI 学伴机」
搜狐网· 2025-09-15 15:42
现场家长们纷纷惊叹,一是惊叹奇多多可以"看见",二是惊叹自己也学到了新知识。 2025年9月,上海外滩大会——无界方舟正式发布国内首款搭载类OpenAI GPT-4o实时多模态大模型的 AI学伴机器人"奇多多",以技术突破推动AI教育硬件从"玩具化"走向"功能化"。 同时,「奇多多AI学伴机」同步在京东平台进行预售,一经上线即受到热烈追捧,首发预定量超 10000 台!用多模态交互颠覆传统早教,重新定义孩子的"智能早教新时代"。 现场体验:奇多多的3大颠覆,重新定义AI早教 在奇多多 AI 学伴机的开放体验区,一场充满童趣的对话聚焦全场目光。 一个孩子拿着山楂棒棒糖提问:"你知道这是什么吗?" 奇多多回答:"这是棒棒糖哦,英文是lollipop,它是在1908年被发明出来的,目的是解决吃糖粘手的问 题。宝贝你知道棒棒糖为什么会越吃越小吗?" 作为专为0-10岁儿童打造的AI互动机器人,「奇多多AI学伴」凭借前沿的"多模态实时交互"技术,实现 了从冰冷"工具"到贴心"伙伴"的暖心蜕变 —— 它不只是"回答问题",更是"引导思考";不只是"输出内 容",更是"传递温度"。 1. 从"给答案"到"引思考":苏格拉底 ...
LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准
机器之心· 2025-09-14 13:16
大型语音语言模型(LSLM)行业现状 - 大型语音语言模型(LSLM)的发展零散且步调缓慢,长期被碎片化架构、不透明训练数据和缺失的评估标准所困扰,导致研究难以公平比较,技术可复现性和社区进步受阻 [2] - 与视觉语言模型(LVLM)领域已形成CLIP编码器+LLaVA范式的成熟生态相比,LSLM研究面临四大核心挑战:架构路径分化严重、训练数据严重私有化、任务覆盖局限性明显、交互模态单一化 [7][8][9] - 主流LSLM如Qwen-Audio、Kimi-Audio等均依赖私有数据训练,数据规模、质量、构成等关键信息不透明,使得性能归因模糊且研究门槛高 [8][12] LLaSO框架的核心贡献 - 北京深度逻辑智能科技有限公司推出LLaSO,作为首个完全开放、端到端的语音语言模型研究框架,旨在为社区提供统一、透明且可复现的基础设施 [3][5] - LLaSO框架包含三大核心开源组件:LLaSO-Align(1200万语音-文本对齐样本)、LLaSO-Instruct(1350万多任务指令样本)、LLaSO-Eval(标准化评估基准) [14][15][16][17] - 该框架系统性支持三种交互配置:文本指令+音频输入、音频指令+文本输入、纯音频指令与输入,覆盖语言学、语义学、副语言学三大类共20项任务 [16] LLaSO-Base模型的技术实现与性能 - 基于LLaSO数据训练38亿参数的参考模型LLaSO-Base,采用经典三阶段架构:语音编码器(Whisper-large-v3)、模态投影器(MLP)、语言模型backbone(Llama-3.2-3B-Instruct) [20][21][25] - 在LLaSO-Eval基准测试中,LLaSO-Base取得0.72的最高归一化得分,显著优于Kimi-Audio(0.65)和Qwen2-Audio(0.57) [34] - 在自动语音识别(ASR)任务中,LLaSO-Base的词错误率(WER)和字错误率(CER)分别低至0.08和0.03,展现压倒性优势 [37] - 在副语言学任务中,LLaSO-Base在说话人性别识别(SGC)和口音分类(AC)任务上准确率名列前茅,在音素识别(PER 0.03)和语音命令识别(WER 0.04)上以数量级优势领先 [40][41][42] 行业影响与未来方向 - LLaSO框架通过完整开放的训练数据和代码实现,为LSLM研究提供可复现性保障、公平比较基础,降低研究门槛并加速技术积累 [54][56] - 相比私有数据方案,开源框架可为工业应用节省数千万数据构建成本,降低技术选型风险,并支持领域定制化 adaptation [56] - 当前局限性包括模型规模(38亿参数)与GPT-4级模型存在性能差距、多语言支持主要针对英文和中文、实时性能和长音频处理效率有待优化 [56] - 未来发展方向包括探索更大规模模型的性能上限、通过模型压缩和量化降低部署门槛、集成视觉信息实现多模态理解、针对医疗教育等垂直领域优化 [56]
AI产业跟踪:谷歌发布新图像模型Gemini2.5FlashImage,关注多模态AI应用落地进展
长江证券· 2025-09-05 16:44
行业投资评级 - 看好丨维持 [7] 核心观点 - 供需共振叠加政策落地强化国内Agent投资核心逻辑 预计Q4国内模型与应用侧迎来核心拐点 强烈看好国内AI应用货币化开启、规模化、商业化提速 垂直场景Agent落地周期有望提前 [2][8] - 谷歌Gemini 2.5 Flash Image模型的高性能与低成本优势有望加速多模态AI应用落地 引领交互范式革命 [5][8] 事件描述 - 2025年8月26日谷歌发布图像生成与编辑模型Gemini 2.5 Flash Image Preview 代号"Nano-Banana" 支持32k上下文 [2][5] - 文本输入/输出定价分别为0.3美元/2.5美元 图像输入/输出定价分别为0.3美元/30美元 [2][5] 技术能力 - 在LMArena基准测试中表现优异 角色一致性、创意、图表、事物/环境方面优势明显 风格化稍逊于GPT-4o [8] - 具备五大核心功能:文生图、图文生图、多图生图、迭代细化、高保真文本渲染 [8] - 实现交错生成(Interleaved Generation)机制 能在统一上下文中分阶段按指令生成图片 保证系列作品一致性与差异性 [8] - 突破文字渲染能力 可作为反映全局性能的关键代理指标 [8] - 支持像素级精准编辑(Pixel perfect editing) 用户可通过调整prompt快速重新运行直至满意 [8] 应用价值 - 创作方式从生产力工具延伸向创意工具 实现从效率工具到创意伙伴的转变 [8] - 具备出色的角色一致性、自然语言和空间理解能力 支持多参考元素迁移组合及任意风格迁移复制 [8] - 生成单张图像成本约0.039美元 低于GPT-Image-1的0.19美元 [8] - 高质量低成本生成、多轮对话编辑、生成速度提升三者合一引领交互范式革命 从"编写精确指令"转向"进行自然对话"的共创协作模式 [8] 投资建议 - 关注AI Agent相关厂商、中国推理算力产业链、云服务厂商、IDC(重点关注与阿里巴巴等大厂合作的IDC) [8] - 预计Q4国内模型与应用侧迎来核心拐点 垂直场景Agent落地周期提前 [2][8]
狮腾控股(2562.HK)大涨近12%,推出Geene M2多模态AI平台
格隆汇APP· 2025-09-04 11:28
公司股价表现 - 狮腾控股(2562.HK)盘初大涨近12% 报17.9港元 [1] 产品动态 - 公司宣布推出多模型大型语言模型(LLM)平台Geene M2 [1] - Geene M2整合Geene R1、Geene TurboGT、OpenAI的ChatGPT、阿里巴巴的Qwen、字节跳动的SkyLark及其他大型语言模型 [1]
狮腾控股推出Geene M2多模态AI平台
证券时报网· 2025-09-04 08:19
公司动态 - 狮腾控股9月4日在港交所公告推出多模型大型语言模型平台Geene M2 [1] - Geene M2整合了Geene R1、Geene TurboGT、OpenAI的ChatGPT、阿里巴巴的Qwen及字节跳动的SkyLark等大型语言模型 [1] 产品发布 - 新平台Geene M2采用多模型整合架构 涵盖自研模型与第三方主流模型 [1] - 整合模型包括Geene系列自研产品及外部企业ChatGPT、Qwen、SkyLark等核心语言模型 [1]
谷歌nano-banana模型一致性强出圈,看好多模态场景应用提速
东方证券· 2025-09-02 09:47
行业投资评级 - 传媒行业评级为"看好"(维持)[4] 核心观点 - 谷歌最新nano-banana模型具有SOTA级图像理解与编辑能力 在人物和产品一致性上接近100% 显著提升电商和广告素材生产效率 释放更多营销预算[1] - 高一致性图像生成作为AI视频创作前置步骤 对解决视频一致性痛点有助益 推动多模态下游场景应用深化[1] - 技术突破与成本优化将加速产业趋势 带动用户增长、付费渗透和商业化提升 尤其关注多模态AI应用出海公司[2] - 年底至明年重视Meta逻辑演绎 模型能力带来的CTR提升有望推动收入增长及估值重塑[2] 投资标的 - 建议关注:快手-W(01024 买入)、美图公司(01357 未评级)、万兴科技(300624 未评级)、MiniMax(未上市)[2] - 建议跟进大厂落地测试:阿里巴巴-W(09988 买入)、腾讯控股(00700 买入)、快手-W(01024 买入)[2] 模型技术优势 - nano-banana模型位居LMArena文生图和图像编辑双榜单首位 具备三项核心能力:人物/产品一致性接近100% 元素替代能还原真实物理规律 支持数十张图片自然融合[7] - 适用于电商A/B测试批量化生产 节省商家测试成本 释放素材投放预算[7] 产业链影响 - 图像一致性对AI视频工作流有关键作用 文生图阶段的高一致性输出将提升视频生成整体效率 带动泛用户使用和行业渗透率加速[7]
三态股份涨0.85%,成交额1.14亿元,近3日主力净流入-4144.15万
新浪财经· 2025-09-01 16:00
股价表现与交易数据 - 9月1日股价上涨0.85% 成交额1.14亿元 换手率5.53% 总市值74.55亿元 [1] - 主力资金连续3日净流出 当日净流出281.66万元 行业排名第8/18 所属行业主力净流出1.19亿元 [4] - 近20日主力累计净流出1.51亿元 近5日净流出6083.83万元 近10日净流出4939.37万元 [5] 业务构成与经营表现 - 主营业务为出口跨境电商零售和第三方出口跨境电商物流 海外营收占比达99.98% [2][3] - 2025年上半年营业收入8.27亿元 同比增长3.27% 归母净利润2325.52万元 同比下滑48.75% [8] - 收入构成:兴趣爱好类28.88% 国际专线24.71% 家居生活23.64% 工具配件10.62% 潮流时尚8.66% [7] 技术创新与AI应用 - 自主研发知识产权风险检测工具"睿观·ERiC" 基于AI大数据模型提供风险监测解决方案 [2] - A+智能图片生成项目采用Stable Diffusion技术 通过文本输入生成高质量定制化图像 [2] - 多模态模型融合大型语言模型LLM和图像CV算法 为跨境电商提供产品风险检测服务 [3] 股东结构与机构持仓 - 股东户数3.12万户 较上期减少5.71% 人均流通股7023股 较上期增加6.06% [8] - 香港中央结算有限公司为第一大流通股东 持股332.85万股 较上期增持229.59万股 [9] - 中证1000ETF产品集体增持 南方中证1000ETF持股221.77万股 华夏中证1000ETF持股128.76万股 [9] 市场定位与行业属性 - 所属申万行业为商贸零售-互联网电商-跨境电商 概念板块涵盖小盘股/知识产权/AIGC等 [8] - 公司成立于2008年1月 于2023年9月28日上市 A股上市后累计派现1.10亿元 [7][9] - 技术面显示筹码平均交易成本9.73元 当前股价靠近压力位9.48元 [6]
三态股份跌0.10%,成交额2.35亿元,今日主力净流入-2986.00万
新浪财经· 2025-08-28 16:13
公司业务与战略 - 主营业务为出口跨境电商零售和第三方出口跨境电商物流 核心产品包括出口跨境电商零售业务和出口跨境电商物流业务[2] - 研发AIGC项目如A+智能图片生成项目 通过Stable Diffusion技术生成高质量图片 利用mask机制控制像素点生成概率 提升运营效率并节约制作成本[2] - 软件业务采用大型语言模型LLM和图像CV算法训练多模态模型"睿观·ERiC" 为跨境电商企业提供产品风险检测服务[2] 财务表现 - 2025年第一季度营业收入4.03亿元 同比增长3.48% 归母净利润1400.44万元 同比减少53.47%[9] - A股上市后累计派现1.10亿元[10] - 海外营收占比达99.98% 受益于人民币贬值[3] 股权与股东结构 - 股东户数3.12万户 较上期减少5.71% 人均流通股7023股 较上期增加6.06%[9] - 十大流通股东包括南方中证1000ETF持股176.65万股(较上期减少16.34万股) 香港中央结算有限公司持股103.26万股(新进) 华夏中证1000ETF持股98.23万股(新进)[10] 市场交易数据 - 8月28日成交额2.35亿元 换手率11.35% 总市值75.10亿元[1] - 主力净流出2986万元 占成交额0.13% 行业排名12/18 连续2日被主力资金减仓[5] - 主力持仓占比6.77% 筹码分布非常分散 无控盘现象[6] 行业属性与地域特征 - 所属申万行业为商贸零售-互联网电商-跨境电商 概念板块包括小盘、AIGC概念、知识产权、智慧物流、电子商务等[8] - 注册地位于深圳市南山区 属于粤港澳大湾区企业[4] - 主营业务收入构成:兴趣爱好28.88% 国际专线24.71% 家居生活23.64% 工具配件10.62% 潮流时尚8.66% 数码科技2.99% 国际邮政0.33% 商业快递0.16% 其他收入0.02%[8]
InternVL 3.5来了!上海AI Lab最新开源:硬刚 GPT-5 还把效率玩明白
自动驾驶之心· 2025-08-28 07:33
模型发布与性能 - 上海AI Lab推出开源多模态模型InternVL 3.5系列,在通用性、推理能力和推理效率方面显著提升 [2] - 通过级联强化学习(Cascade RL)框架实现更优性能,离线RL阶段确保稳定收敛,在线RL阶段进行精细对齐 [2] - 提出视觉分辨率路由器(ViR)动态调整视觉标记分辨率,结合解耦视觉-语言部署(DvD)方法优化效率 [2] - 在多个基准测试中表现领先,显著缩小与GPT-5等顶级商业模型的性能差距 [2] 模型架构与参数规模 - 模型架构包括动态高分辨率文本分词器、InternViT视觉编码器和视觉-语言连接器 [5] - 采用两阶段训练范式:大规模预训练阶段和多阶段后训练阶段 [5] - 提供多种参数规模版本,从1.1B到241B,包括密集模型和MoE模型 [3] - 最大模型InternVL3.5-241B-A28B总参数量达240.7B,其中视觉参数5.5B,语言参数235.1B [3] 训练方法与数据 - 预训练阶段使用1.16亿个样本,对应约2500亿个标记,纯文本与多模态数据比例约为1:2.5 [7] - 后训练采用三阶段策略:监督微调(SFT)、级联强化学习(Cascade RL)和视觉一致性学习(ViCO) [9] - SFT阶段使用高质量对话数据,包含来自InternVL3的指令遵循数据和"思考"模式下的多模态推理数据 [9] - 测试时扩展(TTS)方法包括深度思考(逐步推理)和并行思考(Best-of-N策略) [11] 多模态推理与数学能力 - 在MMMU基准测试中,InternVL3.5-241B-A28B达到82.7分,显著超越前代产品 [15] - MathVista基准测试中,InternVL3.5-241B-A28B获得63.9分,较InternVL3-1B的18.8分有大幅提升 [15] - 在MathVerse视觉only测试中,InternVL3.5-241B-A28B达到68.5分,相比InternVL3-1B的18.7分进步显著 [15] - 使用并行思考技术后,多个模型的数学推理能力进一步提升 [15] OCR与文档理解 - 在AI2D测试中,InternVL3.5-241B-A28B达到87.3分(无mask)和95.0分(有mask) [17] - DocVQA测试中,InternVL3.5-241B-A28B获得94.9分,优于GPT-4o的92.8分 [17] - OCRBench测试中,InternVL3.5-241B-A28B达到907分,表现优异 [17] - 在TextVQA测试中取得84.5分,超越GPT-4o的77.4分 [17] 多模态理解与幻觉评测 - MMBench V1.1英文测试中,InternVL3.5-241B-A28B获得87.4分 [21] - MMVet测试中达到81.2分,优于GPT-4o的69.1分 [21] - HallusionBench测试中获得77.9分,表现突出 [21] - 综合多模态理解能力在多个基准测试中领先 [21] 具身智能与GUI代理 - 在VSI-Bench测试中,InternVL3.5-241B-A28B达到69.5分,显著优于GPT-4o的34.0分 [29] - GUI代理任务中,ScreenSpot-v2测试获得92.9分,OSWorld-G测试达到53.2分 [27] - WindowsAgentArena测试中取得18.0分,WebArena-Lite-v2测试获得11.7分 [27] - 在具身智能体任务中表现优异,多个测试分数领先 [29] 多语言与视频理解 - 多语言MMBench测试中,英文达到87.6分,中文86.4分,表现均衡 [24] - 视频理解任务中,Video-MME测试达到72.9分(无字幕)和76.0分(有字幕) [25] - MVBench测试获得76.5分,MLVU测试达到78.2分 [25] - 在多语言和多模态视频理解方面表现全面 [24][25]
今日十大热股:华胜天成算力概念持续火热,合力泰5天4板电子纸概念爆发,歌尔股份领衔消费电子行情
金融界· 2025-08-27 11:15
市场整体表现 - 沪指跌0.39%,深成指涨0.26%,创业板指跌0.75%,两市成交额2.71万亿元,较前一日缩量约4600亿元 [1] - 全市场超2800只个股上涨,涨停个股达92只,主要集中在计算机、机械设备等行业 [1] - 消费电子、游戏、猪肉板块领涨,芯片、稀土永磁等板块回调 [1] 人气热股及热度特征 - 利欧股份热度排名第一,属液冷服务器和多模态AI概念,首板涨停 [2] - 华胜天成热度排名第二,属东数西算和信创概念,持续上榜 [2] - 领益智造热度排名第三,属同花顺果指数和智能音箱概念,2天2板 [2] - 拓维信息热度排名第四,属华为盘古和华为昇腾概念,首板涨停 [2] - 寒武纪-U热度排名第五,属中国AI 50和汽车芯片概念,热度值7.5 [2] - 歌尔股份热度排名第六,属同花顺果指数和无线耳机概念,首板涨停 [2] - 奋达科技热度排名第七,属减速器和智能音箱概念,首板涨停 [2] - 合力泰热度排名第八,属电子纸和无线充电概念,5天4板 [2] - 北方稀土热度排名第九,属稀土永磁和小金属概念,热度值6.25 [2] - 中电鑫龙热度排名第十,属东数西算和数据中心概念,首板涨停 [2] 个股核心驱动因素 - 利欧股份上半年预计净利润3.5-4.5亿元,同比扭亏,受益于持有理想汽车股票的公允价值变动及出售收益 [3] - 华胜天成作为华为昇腾生态核心合作伙伴,深度参与天津、济南等国家级人工智能计算中心建设,中报预告净利润同比大增148%-172% [3] - 领益智造通过收购江苏科达进入新能源汽车零部件赛道,加速人形机器人核心部件研发与量产,与智元机器人等企业建立深度合作关系 [3] - 拓维信息作为华为生态核心战略伙伴,深度参与鸿蒙、昇腾AI及鲲鹏等关键领域,中报归母净利润同比暴增超2200% [3] - 寒武纪-U作为国内AI芯片领军企业,二季度环比增长近100%,定增39.85亿元获上交所审核通过 [4] - 歌尔股份受益于全球智能眼镜出货量上半年同比激增110%,其中AI眼镜增长250%,收购Micro-LED厂商Plessey强化产业链布局,完成10亿元增持并启动回购计划 [4] - 奋达科技越南生产基地于7月实现大批量投产,缓解关税政策对订单交付的影响,在AI硬件领域推出下棋机器人、桌面陪伴机器人等新产品,研发投入同比大增35.9% [4] - 合力泰通过司法重整化解91.15亿元债务,资产负债率从193.91%骤降至27.52%,电子纸业务收入占比提升至67.69%,越南及德国基地投产加速智慧零售市场布局 [5]