多模态AI

搜索文档
多模态AI黑马刷榜后再造神器:一个产品搞定图片视频播客生成,自带百种特效,大牛梅涛团队出品
量子位· 2025-06-24 21:36
西风 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI A I大牛梅涛坐镇,全新多模态AI问世! 用 法上堪称: 全能 。 不仅 支持 图 片、视频 生成 : 奇幻场景、多样视角都能驾驭: 而且 唇形同步 功能上线,社 恐大"i"人也能玩转 播客 : 划重点: 官方还提供了 上百种可直接套用的趣味特效模版 ,让 用户实现"躺 平创 作"。 人物、 动物、建筑物的"变身"模版通通都有 : 像下面这种炫酷转换, 操作 简单到只需上传一张图: 另外,生图板块的Image Agent也是官方主打,修图生图只需大白话表述,不会写prompt不是问题,它会自动帮你优化 修改。 不卖关子,这个最新创作工具就是 vivago2.0 (智小象AI) 。 打造出它的团队 智象 未 来 (HiDr eam.a i) ,是圈内鼎鼎有名的大牛——加拿大工程院外籍院士梅涛创立的AI公司,研发团队中挤满了 来自中科大的中坚。 前段时间,团队推出的 开源模型HiDream-I1 曾在文生图模型竞技场一鸣惊人, 开源24小时就拿下了排行榜榜首 ,在国内一众开源大模型 中率先跻身第一梯队。 | CREATOR | NAME | ARENA ...
2025年AI在多个方面持续取得显著进展和突破
搜狐财经· 2025-06-23 15:19
多模态AI发展 - 多模态AI成为2025年AI领域关键趋势 能够处理和整合文本、图像、音频和视频等多种形式输入 [1] - OpenAI的GPT-4可从文本、音频和视觉输入生成文本 谷歌Gemini模型展示出色多模态能力 微软Designer应用利用多模态AI进行图形设计任务 [1] - 多模态AI在医疗保健领域可结合医疗图像和患者病史进行更准确诊断 在客户服务方面提供更直观全面支持 在内容创作上能根据单一提示生成多种媒体类型 [1] AI智能体演进 - AI智能体从简单聊天机器人向更智能、具有情境感知能力的助手转变 改变客户服务、生产力和用户交互方式 [3] - 智谱AI推出的智能体可替用户点外卖 能在无人工干预下完成跨应用程序、多步骤的真实任务 [3] - 2025年智能体将更加普及 能处理更复杂任务 为供应链经理、软件开发人员、金融分析师等提供支持 并有望革新自动驾驶领域 [3] 小语言模型(SLMs)崛起 - 2025年小语言模型(SLMs)快速发展并广泛采用 相比大型语言模型(LLMs)具有开发和实施成本低等优势 [3] - 微软Phi和Orca模型、GPT-4 o - mini、Claude 3.5 Haiku、Meta的Llama 2以及谷歌研究的更高效语言模型展示了SLMs潜力 [3] - SLMs使AI能力可应用于边缘设备和智能手机 为小型组织和研究人员提供更易获取的AI应用开发途径 并加快实时应用的推理时间 [3] AI4S推动科研变革 - 大模型引领的AI4S(AI for Science)成为推动科学研究范式变革的关键力量 [4] - 2025年多模态大模型进一步融入科学研究 帮助挖掘多维数据的复杂结构 为生物医学、气象、材料发现等基础与应用科学研究开辟新方向 [4] - 2024年诺贝尔物理学奖颁给机器学习先驱 化学奖颁给能预测蛋白质结构的AI开发者 凸显AI对推动科研的巨大贡献 [4] 具身智能发展 - 2025年被认为是"具身智能元年" 具身智能从本体扩展到具身脑 [4] - 行业格局上近百家具身初创企业可能迎来洗牌 技术路线上端到端模型不断迭代 小脑大模型的尝试有望取得突破 [4] - 商业变现方面会有更多工业场景应用具身智能 部分人形机器人迎来量产 如特斯拉的"擎天柱"有望在2025年实现小批量生产并投入使用 [4]
依图科技前高管创业融资千万元,路由物理世界到AI模型,推动设备智能化改造|36氪首发
36氪· 2025-06-19 10:33
融资情况 - 云锦微完成天使轮+融资 金额达1000万元 投资机构为上海恒砥和宁波舜工 [1] - 融资资金将用于迭代升级平台 扩充设备产品 增加垂类行业场景的生态覆盖 [1] 公司定位与技术方向 - 云锦微成立于2021年6月 专注于研发具身智能体操作系统 为具身智能开发AI大脑 [1] - 公司致力于将大模型技术应用到边缘计算 实现系统和设备的低成本智能化改造 [1] - 自主研发云锦OS操作系统 通过两大核心技术重构AI与物理世界的交互逻辑 [1][2] 行业趋势与市场空间 - 大模型从云端走向边缘计算的趋势 有望开启万亿级市场 [1] - 2024年全球具身智能设备市场规模超过250亿美元 年复合增长率近20% [1] - 中国在工业自动化 智慧城市等领域的智能化改造需求占比超35% [1] 核心技术突破 - 云锦OS独创MaM模型合成模型 实现视觉 传感器 控制指令等多异构模型的纳秒级协同调度 [2] - MaM架构使90%以上私有化多模态数据无需上传云端 直接在边缘设备完成闭环处理 [2] - VT-Transformer极简计算框架以3万行C++代码实现传统AI框架60万行Python代码功能 模型推理延迟降低至12ms 显存占用减少85% [2] - 技术突破使百亿参数多模态模型可运行于百元级边缘硬件 大幅降低算力成本 [2] 商业化进展 - 云锦OS通过"低成本智能化改造"模式切入能源 制造 零售等场景 [3] - 截至2025年Q2 公司已服务超120家企业 实现数千万元营收 [3] - 客户包括中国电子 贵阳轨交 上汽集团 上海隧道等大型科技工业企业 [3] 团队背景 - 创始人王文艺为浙大本硕博背景 曾管理依图科技硬件事业部 [3] - 联合创始人周昌博士曾任阿里达摩院城市大脑视觉大模型研发负责人 [3] - 团队成员覆盖系统软件 芯片设计 视觉AI等领域10年以上从业者 [3] - 与浙江大学多个科研单位建立"产学研一体化"合作模式 [3]
锦秋小饭桌想喊你一起吃饭!
锦秋集· 2025-06-18 23:46
锦秋小饭桌活动概况 - 每周五晚在北京、深圳、上海、杭州等地举办AI创业者闭门社交活动,已举办15场,覆盖4个城市 [4] - 参与者包括技术极客、产品专家、初创创始人、上市公司高管、投资人等多元背景 [3] - 活动形式从饭桌拓展到茶桌,话题涵盖芯片架构、出海策略、多模态技术等前沿领域 [3][72] AI Infra赛道洞察 - 英伟达在训练芯片市场占据绝对优势,但推理芯片市场将迎来ASIC主导的爆发期,形成GPU、ASIC、FPGA多元竞争格局 [15][16] - 存储墙突破是芯片架构创新关键方向,3D堆叠架构中单层DRAM方案较成熟,多层方案需2-3年优化良率 [17][18] - 大模型推理采用PD分离架构(预填充与解码阶段分设备部署)成为行业共识,可提升资源利用率 [20] AI国际化与出海策略 - 中美产品设计差异显著:中国偏好All-in-One应用,美国倾向功能单一、自由组合的轻量化工具 [26] - 硬件出海需结合中国供应链优势与海外原生需求,如Rabbit、电动房车等创新源自本地场景 [32][37] - 合规挑战包括GDPR数据存储规则、文化习惯差异(如日本印章文化)、以及专利保护等风险 [29][30][34] - 成功路径:产品打磨→众筹验证→小批量试产→规模化量产,核心在于供应链整合与需求本质挖掘 [36] AI消费电子与垂类应用 - 游戏行业AIGC落地面临资产生成质量瓶颈,骨骼/权重生成结合传统流程更易商业化 [57][58] - 垂类Agent场景爆发,如政府申报服务(250美元/月订阅)、保险经纪人匹配等高频刚需场景 [59][60] - 区域市场特性:北美依赖众筹破圈,欧洲重线下渠道,中东追求极致履约速度(如15分钟配送) [70][71] 技术趋势与产品方法论 - 大模型Memory技术提升个性化体验,RAG与长上下文技术路径尚未明朗 [55][56] - 稀疏化架构可能减少算力需求数量级,DeepSeek提出线性复杂度创新方案 [63][64] - 情绪价值是AI产品护城河,需将情感连接设计为核心功能而非点缀 [85] - 早期增长策略:聚焦"不会但想用"的腰部用户,快速MVP试错,速度即护城河(窗口期仅2-3周) [84][87][88] 多模态与交互创新 - GPT-4o将语音交互延迟压缩至200毫秒(接近人类对话阈值),推动Voice Agent落地 [76] - 存量游戏创新比开发新游戏ROI更高,如基于陪伴场景的拟人化交互依赖VLM能力 [75][78] - 音乐模型需突破训练速度与后处理技术瓶颈,拟人化细节增强用户黏性 [77][78]
UU Holo随身AI全球首秀:多模态交互重构“所见皆可问”智能体验
中国产业经济信息网· 2025-06-18 13:26
公司动态 - 考拉悠然在第二届"一带一路"科技交流大会上展示三款多模态AI创新成果,包括UU Holo随身AI、城市交通视频语义解析和悠然智擎多模态城市中枢 [1] - UU Holo随身AI深度融合多模态大模型核心技术,具备场景识别、智能讲解、多语言问答等功能,并能执行自主任务,采用"所见即问"交互模式 [1] - UU Holo被用作大会"科技创造美好生活"展区的双语专属AI视频导览员,为现场嘉宾提供讲解服务 [1] 产品技术 - 城市交通视频语义解析依托悠然远智全模态AI应用平台,可对海量离线视频数据进行快速处理与智能分析,具备全要素自动解析能力 [2] - 该产品支持自然语言提问、视频联动RAG问答和上传截图精准识别,实现秒级跨视频检索,综合准确率达90%以上 [2] - 悠然智擎多模态城市中枢覆盖13大类100余种事件,日均处理百万级事件,全流程秒级响应,具备跨模态关联识别和对话式图形化分析报告能力 [2] 战略愿景 - 公司以"科技创造美好生活"为使命,将持续推动多模态AI技术创新,与全球伙伴共探科技赋能人类发展的新路径 [3] - 参展成果展现了公司在AI领域的深厚积累,彰显了其助力智慧城市建设的实践成果 [3]
【公告全知道】脑机接口+算力+固态电池+机器人+国产芯片!公司参股企业主要从事医疗级全植入式无线脑机接口系统研发
财联社· 2025-06-17 22:09
脑机接口相关公司 - 公司参股企业主要从事医疗级全植入式无线脑机接口系统研发 涉及脑机接口+算力+固态电池+机器人+国产芯片+国企改革等多个领域 [1] - 另一家公司脑机技术聚焦教育、医疗、养老三大核心应用场景 同时涉及边缘计算+机器人+AI智能体+多模态AI+跨境电商 [1] 创新药公司 - 公司创新药产品获欧盟孤儿药资格认定 涉及创新药+细胞免疫治疗领域 [1] 公告服务内容 - 服务提供每日股市重大公告推送 内容包括停复牌、增减持、投资中标、收购、业绩、解禁、高送转等个股利好利空信息 [1] - 重要公告以红色标注 帮助投资者提前发现投资热点和防范风险 [1]
MiniMax发布推理模型对标DeepSeek,算力成本仅约53万美元
第一财经· 2025-06-17 15:26
公司动态 - MiniMax宣布连续五天发布重要更新,首日开源推理模型MiniMax-M1 [1] - MiniMax-M1在多项基准测试中表现优异,比肩DeepSeek-R1、Qwen3等开源模型,接近海外领先模型 [3] - 模型训练效率超出预期,仅用3周时间、512块H800 GPU完成强化学习训练阶段,算力租赁成本53.47万美元 [3] - MiniMax-M1在编程能力测试中表现突出,一次通过"拆烟囱"编程案例,优于DeepSeek-R1-0528和Gemini-2.5-Pro [3] - 模型中文写作严谨优先,幻觉较低,注重指令遵循 [5] - MiniMax-M1拥有100万上下文窗口长度,与Gemini 2.5 Pro相当,是DeepSeek R1的8倍 [5] - 在长上下文理解任务(MRCR)中表现优异,超越所有开源权重模型和部分海外顶尖模型,全球排名第二 [5] - 在TAU-bench测试中表现出色,超越DeepSeeK-R1-0528和Gemini-2.5 Pro,仅次于OpenAI o3和Claude 4 Opus [7] - 在代码能力(SWE-bench)上显著超越大部分开源模型,仅微弱差距次于DeepSeek最新发布的R1 [7] - MiniMax提出创新强化学习算法CISPO,在数学AIME实验中比字节DAPO算法收敛性能快一倍 [8] - 模型定价采用阶梯式,对标DeepSeek-R1性价比更高 [8] - MiniMax预告后续四天将有更多更新,业界预期海螺新版本即将亮相 [9] 行业动态 - 月之暗面同日开源编程模型Kimi-Dev-72B,基于阿里云Qwen2.5-72B微调 [8] - Kimi-Dev-72B在SWE-bench编程基准测试中取得全球最高开源模型水平,成绩超过新版DeepSeek-R1 [8] - 但实际测试显示Kimi-Dev-72B生成的代码需要修改多个bug才能运行,引发过拟合质疑 [9] - AI六小龙经过半年沉寂后重新加入大模型竞争 [9] - 云启资本合伙人陈昱表示长文本能力对社交应用、情感陪伴应用和Agent是关键技术 [7] 技术亮点 - MiniMax-M1训练材料足够新,思考时多次反刍成功避坑 [3] - 闪电注意力机制为主的混合架构使长文本处理具有算力效率优势,8万Token推理只需DeepSeek R1约30%算力 [7] - CISPO强化学习算法显著优于DeepSeek早期使用的GRPO [8] - 模型在样式和光影效果方面仍有不足,创意内容生成能力有限 [5]
【私募调研记录】青骊投资调研经纬恒润、海天瑞声
证券之星· 2025-06-16 08:06
经纬恒润调研要点 - 高级别智能驾驶解决方案业务中龙拱港三期项目正式投入运营 实现24小时全天候运输作业并显著提升港口运营效率 [1] - 第三代重载自动驾驶特种载具(HAV)配备北斗高精定位及5G通信技术 具有多种转向模式和高精度控制系统 [1] - 机器人领域设立研究所 推进智能仓储循环和汽车控制器应用于机器人 [1] - 2025年业绩增长点包括汽车电子产品业务 研发服务及解决方案业务 高级别智能驾驶整体解决方案业务 [1] 海天瑞声调研要点 - 收入增长由多模态大模型快速迭代及行业应用渗透提速驱动 [2] - 数据服务领域具备向下游延伸优势 正探索将数据优势转化为模型优化能力并实现核心能力产品化 [2] - 2025年第一季度计算机视觉业务和自然语言业务高速增长 主因高质量图像/视频等多模态数据采购增加及场景类文本数据需求上升 [2] - 与多地政府 地方运营商开展战略合作 探索数据要素市场化与产业化创新路径并培训数据标注人才 [2] - 已成为运营商类客户重要数据服务供应商 预计相关数据需求将进一步增长 [2] - 2025年营收核心增长点包括多模态AI技术快速演进 AI垂直行业深度应用 东南亚新增数据交付体系带来的海外收入增量 [2] - 数据标注行业未来趋势为智能化发展 注重数据安全合规能力 多语种能力及稳定高质量数据处理团队 [2] 青骊投资机构背景 - 成立于2015年4月 注册资金1000万元 具有基金业协会私募投资基金管理人资格 [3] - 主要从事证券投资及股权投资管理与咨询业务 投研团队具备丰富投资经验和历史业绩 [3]
【公告全知道】谷子经济+多模态AI+短剧游戏+华为鸿蒙!公司多款谷子产品上线即售罄
财联社· 2025-06-12 22:31
公司动态 - 某公司获得多个国际知名IP在国内衍生品的部分品类授权,多款谷子产品上线即售罄,涉及谷子经济、多模态AI、短剧游戏、华为鸿蒙等领域 [1] - 某公司成功向客户交付人形机器人灵巧手减速器轴承样件,涉及可控核聚变、固态电池、核能核电、人形机器人、国企改革等领域 [1] - 某公司司美格鲁肽注射液项目已进入剂量维持期,预计2026年中国申报上市,涉及创新药、减肥药、AI制药、华为等领域 [1] 行业热点 - 谷子经济、多模态AI、短剧游戏、华为鸿蒙等行业受到关注 [1] - 可控核聚变、固态电池、核能核电、人形机器人、国企改革等行业受到关注 [1] - 创新药、减肥药、AI制药、华为等行业受到关注 [1]
传媒行业周报:关注火山引擎原动力大会,聚焦AI应用及IP商业化行业周报
开源证券· 2025-06-09 09:13
报告行业投资评级 - 看好(维持) [2] 报告的核心观点 - 全球科技巨头在多模态模型、Agent及端侧AI方面竞争延续,视频生成模型商业化加快,推动多模态AI应用市场空间打开,拉动算力需求,建议继续布局AI [5] - 多款新游延续良好表现,临近暑期旺季,建议关注IP内容及潮玩新品推出给相关公司带来的业绩弹性 [6] 根据相关目录分别进行总结 行业数据综述 - 《龙魂旅人》获内地iOS免费榜第一,《王者荣耀》获内地iOS畅销榜第一;《无畏契约:源能行动》为安卓和iOS预约榜第一;电影《碟中谍8:最终清算》获得周票房冠军 [10][13] 行业新闻综述 AIGC - OceanBase发布AI生态进展,接入60余家AI生态伙伴支持MCP协议,提升数据库在AI时代基础设施作用 [33] - 阿里通义发布VRAG-RL框架,提升多模态智能体视觉信息处理能力,代码与模型已开源 [34] - 智源研究院发布“悟界”系列大模型,推动物理AGI发展,大会展示AI多领域进展 [35] - Flux新模型上线,AI内容创作领域涌现爆款,AI图片辨别难度提升 [35] - 谷歌升级Gemini 2.5 Pro大模型,性能提升但遭遇“越狱攻击” [36][37] - 快手旗下可灵AI上线一周年,年化收入运行率突破1亿美元,全球用户规模超2200万 [5] 游戏 - 光子工作室《最终幻想14:水晶世界》定档6月19日上线 [38] - 《三角洲行动》5月全球收入大涨,超2200万美元分成后收入 [38] - 2025年5月全球移动端游戏TOP50收入约163亿元,环比增长3.69%,《王者荣耀》位列榜首 [39] 影视/IP - 第22届电影频道传媒关注单元启幕,15部入围佳作角逐多个奖项 [40] 公告总结 - 蓝色光标拟变更经营范围及注册资本,修订公司章程,增设独立董事 [40] - *ST紫天发布股票停牌进展及可能被终止上市风险提示 [41] - 人民网拟使用不超过16亿元闲置自有资金进行委托理财 [42] - 光线传媒实施年度权益分派,向全体股东每10股派发2元现金股利 [43][44] 板块行情综述 - A股传媒板块2025年第23周上涨2.59%,强于上证综指等指数,体育板块表现最好,营销板块最差 [45] - A股传媒个股中歌华有线周涨幅最大,元隆雅图周跌幅最大;美股中陌陌周涨幅最大,微美全息周跌幅最大;港股中天鸽互动周涨幅最大,数字国王周跌幅最大 [45]