Workflow
多模态AI
icon
搜索文档
多模态AI黑马刷榜后再造神器:一个产品搞定图片视频播客生成,自带百种特效,大牛梅涛团队出品
量子位· 2025-06-24 21:36
产品发布 - 智象未来推出全新多模态AI创作工具vivago2.0 支持图片生成、视频生成、AI播客、特效模板等六大功能 [1][19] - 产品集成图像生成基础模型HiDream-I1和交互式图像编辑模型HiDream-E1 形成综合性图像智能体HiDream-A1 [15][73][87] - 提供300+款特效模板 支持一键套用实现人物、动物、建筑物等元素的风格转换 [6][8][64] 技术能力 - 图像生成模型HiDream-I1采用稀疏混合专家技术融入扩散Transformer架构 参数规模达170亿 [74][82] - 模型在HPS基准测试中获得33.82分 超越Stable Diffusion v2.0的26.38分和Midjourney V6的30.29分 [78] - 在GenEval基准测试中达到85.89分 在DPG-Bench测试中获得0.83分 均达到SOTA水平 [79][80] - 支持文本生图、图像编辑、视频生成、唇形同步等多元功能 可实现4张图像批量处理 [35][57][61] 市场表现 - 开源模型HiDream-I1-Dev在发布24小时内登顶Artificial Analysis图片生成竞技场 获得1145分 超越GPT-40的1140分 [13][77] - 公司完成数亿人民币A轮融资 由合肥产投领投 安徽省人工智能母基金等机构跟投 [91] - 2023年全球AIGC收入约200亿美元 其中50%-60%来自视频和图像领域 Midjourney收入达2亿美元 [92] 商业化进展 - 公司与慈文传媒、上影集团、中国移动咪咕、寒武纪达成战略合作 推出国民级AIGC视频彩铃应用 [94] - 商业模式从MaaS转向SaaS 2025年聚焦"IP二创+C端下沉"战略 目标构建规模化商业生态 [99][101] - 产品已在Web端与App全球同步上线 服务器曾因访问量过大出现拥堵 [17][70] 团队背景 - 公司由加拿大工程院外籍院士梅涛于2023年3月创立 核心团队来自微软、百度、腾讯等企业 博士硕士占比超90% [88][91] - 团队2017年在ACM Multimedia发表文本生成视频论文 为全球首批研究该技术的团队之一 [88][89] - 研发团队包含大量中科大背景人员 技术路线聚焦视觉多模态基础模型 [11][90]
2025年AI在多个方面持续取得显著进展和突破
搜狐财经· 2025-06-23 15:19
多模态AI发展 - 多模态AI成为2025年AI领域关键趋势 能够处理和整合文本、图像、音频和视频等多种形式输入 [1] - OpenAI的GPT-4可从文本、音频和视觉输入生成文本 谷歌Gemini模型展示出色多模态能力 微软Designer应用利用多模态AI进行图形设计任务 [1] - 多模态AI在医疗保健领域可结合医疗图像和患者病史进行更准确诊断 在客户服务方面提供更直观全面支持 在内容创作上能根据单一提示生成多种媒体类型 [1] AI智能体演进 - AI智能体从简单聊天机器人向更智能、具有情境感知能力的助手转变 改变客户服务、生产力和用户交互方式 [3] - 智谱AI推出的智能体可替用户点外卖 能在无人工干预下完成跨应用程序、多步骤的真实任务 [3] - 2025年智能体将更加普及 能处理更复杂任务 为供应链经理、软件开发人员、金融分析师等提供支持 并有望革新自动驾驶领域 [3] 小语言模型(SLMs)崛起 - 2025年小语言模型(SLMs)快速发展并广泛采用 相比大型语言模型(LLMs)具有开发和实施成本低等优势 [3] - 微软Phi和Orca模型、GPT-4 o - mini、Claude 3.5 Haiku、Meta的Llama 2以及谷歌研究的更高效语言模型展示了SLMs潜力 [3] - SLMs使AI能力可应用于边缘设备和智能手机 为小型组织和研究人员提供更易获取的AI应用开发途径 并加快实时应用的推理时间 [3] AI4S推动科研变革 - 大模型引领的AI4S(AI for Science)成为推动科学研究范式变革的关键力量 [4] - 2025年多模态大模型进一步融入科学研究 帮助挖掘多维数据的复杂结构 为生物医学、气象、材料发现等基础与应用科学研究开辟新方向 [4] - 2024年诺贝尔物理学奖颁给机器学习先驱 化学奖颁给能预测蛋白质结构的AI开发者 凸显AI对推动科研的巨大贡献 [4] 具身智能发展 - 2025年被认为是"具身智能元年" 具身智能从本体扩展到具身脑 [4] - 行业格局上近百家具身初创企业可能迎来洗牌 技术路线上端到端模型不断迭代 小脑大模型的尝试有望取得突破 [4] - 商业变现方面会有更多工业场景应用具身智能 部分人形机器人迎来量产 如特斯拉的"擎天柱"有望在2025年实现小批量生产并投入使用 [4]
依图科技前高管创业融资千万元,路由物理世界到AI模型,推动设备智能化改造|36氪首发
36氪· 2025-06-19 10:33
融资情况 - 云锦微完成天使轮+融资 金额达1000万元 投资机构为上海恒砥和宁波舜工 [1] - 融资资金将用于迭代升级平台 扩充设备产品 增加垂类行业场景的生态覆盖 [1] 公司定位与技术方向 - 云锦微成立于2021年6月 专注于研发具身智能体操作系统 为具身智能开发AI大脑 [1] - 公司致力于将大模型技术应用到边缘计算 实现系统和设备的低成本智能化改造 [1] - 自主研发云锦OS操作系统 通过两大核心技术重构AI与物理世界的交互逻辑 [1][2] 行业趋势与市场空间 - 大模型从云端走向边缘计算的趋势 有望开启万亿级市场 [1] - 2024年全球具身智能设备市场规模超过250亿美元 年复合增长率近20% [1] - 中国在工业自动化 智慧城市等领域的智能化改造需求占比超35% [1] 核心技术突破 - 云锦OS独创MaM模型合成模型 实现视觉 传感器 控制指令等多异构模型的纳秒级协同调度 [2] - MaM架构使90%以上私有化多模态数据无需上传云端 直接在边缘设备完成闭环处理 [2] - VT-Transformer极简计算框架以3万行C++代码实现传统AI框架60万行Python代码功能 模型推理延迟降低至12ms 显存占用减少85% [2] - 技术突破使百亿参数多模态模型可运行于百元级边缘硬件 大幅降低算力成本 [2] 商业化进展 - 云锦OS通过"低成本智能化改造"模式切入能源 制造 零售等场景 [3] - 截至2025年Q2 公司已服务超120家企业 实现数千万元营收 [3] - 客户包括中国电子 贵阳轨交 上汽集团 上海隧道等大型科技工业企业 [3] 团队背景 - 创始人王文艺为浙大本硕博背景 曾管理依图科技硬件事业部 [3] - 联合创始人周昌博士曾任阿里达摩院城市大脑视觉大模型研发负责人 [3] - 团队成员覆盖系统软件 芯片设计 视觉AI等领域10年以上从业者 [3] - 与浙江大学多个科研单位建立"产学研一体化"合作模式 [3]
锦秋小饭桌想喊你一起吃饭!
锦秋集· 2025-06-18 23:46
锦秋小饭桌活动概况 - 每周五晚在北京、深圳、上海、杭州等地举办AI创业者闭门社交活动,已举办15场,覆盖4个城市 [4] - 参与者包括技术极客、产品专家、初创创始人、上市公司高管、投资人等多元背景 [3] - 活动形式从饭桌拓展到茶桌,话题涵盖芯片架构、出海策略、多模态技术等前沿领域 [3][72] AI Infra赛道洞察 - 英伟达在训练芯片市场占据绝对优势,但推理芯片市场将迎来ASIC主导的爆发期,形成GPU、ASIC、FPGA多元竞争格局 [15][16] - 存储墙突破是芯片架构创新关键方向,3D堆叠架构中单层DRAM方案较成熟,多层方案需2-3年优化良率 [17][18] - 大模型推理采用PD分离架构(预填充与解码阶段分设备部署)成为行业共识,可提升资源利用率 [20] AI国际化与出海策略 - 中美产品设计差异显著:中国偏好All-in-One应用,美国倾向功能单一、自由组合的轻量化工具 [26] - 硬件出海需结合中国供应链优势与海外原生需求,如Rabbit、电动房车等创新源自本地场景 [32][37] - 合规挑战包括GDPR数据存储规则、文化习惯差异(如日本印章文化)、以及专利保护等风险 [29][30][34] - 成功路径:产品打磨→众筹验证→小批量试产→规模化量产,核心在于供应链整合与需求本质挖掘 [36] AI消费电子与垂类应用 - 游戏行业AIGC落地面临资产生成质量瓶颈,骨骼/权重生成结合传统流程更易商业化 [57][58] - 垂类Agent场景爆发,如政府申报服务(250美元/月订阅)、保险经纪人匹配等高频刚需场景 [59][60] - 区域市场特性:北美依赖众筹破圈,欧洲重线下渠道,中东追求极致履约速度(如15分钟配送) [70][71] 技术趋势与产品方法论 - 大模型Memory技术提升个性化体验,RAG与长上下文技术路径尚未明朗 [55][56] - 稀疏化架构可能减少算力需求数量级,DeepSeek提出线性复杂度创新方案 [63][64] - 情绪价值是AI产品护城河,需将情感连接设计为核心功能而非点缀 [85] - 早期增长策略:聚焦"不会但想用"的腰部用户,快速MVP试错,速度即护城河(窗口期仅2-3周) [84][87][88] 多模态与交互创新 - GPT-4o将语音交互延迟压缩至200毫秒(接近人类对话阈值),推动Voice Agent落地 [76] - 存量游戏创新比开发新游戏ROI更高,如基于陪伴场景的拟人化交互依赖VLM能力 [75][78] - 音乐模型需突破训练速度与后处理技术瓶颈,拟人化细节增强用户黏性 [77][78]
UU Holo随身AI全球首秀:多模态交互重构“所见皆可问”智能体验
公司动态 - 考拉悠然在第二届"一带一路"科技交流大会上展示三款多模态AI创新成果,包括UU Holo随身AI、城市交通视频语义解析和悠然智擎多模态城市中枢 [1] - UU Holo随身AI深度融合多模态大模型核心技术,具备场景识别、智能讲解、多语言问答等功能,并能执行自主任务,采用"所见即问"交互模式 [1] - UU Holo被用作大会"科技创造美好生活"展区的双语专属AI视频导览员,为现场嘉宾提供讲解服务 [1] 产品技术 - 城市交通视频语义解析依托悠然远智全模态AI应用平台,可对海量离线视频数据进行快速处理与智能分析,具备全要素自动解析能力 [2] - 该产品支持自然语言提问、视频联动RAG问答和上传截图精准识别,实现秒级跨视频检索,综合准确率达90%以上 [2] - 悠然智擎多模态城市中枢覆盖13大类100余种事件,日均处理百万级事件,全流程秒级响应,具备跨模态关联识别和对话式图形化分析报告能力 [2] 战略愿景 - 公司以"科技创造美好生活"为使命,将持续推动多模态AI技术创新,与全球伙伴共探科技赋能人类发展的新路径 [3] - 参展成果展现了公司在AI领域的深厚积累,彰显了其助力智慧城市建设的实践成果 [3]
【公告全知道】脑机接口+算力+固态电池+机器人+国产芯片!公司参股企业主要从事医疗级全植入式无线脑机接口系统研发
财联社· 2025-06-17 22:09
脑机接口相关公司 - 公司参股企业主要从事医疗级全植入式无线脑机接口系统研发 涉及脑机接口+算力+固态电池+机器人+国产芯片+国企改革等多个领域 [1] - 另一家公司脑机技术聚焦教育、医疗、养老三大核心应用场景 同时涉及边缘计算+机器人+AI智能体+多模态AI+跨境电商 [1] 创新药公司 - 公司创新药产品获欧盟孤儿药资格认定 涉及创新药+细胞免疫治疗领域 [1] 公告服务内容 - 服务提供每日股市重大公告推送 内容包括停复牌、增减持、投资中标、收购、业绩、解禁、高送转等个股利好利空信息 [1] - 重要公告以红色标注 帮助投资者提前发现投资热点和防范风险 [1]
火山引擎多模态数据湖架构升级,驱动企业迈向AI原生时代
财富在线· 2025-06-17 16:15
火山引擎多模态数据湖解决方案在此背景下持续迭代。此前,该方案已实现海量结构化、半结构化及非 结构化数据的统一管理,为LLM(大语言模型)全生命周期训练提供数据支持。此次升级进一步强化了多 模态数据处理能力:新增模型数据处理蒸馏与多模态分析能力,优化与火山引擎各平台的联动机制,通 过MCP(多模态认知平台)简化数据开发流程,帮助企业高效识别与利用多模态数据资产。 在技术落地层面,火山引擎多模态数据湖聚焦三大核心场景: 2025年6月,火山引擎FORCE原动力大会在北京举办。火山引擎数智平台正式发布多模态数据湖全新产 品架构。该架构通过存储与计算能力的深度优化,构建兼容文本、图像、音频、视频等多元数据的处理 框架,为企业打造适应Agentic AI(智能体人工智能)时代的新一代AI Native数据基础设施,助力企业从 传统商业智能向AI驱动的决策模式转型。 随着全球数据规模爆发式增长,非结构化数据与多模态AI解决方案的占比正快速攀升。IDC预测,到 2028年全球数据总量将达393ZB,其中超80%为非结构化数据;Gartner则指出,到2027年,40%的生成 式AI解决方案将采用多模态技术,较2023年的1 ...
MiniMax发布推理模型对标DeepSeek,算力成本仅约53万美元
第一财经· 2025-06-17 15:26
公司动态 - MiniMax宣布连续五天发布重要更新,首日开源推理模型MiniMax-M1 [1] - MiniMax-M1在多项基准测试中表现优异,比肩DeepSeek-R1、Qwen3等开源模型,接近海外领先模型 [3] - 模型训练效率超出预期,仅用3周时间、512块H800 GPU完成强化学习训练阶段,算力租赁成本53.47万美元 [3] - MiniMax-M1在编程能力测试中表现突出,一次通过"拆烟囱"编程案例,优于DeepSeek-R1-0528和Gemini-2.5-Pro [3] - 模型中文写作严谨优先,幻觉较低,注重指令遵循 [5] - MiniMax-M1拥有100万上下文窗口长度,与Gemini 2.5 Pro相当,是DeepSeek R1的8倍 [5] - 在长上下文理解任务(MRCR)中表现优异,超越所有开源权重模型和部分海外顶尖模型,全球排名第二 [5] - 在TAU-bench测试中表现出色,超越DeepSeeK-R1-0528和Gemini-2.5 Pro,仅次于OpenAI o3和Claude 4 Opus [7] - 在代码能力(SWE-bench)上显著超越大部分开源模型,仅微弱差距次于DeepSeek最新发布的R1 [7] - MiniMax提出创新强化学习算法CISPO,在数学AIME实验中比字节DAPO算法收敛性能快一倍 [8] - 模型定价采用阶梯式,对标DeepSeek-R1性价比更高 [8] - MiniMax预告后续四天将有更多更新,业界预期海螺新版本即将亮相 [9] 行业动态 - 月之暗面同日开源编程模型Kimi-Dev-72B,基于阿里云Qwen2.5-72B微调 [8] - Kimi-Dev-72B在SWE-bench编程基准测试中取得全球最高开源模型水平,成绩超过新版DeepSeek-R1 [8] - 但实际测试显示Kimi-Dev-72B生成的代码需要修改多个bug才能运行,引发过拟合质疑 [9] - AI六小龙经过半年沉寂后重新加入大模型竞争 [9] - 云启资本合伙人陈昱表示长文本能力对社交应用、情感陪伴应用和Agent是关键技术 [7] 技术亮点 - MiniMax-M1训练材料足够新,思考时多次反刍成功避坑 [3] - 闪电注意力机制为主的混合架构使长文本处理具有算力效率优势,8万Token推理只需DeepSeek R1约30%算力 [7] - CISPO强化学习算法显著优于DeepSeek早期使用的GRPO [8] - 模型在样式和光影效果方面仍有不足,创意内容生成能力有限 [5]
【私募调研记录】青骊投资调研经纬恒润、海天瑞声
证券之星· 2025-06-16 08:06
经纬恒润调研要点 - 高级别智能驾驶解决方案业务中龙拱港三期项目正式投入运营 实现24小时全天候运输作业并显著提升港口运营效率 [1] - 第三代重载自动驾驶特种载具(HAV)配备北斗高精定位及5G通信技术 具有多种转向模式和高精度控制系统 [1] - 机器人领域设立研究所 推进智能仓储循环和汽车控制器应用于机器人 [1] - 2025年业绩增长点包括汽车电子产品业务 研发服务及解决方案业务 高级别智能驾驶整体解决方案业务 [1] 海天瑞声调研要点 - 收入增长由多模态大模型快速迭代及行业应用渗透提速驱动 [2] - 数据服务领域具备向下游延伸优势 正探索将数据优势转化为模型优化能力并实现核心能力产品化 [2] - 2025年第一季度计算机视觉业务和自然语言业务高速增长 主因高质量图像/视频等多模态数据采购增加及场景类文本数据需求上升 [2] - 与多地政府 地方运营商开展战略合作 探索数据要素市场化与产业化创新路径并培训数据标注人才 [2] - 已成为运营商类客户重要数据服务供应商 预计相关数据需求将进一步增长 [2] - 2025年营收核心增长点包括多模态AI技术快速演进 AI垂直行业深度应用 东南亚新增数据交付体系带来的海外收入增量 [2] - 数据标注行业未来趋势为智能化发展 注重数据安全合规能力 多语种能力及稳定高质量数据处理团队 [2] 青骊投资机构背景 - 成立于2015年4月 注册资金1000万元 具有基金业协会私募投资基金管理人资格 [3] - 主要从事证券投资及股权投资管理与咨询业务 投研团队具备丰富投资经验和历史业绩 [3]
【公告全知道】谷子经济+多模态AI+短剧游戏+华为鸿蒙!公司多款谷子产品上线即售罄
财联社· 2025-06-12 22:31
公司动态 - 某公司获得多个国际知名IP在国内衍生品的部分品类授权,多款谷子产品上线即售罄,涉及谷子经济、多模态AI、短剧游戏、华为鸿蒙等领域 [1] - 某公司成功向客户交付人形机器人灵巧手减速器轴承样件,涉及可控核聚变、固态电池、核能核电、人形机器人、国企改革等领域 [1] - 某公司司美格鲁肽注射液项目已进入剂量维持期,预计2026年中国申报上市,涉及创新药、减肥药、AI制药、华为等领域 [1] 行业热点 - 谷子经济、多模态AI、短剧游戏、华为鸿蒙等行业受到关注 [1] - 可控核聚变、固态电池、核能核电、人形机器人、国企改革等行业受到关注 [1] - 创新药、减肥药、AI制药、华为等行业受到关注 [1]