多模态

搜索文档
下一站AI创业主线:别卷模型了,把这件事干成才重要
Founder Park· 2025-06-27 18:32
Agent成为创新中心 - Agent成为新一轮创新叙事的核心坐标[1] - AI创业从"拼技术"进入"拼交付"时代[2] - 通用Agent由巨头主导,垂直Agent满足千行百业具体需求[3] - AI"劳动力化"催生全新基础设施需求[3] 多模态技术发展 - 多模态技术进展显著但尚未完全成熟[11] - 当前面临多模态理解与生成一体化、各模态统一融合两大挑战[11] - 可控性要求不高的场景已实现商业化落地[12] - 行业高估多模态短期影响,低估长期潜力[18] - 多模态将逐步发展而非一步到位[17] Agent投资逻辑 - 通用Agent需具备流量、模型能力、硬件、生态四大要素[34] - 垂直Agent是创业公司重要机会,已出现千万级ARR案例[35] - 未来可能由成百上千个小而美的Agent公司组成[8] - 投资聚焦生成式AI驱动的五大领域:内容生成、生产力工具、数据洞察、各类Agent、AI与物理世界交互[23][24][25][26][27] - 投资节奏加快,从年均5-6个项目增至每月1个[28] Agent基础设施 - Agent发展将带来记忆模块、执行环境等新基础设施需求[43] - Agent核心三要素:感知&记忆、决策、行动[45] - 记忆相关infra和执行环境是重要机会点[45] - 决策能力提升依赖模型进步[45] - 行动方面需关注工具调用能力[46] 商业模式演变 - 从SaaS"按用户月付费"转向"按调用量付费"甚至"按结果付费"[4] - 未来可能直接按交付结果收费[49] - 按结果付费是理想商业模式[54][55] - 广告行业从CPM到CPS的演变可作为参考[57] 全球化视角 - 中国创业者应从一开始就布局全球化[68] - 已有许多中国创业公司从创立第一天就是全球化[69] - 非主流市场创业者更具韧性[67] - AI使ToB公司更具可扩展性[66] 行业现状 - 投资市场存在泡沫但也找到坚实逻辑[61] - 优质创业公司供给不足导致估值过高[64] - 能穿越周期的公司需长期创造价值[62] - 现在是创业者下场的良好时机[64]
OpenAI连丢4位大将!Ilya合作者/o1核心贡献者加入Meta,苏黎世三人组回应跳槽:集体做出的选择
量子位· 2025-06-27 16:09
核心观点 - Meta近期从OpenAI挖走多名核心AI研究员,包括Trapit Bansal和苏黎世三人组(Lucas Beyer、Alexander Kolesnikov、翟晓华),加强其在推理大模型和多模态领域的布局 [1][10][11] - 公司同时推进语音AI初创公司PlayAI的收购谈判,并已招募语音AI专家Johan Schalkwyk,强化AR眼镜的语音交互能力 [23][24][26] - OpenAI创始人奥特曼公开回应称不担心人才流失,并暗示被挖人员并非其最优秀人才 [12] 人才流动 Trapit Bansal - 2022年加入OpenAI,与Ilya Sutskever合作推动大模型强化学习研究,是o1系统的核心贡献者 [1][6] - 谷歌学术引用量2883次,h指数16,多篇高引论文涉及多智能体强化学习和非平稳环境适应 [7][8] - 加入Meta新成立的超级智能部门,专注推理大模型研发 [2] 苏黎世三人组 - 原谷歌研究员,共同开发ViT架构(论文引用超6.5万次),开创Transformer视觉应用先河 [14][15] - 2023年被OpenAI集体挖走并成立苏黎世工作室,2024年6月又集体跳槽至Meta [10][20][21] - 成员背景:翟晓华(南京大学本科/北大博士)、Lucas Beyer(德国亚琛工业大学博士)、Alexander Kolesnikov(ISTA博士) [16][17][18] 战略布局 语音AI - 拟收购初创公司PlayAI(2024年获2100万美元融资),其技术目标是实现类人类的流畅语音对话 [24][25] - 此前已招募Seasame AI的Johan Schalkwyk,强化端侧语音模型能力 [26] - 行业推测Meta计划将语音AI整合至AR硬件生态 [27] 研究领域 - 推理大模型:通过Trapit Bansal加盟强化前沿技术探索 [2] - 多模态:苏黎世三人组持续深耕视觉-语言交叉领域 [14][20]
计算机行业重大事项点评:MiniMax:推理模型、Agent与多模态
华创证券· 2025-06-26 19:04
报告行业投资评级 - 推荐 [4] 报告的核心观点 - 6月17日MiniMax连续五天推出AI新品,涉及推理模型、视频生成模型、Agent、语音设计等产品,展示了其在多领域的技术实力和追赶国际巨头的能力,随着全球模型厂商能力提升,我国AI Agent商业化落地有望在2025H2提速,实现客户转化率与付费率双提升,建议关注海内外AI企业级服务及场景落地机会 [2][8][31] 根据相关目录分别进行总结 MiniMax:推理模型、Agent与多模态 - 6月17日MiniMax连续5天发布多款AI新品,覆盖推理、视频生成、智能体等领域 [11] MiniMax - M1:混合架构赋能性能升级 - 6月17日MiniMax发布并开源新一代推理模型MiniMax - M1,融合混合门控专家架构与Lightning Attention双技术框架,在性能与推理效率上显著突破,在长上下文理解等场景表现卓越,接近国际顶尖闭源模型能力并优化计算资源消耗 [12] - MiniMax - M1提出创新强化学习算法CISPO,训练效率高于DAPO和GRPO算法,该模型采用分层计价模式收费 [17] Hailuo 02:NCR模态助力性能成本双赢 - 6月18日MiniMax推出全新AI视频生成模型Hailuo 02,能根据文本或图像生成高清视频,支持1080p分辨率输出,单段视频最长10秒 [18] - Hailuo 02在国际AI视频生成模型评测中凭借NCR框架跻身前列,全球排名第二,且付费价格低廉,性价比高 [21] MiniMax Agent:多模态集成重塑智能体性价比 - 产品发布周期第三天,MiniMax推出通用型AI智能体MiniMax Agent,基于多模态大语言模型构建,集成多种能力,支持多智能体协同工作,已在公司内部完成近两个月测试,遵循人类智能标准研发,具备编程辅助等功能并支持MCP协议扩展架构 [26] - 通用Agent采用积分制收费,优惠期设基础会员和Pro会员,基础会员月费19美元,Pro会员月费69美元 [26] Voice Design:个性化定制的交互语音模块 - 产品发布周期间,MiniMax对语音大模型Speech - 02进行重要版本升级,优化语音合成设计功能并集成Voice Design模块,升级后语音合成质量显著提升 [28] - Voice Design可精确调控音色多方面,用户输入音色文本描述,模型能生成相应音色编码 [30] 投资建议 - 多模态模型发展快,我国AI Agent商业化落地有望在2025H2提速,建议关注A股AI应用方向,国内侧关注办公、营销等企业级服务及金融、教育等行业场景相关企业,海外侧关注办公、金融等多领域相关企业 [8][31][32]
三年跃迁中国AI凭什么逆袭美国?
36氪· 2025-06-26 10:29
中国AI技术发展现状 - 中美AI技术差距从2022年显著缩小至2025年不足三个月,中国AI实验室和企业取得巨大进步 [2] - DeepSeek R1模型(2025年5月)与OpenAI o3同获68分评分,阿里巴巴Qwen3 235B A22B评分47分,中美语言模型能力接近 [2] - 中国通过技术创新实现跨越,如DeepSeek R1采用强化学习优化推理能力,参数规模达671B(活跃参数37B),在MMLU-Pro等评测中表现优异 [2] 开放权重战略 - 中国头部实验室采用开放权重策略,与美国闭源形成对比,如阿里巴巴QwQ 32B Preview超越Meta Llama 3.1 405B成为最智能开源模型 [4] - 开放权重降低技术门槛,加速技术扩散并构建生态,如字节跳动Seedream 3.0吸引全球开发者二次开发 [7][8][9] - 阿里巴巴、腾讯、华为等企业2024-2025年陆续推出旗舰开源模型,形成技术共享共识 [9][10] 企业生态协同 - 大科技公司(阿里、腾讯、华为)提供底层模型和平台支持,如阿里ModelScope、华为Pangu系列配套芯片云服务 [16] - AI初创企业专注垂直领域:Moonshot AI专攻长文本处理,MiniMax优化轻量级边缘设备模型 [18] - 跨界玩家(小米、百度、360)将AI融入现有产品,如小米MiMo-7B增强小爱同学,360整合AI至安全软件和办公工具 [19][20] 多模态能力进展 - 中国图像生成模型快速追赶,字节Seedream 3.0(ELO 1111)接近Midjourney V6(ELO 1150),阿里Seedream系列优化中文提示支持 [22] - 视频生成领域中国加速突破,快手Kling 2.0(ELO 1053)和阿里Wan 2.1(ELO 1039)虽落后Google Veo 3(ELO 1247),但本土化应用突出 [25][26] - 大公司整合多模态能力:阿里ModelScope支持图像/视频功能,腾讯Hunyuan提供一站式多模态接口 [28][29] 中美AI竞争与合作 - 基础研究共享仍存空间,如Transformer架构和扩散模型曾依赖全球协作 [33] - 行业标准共建需求显著,中美共同参与联合国教科文组织等国际AI治理框架建设 [34][35] - 商业合作持续存在,中国企业需求英伟达芯片,美国企业寻求中国市场机会 [36]
2025 AI Cloud 100 China榜单发布:6个赛道,34家新上榜,DeepSeek、Manus上榜
Founder Park· 2025-06-25 19:23
2025 AI Cloud 100 China榜单核心观点 - 榜单聚焦GenAI商业落地企业,要求GenAI收入占比至少10%,其中38家企业GenAI收入占比超50% [5][9] - 新上榜企业34家,DeepSeek和百图生科首次上榜即进入前10名 [9] - 过去三届榜单累计10家企业成功上市,2024年有4家(合合信息、太美医疗、七牛云、多点Mall) [9] 榜单结构及赛道分布 - 赛道类别从10个精简为6个:AI基础设施、AI for Insight、AI for Productivity、AI for Real World、AI for Services、AI for Content [12] - AI基础设施赛道头部企业为DeepSeek(第1)、MiniMax(第2)、智谱AI(第3) [12][14] - AI for Productivity赛道新增企业最多(31家),AI基础设施赛道平均估值最高 [10][63] 融资与市场动态 - 全球AI融资额同比增长79.6%,占总融资额比例从21%升至37%,超大项目(>1亿美元)占比达69.2% [22] - 中国AI融资额同比下降14.2%,资金集中流向AIGC、自动驾驶、AI行业应用赛道 [24] - 中美云厂商加大投入:美国三大巨头2025年资本支出2500亿美元(+33%),阿里计划三年投资3800亿元(80%投向AI) [26] 技术发展趋势 - 大模型向"慢思考"演进,多模态成标配,AI应用从Copilot向Autopilot升级 [34][40] - AI for Content赛道中,多模态内容编辑/生成类产品占比47.8% [40] - 具身智能领域融资火热,但行业仍处基础模型竞赛初期 [44] 地域与企业特征 - 北京企业占榜单49家,其次为上海(17家)、杭州(12家)、深圳(7家) [59] - 独角兽企业33家,平均估值125亿元(低于2024年的139亿元) [10][61] - 头部企业Palantir(AI for Insight赛道)股价一年上涨4.5倍,市值达3240亿美元 [43] 未来五大趋势预测 1 从Copilot到Autopilot进化(如Cursor两年内完成转型) [48][49] 2 环境智能(Ambient)通过GenAI+硬件规模化商用 [51] 3 RaaS(Result as a Service)在效果广告等可量化场景率先落地 [53] 4 端侧AI随AI手机/AIPC普及加速发展 [55] 5 高质量数据推动具身智能从L0.5迈向L1应用 [57]
汪华的最新预言:AI时代和移动互联网的最大区别是实现,而非连接
暗涌Waves· 2025-06-19 17:21
移动互联网与AI时代的范式差异 - 移动互联网的核心范式是连接,追求大体量用户群和垄断性平台,而AI时代的核心范式是实现,聚焦垂直领域的高价值交付[4][5] - 大厂在AI领域仍沿用移动互联网打法,争夺10%-20%的连接市场,但80%-90%的实现市场留给创业者[5] - 新旧范式的本质区别在于:移动互联网追求广度(用户规模),AI追求深度(单用户价值)[5][6] 模型红利带来的创业机遇 - 2023年底至今,推理模型和多模态技术突破形成史上最大模型红利,创业者可借此快速实现千万美元级营收[8][9][11] - 模型性能在指令遵循、工具调用等实际应用场景的进步远超榜单体现,半年内多个垂直领域出现从"玩具"到"惊艳"的转折[11][12] - 典型案例包括:医疗笔记公司估值达50亿美元,编程工具Lovable利用Claude3.7实现前端开发革新[11][12] 垂直领域创业策略 - 目标市场选择标准:不需大规模用户,但需高ARPU(toC约200美元/年,toB几十个客户即可达千万美元营收)[17][18] - 成功案例:Rille t用AI重构中小企业财务系统,一年内颠覆传统产品;餐饮管理SaaS通过模型整合实现快速商业化[21][22] - 方法论:聚焦具体痛点,问题定义越细模型效果越好,避免与通用方案(如谷歌搜索)正面竞争[23][24] Agent与多模态的技术窗口 - Agent领域:未来一年工具调用能力将提升10倍,从当前支持十几个工具扩展到上百个工具协同[31][33][34] - 多模态领域:B端应用存在巨大空白,视频生成、运动控制等关键技术将在10个月内显著进步[35][36] - 行动窗口:模型红利黄金期约12个月,之后进入同质化竞争阶段,创业者需抓住技术跃迁期[34][36] 全球化市场机会 - 中国创业者应瞄准全球市场:欧美市场ARR达成速度比国内快5-10倍,且模型能力更成熟[7][21] - 南方创业者优势:强商业化能力、全球化视野与AI实现范式高度契合,有望复制跨境电商成功[37][38] - 行业分布:除互联网外,重点关注医疗、法律、金融、餐饮等传统行业数字化改造[22][24]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
具身智能之心· 2025-06-18 18:41
CVPR 2025核心趋势 - 多模态和3D生成成为论文接收与研讨的热门方向 其中高斯泼溅技术是论文标题出现频率前五的关键词之一 [8][17] - 基础模型讨论深入并延伸至产业落地 具身智能和机器人AI成为独立Workshop板块 [8] - 中国企业参与度创纪录 腾讯、字节等大公司主导展区 但参与主体仍集中于成熟商业化企业 [4][9][32] 技术研究热点 - 多模态以75次出现频率位列论文标题关键词榜首 扩散模型(153次)、大语言模型(129次)紧随其后 [16] - 3D生成领域突破显著 高斯泼溅技术推动神经渲染研究 腾讯Hunyuan 3D 21版本实现几何与纹理双重优化并全面开源 [17][21][23] - 计算机视觉与图形学加速融合 3D重建相关论文数量激增 国内技术跃迁速度加快 [19][20] 企业参与动态 - 腾讯表现突出:40+篇论文入选 覆盖混元大模型团队(多模态推理/3D生成)、优图实验室(DeepFake检测/自监督生成)等方向 [34] - 中国企业赞助力度加大:6家中国机构进入赞助商名单 腾讯与字节跻身白金赞助商行列 投入规模创历史新高 [36][37] - 人才争夺策略升级:腾讯派出20人技术团队现场交流 通过Demo展示、学术活动直接对接顶尖人才 [38][44] 产业应用延伸 - Workshop议题设计呈现双轮驱动:既深化视觉概念等基础研究 又拓展3D场景理解、数字孪生等产业应用场景 [27][30] - 腾讯形成商业反哺技术闭环:2024年研发开支70686亿元 累计研发投入达3403亿元 专利授权超45万件支撑AI持续投入 [46] - AI商业化成效显现:腾讯AI能力已驱动广告与游戏业务增长 微信生态内新AI应用成为重点投入方向 [50]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
量子位· 2025-06-17 15:41
CVPR 2025核心趋势 - 多模态与3D生成成为论文接收热门方向 其中高斯泼溅技术为前五高频关键词之一[6][15] - 基础模型讨论深入并延伸至产业落地 具身智能与机器人AI设立独立Workshop板块[6] - 计算机视觉与图形学加速融合 神经渲染推动3D论文数量显著增长[16][17] 中国企业参与表现 - 腾讯、字节等企业展区规模创纪录 技术Demo体验排队现象突出[3][5] - 腾讯40+篇论文被接收 覆盖混元大模型团队、优图实验室等多方向[32] - 蚂蚁、字节、快手分别有21篇、12篇(含4篇Highlight)、12篇论文入选[32] - 中国企业赞助商占比达6/41 腾讯与字节跻身白金赞助商行列[34] 技术突破与开源进展 - 腾讯Hunyuan 3D 2.1版本实现几何与纹理双重优化 达到开源3D模型SOTA水平[21] - 该模型为全链路开源工业级3D生成大模型 支持消费级显卡适配[23] - 多模态领域高频词包括扩散模型(175次)、大语言模型(129次)、文生图(48次)等[14] 产业应用与人才战略 - Workshop议题新增3D捕获重建、数字孪生等方向 聚焦真实世界建模需求[28] - 腾讯研发投入超706亿元(2024年) 全球专利申请公开总数达8.5万件[44] - 腾讯科技类人才占比73% 青云计划提供无上限薪酬与顶尖科学家资源[51][52] - 企业通过顶会展示技术实力 形成商业反哺技术的良性循环[46][48]
模型上新、降价,火山引擎急推AI应用落地
21世纪经济报道· 2025-06-14 08:55
行业趋势 - 2024年是中国大模型应用元年 2025年可能是中国Agent落地元年 技术主体从PC时代的web 移动时代的APP 转向AI时代的Agent [4] - Agent正逐步进入企业各个业务流程 规模化落地需要解决堵点 [5] 定价策略 - 首创按输入长度区间定价模式 0-32K输入区间每百万tokens输入0 8元 输出8元 综合成本是豆包1 5深度思考模型的三分之一 [5][6] - 豆包1 6使企业成本下降63% 仅需原价三分之一即可使用新模型 [7] - 视频生成模型Seedance 1 0 pro每千tokens 0 015元 生成5秒1080P视频仅需3 67元 1万元预算可制作超2700条 [11][12] 技术升级 - 模型进化聚焦三个方向 深度思考 多模态理解和工具自主调用 [8] - 豆包1 6全系列原生支持多模态思考能力 具备图形界面操作行动力 可自动操作浏览器完成酒店预订 识别购物小票整理Excel [9][10] - Seedance 1 0 pro支持文字与图片输入 生成多镜头无缝切换1080P视频 [10] 市场表现 - 豆包大模型日均tokens使用量超16 4万亿 较去年5月发布时增长137倍 [13] - 服务全球TOP10手机厂商中9家 8成主流汽车品牌 70%系统重要性银行及超5成985高校 [14] - 大模型收入增速最快 毛利位居前列 客户拓展目标激进 [14] 战略定位 - 推动Agent普及的关键是做好模型 降低成本 完善落地工具 [15] - 不以免费低质模型赚吆喝 坚持通过技术价值获取行业认可 [15]
“AI掉队者联盟”谋求改命
创业邦· 2025-06-13 11:30
AI行业现状 - AI行业呈现两极分化现象,新人辈出的AI应用与面临转型困难的早期AI企业共同构成"AI掉队者联盟"[3][5][6] - 商汤作为AI 1.0时代头部企业,市值较最高点蒸发超3000亿港元,创始团队出现重大变动[7][8] - AI 1.0时代核心技术(如计算机视觉)难以直接迁移至AI 2.0时代,企业面临技术路线转型挑战[9][12] AI 1.0时代特征 - 计算机视觉技术(CV)是核心赛道,诞生商汤、云从、旷视、依图等"AI四小龙"[14][15] - 技术突破显著:2014年旷视Face++人脸识别准确率达99.5%,推动安防、金融等行业商业化[19] - 发展依赖两大假设:技术领先转化商业优势、政府支持持续创造需求,2020年后均被打破[22] - 商汤2024年营收37.72亿元(同比+10.8%),但净亏损42.78亿元,日均烧钱1172万元[23] 转型压力与应对 - AI四小龙面临财务压力:商汤员工缩减23.6%,云从全员降薪20%,依图裁员70%[24] - 第四范式转型AI Agent服务商,医疗行业解决方案推动股价单日涨幅达9.79%[29][32] - 思必驰选择硬件路线,自研AI芯片年出货超2000万颗,覆盖IoT设备1.6亿台[33] - 垂直领域AI公司面临通用大模型威胁,技术壁垒可能崩塌[35] AI 2.0时代竞争 - 大模型技术成为核心,商汤"日日新大模型"进入国内第一梯队,但面临腾讯等大厂竞争[39][41] - 腾讯通过整合DeepSeek开源模型,微信月活用户增至14.02亿,展示商业化优势[42][43] - 月之暗面受开源模型冲击,转向多模态研发寻求突破[44][45] - 多模态技术成为新焦点,但商业化路径尚不明确,企业采取多元化尝试策略[46][47] 基础设施与资源 - 商汤构建AI算力基础设施,上海临港AIDC峰值算力达9400P,为亚洲最大之一[38] - 大厂凭借财力、流量入口和商业生态形成碾压优势,纯AI创业公司生存空间受挤压[43]