Workflow
多模态AI
icon
搜索文档
解构大模型投资迷雾:硅兔君与四位硅谷AI巨头核心专家的闭门会议深度纪要
36氪· 2025-07-01 18:15
多模态AI技术演进与产业应用 - 多模态AI是AI必然演进方向,商业价值远超纯文本模型,实现跨模态理解、推理和生成 [2] - 下一代语义搜索可融合图像、地理位置和文本指令,提供更丰富交互体验 [3] - 沉浸式教育领域AI可整合视频、音频和文本数据,实现实时个性化指导 [3] - 超个性化电商通过多维度用户数据生成符合审美的数字形象和虚拟展厅 [3] 商业化效率与模型压缩技术 - 商业化核心挑战在于推理成本,训练成本仅占小部分,广告系统等场景需高效推理方案 [4] - 量化技术将32位浮点数转为16位或8位整数,大幅减小模型体积和计算量 [5] - 剪枝技术识别并移除神经网络中贡献较小的连接,实现模型瘦身 [5] - 知识蒸馏通过教师模型训练轻量级学生模型,保持性能的同时降低体积 [5] AI投资逻辑的结构性变迁 - AI投资从基础大模型转向基础设施和垂直应用,模型复刻机会窗口关闭 [6] - AI基础设施如芯片、向量数据库和MLOps工具链成为新价值高地 [6] - 垂直行业AI结合通用模型与行业专有数据,创造不可替代价值,如法律和软件开发领域 [6] 中美AI竞争的战略差异 - 美国优势在于从0到1的底层创新,定义下一代模型架构和技术范式 [7][8] - 中国优势在于从1到N的市场应用,快速实现AI与国民级场景结合的商业化 [7][9]
赛道Hyper | 百度开源ERNIE 4.5:策略是什么?
华尔街见闻· 2025-07-01 17:39
百度开源文心大模型4.5系列 - 公司正式开源文心大模型4.5系列(ERNIE 4.5),涵盖10款不同参数规模的模型,包括47B(470亿)、3B(30亿)激活参数的混合专家(MoE)模型及0.3B(3亿)参数的稠密型模型,预训练权重与推理代码均完全开放 [1] - 模型已可在飞桨星河社区、HuggingFace等平台下载,百度智能云千帆大模型平台同步提供API服务 [1] - 开源动作延续科技领域"开放协作"传统,为大模型技术落地提供新可能性 [2] 模型技术架构与特点 - 10款模型形成从0.3B到47B参数的梯度覆盖,囊括基础文本模型和视觉多模态模型(VLM) [3] - 除0.3B模型外均采用异构多模态MoE架构,通过"分而治之"策略提升性能 [3] - 异构MoE架构包含文本专家、视觉专家和共享专家三类FFN专家,通过门控网络动态选择最优专家组合 [4][5][6] - 原生多模态能力优化体现在模态融合而非技术堆砌,文本任务性能稳定基础上增强多模态处理能力 [4] 开发者生态与工具支持 - 配套开发工具链包括ERNIEKit训练工具和FastDeploy推理部署工具,降低开发者使用门槛 [7] - 开源遵循"技术-用户-数据"正向循环逻辑,开发者二次开发产生的数据反哺模型迭代 [8] - 飞桨平台与文心模型形成"双层开源"结构,开发者参与协同优化增强生态粘性 [9][10] - 采用Apache 2.0协议平衡共享与权益保护,允许商业使用但需保留原作者信息 [11] 开源战略与行业影响 - 开源是一种"分布式研发"策略,全球开发者智慧纳入创新体系降低整体研发成本 [12][13] - 提供"标准化基础上的差异化创新"路径,基础模型统一减少重复研发浪费 [13][14] - 开源模式使技术能力可验证,开发者可追溯模型决策逻辑链条 [15] - 全量开源向全球开发者递出技术名片,助力国产技术融入全球创新网络 [16]
【公告全知道】稳定币+区块链+移动支付+国企改革!公司部分技术可应用于稳定币领域
财联社· 2025-06-30 23:00
股市重大公告推送服务 - 每周日至每周四推送包含停复牌、增减持、投资中标、收购、业绩、解禁、高送转等个股利好利空公告 [1] - 重要公告以红色标注 帮助投资者提前寻找投资热点并防范黑天鹅事件 [1] 公司技术应用领域 - 公司部分技术可应用于稳定币领域 涉及稳定币+区块链+移动支付+国企改革概念 [1] - 公司为国防军工提供定制和配套信息化智能化嵌入式产品与服务 涉及军工信息化+算力租赁+国产芯片+区块链+无人机+华为概念 [1] - 公司获得脑机接口数百万元订单 并签订人形机器人产品销售框架合同 涉及脑机接口+人形机器人+无人驾驶+多模态AI概念 [1]
股市必读:云从科技(688327)6月27日董秘有最新回复
搜狐财经· 2025-06-30 06:12
股价及交易数据 - 截至2025年6月27日收盘 云从科技报收于13 48元 下跌0 44% [1] - 当日换手率2 78% 成交量23 13万手 成交额3 15亿元 [1] - 主力资金净流入276 87万元 占总成交额0 88% 游资资金净流入327 93万元 占总成交额1 04% 散户资金净流出604 8万元 占总成交额1 92% [5] 业务布局与战略发展 - 通过投资元生智能切入银发经济赛道 形成"算法+硬件"闭环解决方案 产品基于毫米波雷达 视觉和语音等多模态技术 实现跌倒检测 隔空生命体征监测等功能 聚焦居家养老场景 [2] - 未来将依托人机交互 多模态大模型等技术优势 推动元生系列产品"具身智能"化迭代 [2] - 基于"从容"大模型的多模态AI技术 在智能影像诊断 辅助病理等医疗方向具备应用潜力 药监局新规加速AI医疗器械审批流程 为公司医疗业务创造有利条件 [3] - 京东云与华银康合作案例显示 AI辅助病理诊断已实现300万例临床应用 验证"AI预筛+专家复核"模式可行性 为公司提供商业化路径参考 [3] 市场拓展情况 - 当前营收集中于国内市场 尚未在欧盟国家形成销售收入 [4]
行业周报:积极关注AI视频、虚拟社交商业化及暑期文娱IP消费-20250629
开源证券· 2025-06-29 22:11
报告行业投资评级 - 看好(维持) [2] 报告的核心观点 - 快手多模态新模型展现突出视频理解能力,建议继续布局多模态AI应用,包括AI视频、AI虚拟陪伴、AI电商/广告、AI教育/出版等领域 [5] - 暑期旺季来临,建议继续布局游戏、动画电影、演唱会、潮玩等IP新消费赛道,关注内容新品表现 [6] 行业数据综述 - 《三角洲行动》获内地iOS免费榜第一,《王者荣耀》获内地iOS畅销榜第一;电影《酱园弄·悬案》获得周票房冠军 [10][13] - 《异环》为安卓预约榜第一,《无畏契约:源能行动》为iOS预约榜第一 [13] 行业新闻综述 AIGC - 首个能在机器人上本地运行的具身Gemini发布 [10] - 中文在线以AI赋能全球内容产业,董事长童之磊表示公司将“夯实内容、决胜IP、国际优先、AI赋能”作为未来战略主轴 [35][36] - OpenAI转向谷歌TPU,主要原因是用户快速增长导致GPU严重短缺,以及希望降低对微软的依赖 [37] - 马斯克旗下脑机接口公司Neuralink宣布脑机设备已成功植入7名志愿者体内,公布三年宏伟蓝图 [38] - 英伟达任命95后清华本科Banghua Zhu为新任首席研究科学家,推动企业级智能体和AI全链路解决方案布局 [39] - 快手大模型Keye - VL理解力大幅提升,技术细节全开源 [40] 游戏 - 6月版号数量再创年内新高,共批准158款游戏,涵盖多元品类,游戏行业迈入新一轮发展窗口期 [41] - 游戏与电竞成为中国“软实力”崛起的重要载体,中国游戏产业从模仿追随迈向技术与内容的双重引领 [42] - 《情感反诈模拟器》上线,体现游戏作为社会现象表达载体的潜力,揭示娱乐性与社会议题平衡的复杂挑战 [43] 影视/IP - 第22届电影频道传媒关注单元圆满闭幕,易烊千玺、马丽分获最受传媒关注男女主角 [44] 公告总结 - 昆仑万维联营企业拟向控股子公司提供2亿元无息可转债,巩固其在AGI与AIGC赛道的竞争优势 [45][46] - 广西广电召开重大资产重组投资者说明会,交易完成后将扭亏为盈,业务向智慧交通和数智工程转型 [47] - 每日互动全资子公司拟提高对参股公司的反担保额度,以加快数智产业园项目建设 [48] - 人民网拟使用不超过7亿元闲置募集资金进行现金管理,设立专用结算账户 [49] 板块行情综述 - A股传媒板块2025年第26周上涨3.06%,强于上证综指、沪深300,弱于深证成指、创业板指;互联网板块表现最好,体育板块表现最差 [50] - A股传媒互联网相关个股中,欢瑞世纪周涨幅最大,联建光电周跌幅最大;美股传媒互联网相关个股中,新氧周涨幅最大,DUOLINGO周跌幅最大;港股传媒互联网相关个股中,数字国王周涨幅最大,创梦天地周跌幅最大 [50]
速递|Meta两周挖走至少7名OpenAI成员,其中4名华人,否认1亿美元签约金,CTO揭开高管薪酬复合结构
Z Potentials· 2025-06-29 13:20
Meta的AI人才招聘战略 - Meta近期从OpenAI挖走至少7名核心研究员,包括赵盛佳(o1/o3-mini核心开发者)、余嘉辉(感知团队负责人)、毕书超(多模态训练负责人)、任宏宇(后训练团队负责人)以及3名苏黎世团队研究员 [1][2][3] - 新加入的赵博士是OpenAI多款模型的核心贡献者,其开发的o1-mini在数学能力上曾超越更大的o1-preview模型 [2] - 余嘉辉曾领导OpenAI感知技术团队,毕书超负责多模态后训练,任宏宇与赵博士合作发表过生成式AI模型偏见论文 [3] - 公司还聘请了OpenAI的Trapit Bansal(推理模型专家)和Scale AI CEO Alexandr Wang(收购49%股权交易涉及143亿美元) [2][6] 人才竞争与薪酬结构 - Meta为AI研究人员提供数百万美元薪酬方案,但否认普遍存在1亿美元签约奖金,实际薪酬以限制性股票单位(RSU)为主 [4][5] - 首席技术官Andrew Bosworth透露,仅少数高级领导可能获得1亿美元级别薪酬,但需分4年兑现 [4][5] - 一位AI研究人员曾拒绝Meta开出的1800万美元邀约,选择加入初创公司Thinking Machines实验室 [7] 技术发展方向 - Meta聚焦娱乐AI领域(如VR头显、AI眼镜),与OpenAI研究员卢卡斯·拜尔(计算机视觉专家)的技术专长一致 [5] - 公司通过收购Scale AI和组建"超级智能"实验室强化多模态AI(文本/视频/音频识别与生成)能力 [2][3][6] 行业动态 - OpenAI过去几年允许员工累计套现30亿美元股票,可能加剧人才流失 [4] - Meta两周内密集挖角OpenAI核心团队,反映AI人才市场竞争白热化 [1][2][3]
雷军寻找下一个爆款
财富FORTUNE· 2025-06-27 19:53
小米AI眼镜产品发布 - 小米在发布会上推出AI智能眼镜,定位为"面向下一代的个人智能设备,随身的AI入口",标准版起售价1999元 [1] - 产品对标雷朋Meta智能眼镜,具备工具和娱乐属性,集成摄像头但无显示屏和AR功能,内嵌语音和触控AI交互功能 [1] - 基础款Ray-Ban Meta售价299美元(约2144元),与小米AI眼镜价格差距不大,但小米产品实际售价仍有下探空间 [1] - 公司希望通过AI眼镜成为继手机、汽车之后的下一个爆款产品,发掘消费者链接小米全系列产品的新流量入口 [1] 智能眼镜市场前景 - IDC预测2025年全球智能眼镜出货量达1451.8万台,中国市场出货量290.7万台,同比增长121.1% [2] - 雷军预期小米AI眼镜出货量在30万台以上 [2] - Ray-Ban Meta第二代智能眼镜销量已超200万副,依视路陆逊梯卡计划与Meta合作将年产能提升至1000万副 [2] - 中国AI眼镜市场尚未出现赢家通吃局面,小米面临海内外竞争对手挑战 [2] 产品生态优势 - 小米AI眼镜兼容苹果生态,实现与iOS跨生态设备互传,支持14个主流APP包括抖音、快手、小红书等 [3] - 公司希望通过用户自发社交传播快速带动产品热度和销量 [3] 行业竞争格局 - 字节跳动提出2025年重点目标包括探索"更可穿戴、更便携、更自然"的新交互方式,可能布局AI眼镜 [4] - Meta社交平台矩阵拥有34.3亿日活跃用户,META AI月活用户约6亿,社交分享功能推动AI眼镜销量增长 [4] - 苹果计划2026年推出AI智能眼镜,加入市场竞争 [4] 产品战略与成本 - 小米持续推进产品高端化路线,AI眼镜硬件成本约177.5美元(1272元),高于Ray-Ban Meta的149美元 [5] - 随着供应链成熟,产品成本有望进一步降低 [5] 行业未来发展趋势 - 当前AI眼镜以时尚和社交属性为主,维深认为轻功能、轻量级的AI+AR产品是未来形态 [6] - Meta计划2027年推出AR眼镜,扎克伯格预测AR眼镜将成为"下一代计算平台" [6] - 搭载阿里通义大模型的雷鸟X3 Pro AR眼镜起售价达8999元,显示科技属性增加将推高产品价格 [6]
Meta Platforms成功挖角OpenAI三名核心研究员
搜狐财经· 2025-06-26 16:02
人才争夺与技术竞争 - Meta Platforms从OpenAI挖走三名重量级研究员Lucas Beyer、Alexander Kolesnikov和翟晓华(Xiaohua Zhai),三人此前在OpenAI苏黎世办公室从事计算机视觉与多模态AI研究 [1][3] - 此次挖角是Meta"超级智能"AI实验室计划的一部分,该实验室由扎克伯格亲自牵头,目标研发超越人类智慧的AI系统 [3] - Meta为吸引人才提供高额薪酬与股权激励,部分签约奖金高达1亿美元,扎克伯格内部信强调"人才是AI时代的石油" [3] 行业动态与竞争格局 - OpenAI发言人证实三名研究员离职,但强调核心团队稳定,CEO山姆·奥尔特曼曾透露Meta试图以1亿美元挖角但被拒,认为高薪策略可能分散团队注意力 [3] - 行业分析师指出Meta的激进招聘反映其在AI领域的焦虑,Llama系列大模型性能未达预期且发布计划多次推迟,挖角或助其缩小与OpenAI在多模态AI的技术差距 [4] - 麦肯锡报告显示2025年全球AI人才缺口将达300万,具备AGI研发能力的科学家不足5000人,科技巨头通过"锁定式招聘"囤积人才,初创公司被迫以天价挖角维持生存 [4] 战略布局与资源投入 - Meta曾以143亿美元收购Scale AI 49%股份,并承诺为其团队提供总额超5亿美元的激励方案 [4] - 行业专家认为AI竞争不仅依赖人才数量,更需企业文化、技术愿景与长期战略,随着OpenAI、Anthropic和Google DeepMind等公司加速发展,AI军备竞赛将进一步升级 [4]
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 11:43
技术突破 - 突破传统RAG技术局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解[1] - 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化信息转化为结构化知识网络[1] - 系统整合多模态文档解析、语义理解、知识建模和智能问答等核心能力,构建从原始文档到智能交互的完整自动化流程[2] 技术痛点与需求 - 传统RAG系统主要针对纯文本设计,无法有效处理图表、表格、公式等非文本内容[6] - 现有系统存在检索效果不理想、语义关联缺失、工作流复杂等问题[6] - 各行业迫切需要AI系统具备跨模态综合理解能力,能够同时解析文字、图像、表格和数学表达式[4] 系统架构与功能 - 采用端到端技术栈,包含文档解析、内容理解、知识构建和智能问答等关键功能[10] - 支持PDF、Office文档、图像等10多种主流文档格式[12] - 实现跨模态统一知识表示和检索方法,提供标准化API接口和灵活配置选项[10] 技术亮点 - 一站式多模态处理流程,实现从文档解析到智能问答的全流程自动化[11] - 全方位内容理解能力,包括视觉分析、语言理解和结构化数据处理[13] - 语义关联网络构建,自动识别文档中不同类型内容之间的关联关系[14] - 开放式组件生态架构,支持功能模块灵活调整和添加[15] 多模态理解能力 - 视觉内容分析:集成视觉大模型,自动生成图像描述,提取图表数据关系和视觉要素[19] - 表格智能解析:理解表格层次结构,识别表头关系和数据逻辑联系[20] - 数学公式理解:识别LaTeX格式表达式,分析变量含义和适用场景[20] - 扩展模态支持:支持流程图、代码片段、地理信息等专业内容识别[20] 知识图谱构建 - 将多模态内容统一建模为结构化知识图谱,突破信息孤岛问题[23] - 实体化建模:将异构内容统一抽象为知识实体,保留完整信息[24] - 智能关系构建:自动识别段落间逻辑关系和图文间说明关系[24] - 高效存储索引:建立图谱数据库和向量数据库双重存储机制[24] 检索机制 - 采用双层次检索问答机制,结合图谱检索和向量检索优势[26] - 分层提取细粒度关键词和概念级关键词,精准理解复杂问题[27] - 混合检索方式,通过图谱结构快速找到相关实体节点[27] 部署与应用 - 提供PyPI和源码两种安装方式,支持快速部署[29] - 模块化架构设计,支持一键式端到端处理和精细化手动构建两种使用方式[30] - 全流程自动化,从文档上传到智能问答无需人工干预[34] - 支持精确控制处理流程和定制化功能扩展[35] 未来方向 - 改进系统推理能力,处理跨模态信息深层关联[37] - 探索学术论文图表解析、财务报表数据提取、工程图纸识别等应用场景[37] - 作为构建智能Agent的基础技术,为AI应用提供多模态处理能力[37]
【公告全知道】数字货币+区块链+国产芯片+跨境支付+多模态AI!公司截至去年末累计为近1.5万家单商户开通数字人民币服务
财联社· 2025-06-24 22:06
数字货币与区块链 - 公司涉及数字货币+区块链+国产芯片+跨境支付+多模态AI+云计算+华为鸿蒙等多领域业务 [1] - 截至去年末累计为近1 5万家单商户开通数字人民币服务 [1] 固态电池与锂电池 - 公司布局固态电池+锂电池+无人机领域 [1] - 固态电池及其关键材料业务目前已获得订单 [1] 人形机器人技术 - 公司机器人子公司产品可应用于服务机器人和人形机器人业务 [1] - 业务覆盖人形机器人+无人驾驶+芯片+华为技术链 [1]