多模态

搜索文档
全球AI大模型最新进展及展望
2025-07-16 23:25
纪要涉及的行业和公司 - **行业**:全球AI大模型行业 - **公司**:OpenAI、Keep Seek、Deepseeker、Minimax、阿里、字节跳动、谷歌 纪要提到的核心观点和论据 1. **发展现状** - 全球AI大模型发展迅速,迭代速度超预期,美国在大参数量版本表现突出,中国在MOE架构优化等方面表现出色 [3] - 国产大模型能力被低估,豆包C1.6、Kimi开源模型、Minimax产品及阿里通义千问等达SOTA级别,中美差距未显著拉大 [1][6] - 自2022年ChatGPT发布,美国保持前沿,但今年Deepseek R1突破显示中美前沿大模型差距缩小 [13] 2. **商业化进展** - 大模型商业化加速,OpenAI预计年底ARR达150亿美元以上,6月已达100亿美金,Cloud从10亿美金增至30亿美金,环比增速约20%,部分公司80%编程由AI解决 [1][3][4][5] 3. **对厂商影响** - 2023 - 2025年,AI软件行情与大模型迭代相关,每次版本升级影响硬件和软件厂商,多模态是下一轮发力和商业化重点,国内多模态模型测评领先 [1][7] 4. **发展趋势** - 大模型与垂直领域小型蒸馏模型并行发展,小型模型在特定领域效果提升,价值不衰减 [1][10] - AI成本下降与能力提升同比例,推理成本下降更快,推动大模型商业化和产业链发展 [1][11] - 多模态是通往AGI关键,下半年至明年是重点关注方向,AI agent和视频编辑等场景值得重视 [1][12] 5. **技术探索** - 为突破Scaling局限,产业探索MOE架构,激活部分专家降低计算量,如Deepseeker、Minimax M1、千问3系列 [2][15][16] - 效率优化方面,采用多种注意力机制改进,如MLA、闪电注意力、分组查询注意力等 [17] - 推理能力提升有思考模型和混合推理模型两大方向 [18] - 智能体工具调用能力受厂商重视,国内Kimi KR具备工具调用能力,大厂AI工具类调用需求增长 [19][20][21] 6. **国内模型发展方向** - 降低成本,优化架构和算法,提高回答速度、降低幻觉率 [21] - 加大强化学习算力投入,统一非推理和推理模型 [21] - 加强工具调用能力,提高模型落地价值 [21] - 多模态发展,实现多模态推理与生成统一 [21] 7. **投资趋势** - 未来两到三年,算力是重要且长周期投资领域,关注芯片、服务器出货量及光模块预测等指标,模型是前沿观察指标 [22] 其他重要但可能被忽略的内容 1. **GPT - 4影响**:带来更长上下文长度和更大规模,推动产业链发展,但受训练复杂度、运行成本、算力集群互联能力和高质量数据集缺失限制 [14] 2. **模型性能表现**:GROK4在所有基准测试中表现优异,在human last exam测试中成绩好于其他旗舰版本 [23][24] 3. **强化学习训练变化**:目前模型强化学习训练时间和所需算力显著增加,未来技术路线是大幅延长强化学习训练时间和增加算力 [25] 4. **MID - train范式影响**:MID - train范式预计显著提升模型能力,GROX可能采用该技术路线 [26] 5. **国内优异模型**:Kimi K2仅预训练和MID train,非思维链版本全球领先,引入思维链后可能达全球顶尖水平 [27][28] 6. **谷歌流量影响**:谷歌流量增长来自内部调用、聊天机器人和API调用,三部分均有增长潜力,对下游推理算力需求乐观 [29]
豆包视觉通话模型落地,智能眼镜将迎来最大催化
2025-07-16 14:13
纪要涉及的行业和公司 - **行业**:AI、智能眼镜、AR眼镜 - **公司**:豆包、星辰科技、兰特光学、JVD上海显耀、高通、横旋、家有智能坐视荧幕、天键、蓝丝科技、恒星科技、环虚电子、龙骑科技、雷神科技、小米集团 纪要提到的核心观点和论据 - **豆包视觉模型进展**:豆包更新视频通话功能,识别准确度高,对现实世界理解准确,语义和场景符合人类自然使用习惯,模型已从文本问答进入视频多模态阶段,先理解后画面生产,已到可商用阶段 [1][2][3] - **视觉模型应用场景**:适用于现有有摄像头的地方,如家用安防、门锁等,最大增量来自智能眼镜,智能眼镜看到的画面与人类一致,适合多模态模型渗透,且模型记忆力强,能关注到更多细节 [4][5][6] - **智能眼镜产业进展** - **产品发布**:雷达发布采用克什方案光波导的眼镜,在显示效果和体积上有改善;ROKI GLASSES 6月正式发售,预定量超25万台;华为可能发AR显示眼镜;小米预计6 - 7月发布,雷鹏三代眼镜预计9月发布,今年雷鹏眼镜预计销量从去年200万台提升到500万台,明年可能达千万台级别 [9][10][11] - **供应链情况**:带显示AR眼镜BOM占比最大的是光机和光波导,光机全球被JVD上海显耀垄断,光波导有几何和衍射两个路线,今年都会有新品发布;芯片环节主要是高通AR1和国内横旋等有突破;代工环节有小厂和大厂,如蓝丝科技是肉体AR眼镜代工厂商 [12][13][14] - **行业趋势判断** - **销售情况**:今年能卖上量的大概率是不带显示的眼镜,依托摄像头、麦克风适配AI,推广速度更快 [16][17] - **设计思路**:硬件上要将摄像头、麦克风、屏幕显示等硬件更轻便地塞到眼镜里;软件上可将手机APP功能适配到眼镜,也可针对大模型开发新系统 [18] - **产业前景**:多模态产业和行情刚起步,视频理解模型刚推出,后续产品端和推广端会有很多变化,新产品会基于模型定制开发 [22] 其他重要但可能被忽略的内容 - 6月11号豆包原动力大会,星辰科技可能官宣视频视觉相关合作,有演讲报告和产品发布会 [7] - 推荐关注的标的主要是芯片公司黑轩科技和星辰科技 [21]
晚点独家丨MiniMax 即将完成近 3 亿美元新融资,估值超 40 亿美元
晚点LatePost· 2025-07-14 21:20
公司融资与估值 - MiniMax接近完成新一轮3亿美元融资,投后估值超过40亿美元(约300亿元人民币)[3][4] - 目前国内达到40亿美元估值的大模型公司仅有MiniMax和智谱[4] - MiniMax曾在2023年底完成一轮估值30亿美元的融资[4] - 智谱在2024年上半年估值也达到300亿元人民币范围[9] 公司发展历程与战略 - MiniMax由前商汤科技副总裁闫俊杰于2021年底创立,创立之初就专注于AGI领域[6] - 公司从创立起就将多模态能力作为核心方向同步推进,而非先做语言模型再拓展[6] - 2024年上半年战略是产品和模型双轮驱动,2024年下半年转向"加速技术迭代"[7][8] - 公司认为用户数量与模型能力提升无直接关系,模型能力提升主要依赖研发人才[8] 产品与技术进展 - 已发布大语言模型、语音生成模型、视频生成模型和图文理解模型等多模态产品[6] - 2022年推出AI角色扮演产品Glow,之后推出国内版星野和海外版Talkie[7] - Talkie加星野总日活约300万,远超字节类似产品猫箱的30-40万日活[7] - 视频生成模型Hailuo网页端用户数近1500万(5月数据),仅次于快手可灵[7] - 2024年6月发布多项技术成果,包括开源模型、视频模型、智能体等[9] 行业竞争格局 - 2023年备受关注的"大模型六小龙"中仅剩4家仍在推进通用大模型[9] - 月之暗面发布开源K2模型,阶跃星辰探索场景化Agent产品[9] - 硅谷大模型公司估值远超国内,如OpenAI估值超3000亿美元,Anthropic估值615亿美元[10] - 应用层公司如Cursor估值从25亿升至99亿美元,Perplexity估值从30亿升至140亿美元[10] 财务与市场表现 - 外媒报道称MiniMax 2024年营收将突破7000万美元[8] - 公司已启动上市进程,此前传出赴港股上市消息[2][9] - 智谱已在2024年4月启动IPO进程[9]
研一刚入学导师让我搭各种AI Agent框架,应该往什么方向努力?
自动驾驶之心· 2025-07-12 20:00
Agent技术发展现状 - Agent领域的低垂果实已被摘完 纯API调用的红利期结束于22年底至23年 需结合多模态和ML/DL技术提升竞争力[1][14] - 网易逆水寒等商业化案例已实现盈利 技术落后公司面临生存压力[1] Agent技术分类 博弈类/MARL衍生 - 主流方法为将MARL技术迁移至LLM Agent 实验环境集中于矩阵博弈和overcook等场景 学术价值高于实用价值[2] 游戏类应用 - 文本化环境构建成为重点 如civrealm和LLM play sc2项目 需解决游戏文本空间的精准映射问题[4] - 多模态技术渗透明显 安波团队的多模态Agent cradle带动技术潮流 黑神话悟空等商业项目开始应用[4] - 棋牌类游戏全面覆盖 但需突破传统RL已实现的人类超越瓶颈[5] 具身智能 - 机器人领域更看重真机实验 纯仿真研究认可度较低[5] 社会模拟类 - 斯坦福小镇等项目引爆关注 核心挑战包括:仿真器开发(Unity成为主流)、个性化决策保持、百万级Agent交互支持[6][8] - 可视化Demo成为项目评估关键要素[9] 商业化应用 - 客服问答和RAG技术最成熟 落地变现能力突出[9] - Tool use类工具(如HuggingGPT)成为企业生产力提升重点[9] - 自动化流水线应用分化 代码生成类依赖基础模型性能 AI for science类需跨学科知识整合[9] Minecraft专项 - 技术路线分化为纯RL(如OpenAI视频学习)、纯LLM(Voyager等技能库方案)、LLM+RL混合(顶会热门)[11][12] - 竞争白热化 需顶级团队资源支持才可能突破[13] 行业发展建议 - 高校研究需转向商业化场景合作 单打独斗模式已失效[14] - 技术路径选择应结合自身优势领域 避免同质化竞争[14] 技术社区动态 - 大模型之心Tech社区提供每日论文/技术报告更新 覆盖预训练、量化、RAG等12个技术板块[15] - 会员日均成本低于0.3元 主打快速技术路径打通[16]
百度2026届校招重注AI,超4000份Offer,应届生直接触核心研发!
搜狐财经· 2025-07-12 08:03
百度2026届校园招聘 - 公司提供超过4000个工作岗位 其中AI相关职位比例高达90% 创国内互联网巨头校招中对AI人才重视程度新高[1] - 招聘覆盖北京 上海 深圳 成都等七大城市 新增90个AI领域全新职位 专注多模态 跨模态及大模型架构等前沿技术[1] - 应届生将直接参与文心大模型 飞桨平台 数字人项目等核心产品研发[1] AI岗位技术布局 - 算力层提供AI异构计算 云原生AI及底座研发岗位 构建计算能力基础[3] - 框架层设置深度学习 AI训练岗位 支撑上层模型与应用开发[3] - 模型层招聘模型算法工程师 多模态大模型应用算法工程师等 打造智能大脑核心[3] - 应用层覆盖搜索 自动驾驶 生物计算等领域 推动技术落地[3] - 创新设立"AI大模型评估产品经理"等复合型职位 要求技术背景与业务理解能力结合 如电商领域智能推荐系统设计[3] 行业竞争格局 - 百度智能云2025年上半年中标48个大模型相关项目 金额达5 1亿元 在金融 能源 政务领域65%央企选择深度合作[5] - 公司构建包含3万台昆仑芯集群的算力底座 服务招商银行等企业 提升金融 多模态数据分析 智能客服场景效能[5] - 阿里云2025财年收入1180亿元 AI产品收入连续七季度三位数增长 通义千问开源模型全球下载量超3亿次 衍生模型突破10万个[5]
A股盘前播报 | 两大稀土巨头宣布提价 上海大动作 事关稳定币
智通财经网· 2025-07-11 08:27
稀土行业 - 北方稀土与包钢股份宣布第三季度稀土精矿价格调整为不含税19109元/吨,较二季度上涨1.5% [1] - 机构预计全球镨钕氧化物市场将出现需求缺口,镨钕价格有望持续上涨 [1] 加密货币与区块链 - 上海市国资委召开会议研究加密货币与稳定币发展趋势,强调创新驱动和产数融合 [2] - 探索区块链技术在跨境贸易、供应链金融、资产数字化等领域的应用 [2] 中美贸易 - 中美双方可能在8月初进行贸易谈判,商务部表示双方保持密切沟通 [3] 特斯拉 - 特斯拉计划加速扩展无人出租车业务,申请在亚利桑那州进行Robotaxi测试与运营 [4] - 特斯拉股价隔夜上涨4.73%,Robotaxi服务可能在一到两个月内扩展至加州旧金山湾区 [4] AI行业 - 马斯克旗下公司发布Grok 4 AI模型,号称世界最强 [10] - 华泰证券认为多模态大模型发展将带来算力和应用方面的投资机会 [10] 消费行业 - 北京印发提振消费专项行动方案,力争总消费额年均增长5%左右 [11] - 湘财证券建议关注旅游旺季带动的酒店、景点及相关主题景区板块 [11] 工程机械行业 - 上半年工程机械行业复苏,预计全年内需保持两位数以上增速 [12] - 湘财证券认为出口增长将拉动制造业景气度回升,维持机械行业"买入"评级 [12] 公司业绩 - 天保基建预计上半年净利润9000万元–1.3亿元,同比增长1581.80%–2329.27% [15] - 国盛金控预计上半年净利润1.5亿元–2.2亿元,同比增长236.85%-394.05% [15] - 中国重工预计上半年净利润15亿元-18亿元,同比增长181.73%-238.08% [15]
Cursor终结者?Grok 4正式登顶!马斯克扬言编程碾压,20万N卡年赚47亿美金!
AI前线· 2025-07-10 15:41
Grok 4发布概况 - xAI跳过Grok 3.5直接发布Grok 4通用模型,后续三个月将陆续推出专为编码任务设计的Coding Model、多模态代理Multi-modal Agent和视频生成模型Video Generation Model [1] - Grok 4已上线三个订阅版本:免费基础版、每月30美元的Supergrok和每月300美元的Supergrok Heavy,后者可提前体验新产品 [1] - 马斯克宣称Grok 4智能水平超过博士生,在SAT考试中能取得满分,GRE各学科成绩近乎满分,表现超过绝大多数研究生 [2][9] 产品性能与技术特点 - Grok 4搭载"深度搜索"工具,可从X平台抓取实时数据,能高精度解读meme、俚语和幽默内容,成为最"懂网络"的AI助手之一 [7] - Grok 4 Heavy采用多智能体系统,多个智能体同时处理问题并比较工作以找到最佳答案 [8] - 在"人类终极考试"中,Grok 4准确率达50.7%,配备工具的Grok 4 Heavy得分44.4%,超过Gemini 2.5 Pro的26.9% [11][13] - 在ARC-AGI-1测试中取得66.7%成绩,在ARC-AGI-2测试中以15.9%创下新最优成绩,是此前商业模型最优成绩的两倍 [13][15] 基准测试表现 - 人工智能分析智能指数达73,领先OpenAI o3的70 [17] - 在GPQA Diamond测试中创下88%历史最高分,超过Gemini 2.5 Pro的84% [20] - 在MMLU-Pro和2024年AIME测试中分别以87%和94%成绩并列第一 [20] - 输出速度每秒75个token,慢于o3的188 token/秒但快于Claude 4 Opus思维版的66 token/秒 [20] 技术实现与训练 - 从Grok 3到Grok 4,公司将大量计算投入推理和强化学习,训练量是Grok 2的100倍 [25][27] - Colossus超级计算机扩展到20万个GPU,在强化学习中的计算能力比任何竞争对手模型高出10倍 [29] - 语音功能升级为自然、类人的声线,中断更少 [35] 市场反应与未来计划 - 网友认为Grok 4在多项基准测试中表现优于o3、Gemini和Claude,若在"人类终极考试"中得分44.4%属实则极其令人印象深刻 [38] - 预计几周内推出专用编码模型,第七版基础模型将增强多模态理解以实现强大视频生成功能 [35] - 马斯克预测第一款优秀AI电子游戏或值得一看的AI电影将在明年问世 [35]
AI发展的三种可能性与重新被定义的真实
新浪财经· 2025-07-08 14:28
未来科技发展趋势 - 未来25年技术演进分为基石层面(AI、数字治理与组织变革)、生存层面(医疗和教育)、应用层面(机器人、无人驾驶和太空探险)以及终极层面(生命科学和脑机接口)[2] - AI发展可能呈现三种场景:规模扩展持续增长、规模扩展失效需新模型、发展停滞进入平台期[3] - 未来AI发展最可能是第一种和第二种可能性的交叉版本,可能出现数据算力边际效用递减或研究领域全新变化[5] AI技术发展现状与挑战 - 当前AI热潮由大语言模型推动,英伟达因AI芯片技术优势市值一度超三万亿美元[2] - AI规模扩展模式可能导致电力消耗剧增,高科技企业开始考虑在火电站附近建数据中心或投资小型核电站[4] - 人类大脑能耗仅约25瓦且学习效率高,模拟人脑是AI发展的一个方向[5] AI对社会的深远影响 - AI将改变"眼见为实"的标准,深度伪造技术使验证真实成为必要,可能推动AI"测谎仪"开发[6] - AI平台可能达成行业共识,在生成内容上添加辨别真伪的标记[6] - 眼球经济/注意力经济在AI时代将有新发展[7] 全球AI商业格局 - AI领域入场券至少需10亿美元,将被科技巨头主导[8] - 全球AI领域可能出现两三个主导者,主导地位最多维持10年左右[8] - 中美将是AI竞争最激烈国家,中国和印度可能在25年内超越模仿阶段开始真正创新[9] AI赋能领域与投资机会 - AI目前对编码和软件编程领域影响最大,程序员普遍使用AI优化工作[10] - AI可能加速更强大AI的问世,神经网络和大语言模型尤其适合生成代码[10] - 未来25年发展最快的领域将是能充分受益于AI技术突破的领域[10]
Gemini负责人爆料!多模态统一token表示,视觉至关重要
量子位· 2025-07-03 14:58
Gemini多模态技术核心观点 - Gemini从设计之初就是原生多模态模型,旨在构建像人类一样感知世界的通用人工智能(AGI),视觉能力是其核心组成部分[8][9] - 最新Gemini 2.5 Pro(0605)在代码、推理和视觉能力(尤其是视频理解)上达到SOTA水平,巩固了谷歌在多模态领域的领先地位[4][16] - 多模态能力存在正向迁移效应,视觉能力的提升带动了代码处理、OCR等多项能力的整合,催生"视频转代码"等创新用例[21][24] - 采用"万物皆视觉"产品理念,将视觉应用分为基础OCR、人类专家级任务和超越人类能力的三类场景[36][38][41] 技术架构设计 - 原生多模态架构:所有模态(文本/图像/视频/音频)统一转化为token表示进行协同训练,而非拼接单一模态模型[12][13] - 视频处理技术:以1FPS采样率配合64token/帧的压缩方案,实现6小时长视频处理(200万上下文token),音频与视频帧交错对齐提升理解能力[33][31][34] - 信息损失控制:承认图像/视频token化存在固有信息损失,但通过大规模训练使模型在低采样率下仍保持优异泛化能力[14] 产品应用方向 - 视频理解突破:解决长视频注意力衰减问题,支持食谱生成、讲座笔记转换等实用功能,未来将拓展高尔夫挥杆分析等高帧率场景[18][20][34] - 交互体验革新:计划突破"回合制"交互模式,通过视觉化信息呈现(如IDE流式编程辅助)和隐含意图理解提升自然度[25][55][57] - 未来场景规划:开发物理世界交互能力(实时环境问答)、烹饪辅助等超越人类反应速度的实时应用[42][43][45] 团队与研发策略 - 人才密集型研发:需整合OCR、检测、分割等多领域专家构建统一模型,形成产品-模型反馈循环[49][50][52] - 长期技术布局:当前视觉能力作为未来自然交互的基石,重点开发个性化和同理心等拟人化特性[53][54][56]
刚刚,OpenAI四位华人学者集体被挖,还是Meta重金出手
机器之心· 2025-06-29 10:21
Meta从OpenAI挖角人才 - Meta近期从OpenAI挖走四名核心研究人员,距离上次挖走苏黎世办公室团队仅隔几天[1] - 被挖人员包括GPT-4、GPT-4o及轻量化模型研发的中坚力量,涉及ViT等重要研究领域[5][8] - 具体人员为:余家辉(领导o3、o4-mini和GPT-4.1研发)、任泓宇(创建o3-mini/o1-mini)、毕书超(多模态组织负责人)、赵盛佳(GPT-4/o1关键贡献者)[6][8] 人才争夺战与行业竞争 - OpenAI CEO称Meta开出"1亿美元签约奖金"挖人,但强调顶尖人才未被挖走[3] - Meta CTO回应称实际报价条款复杂,非一次性现金支付[4] - 此次挖角可能强化Meta在大模型微调和多模态对齐的技术短板[8] 被挖研究人员背景 - 赵盛佳:清华本科/斯坦福博士,参与GPT-4/GPT-4o/o1训练,获ICLR 2022杰出论文奖[10][11][13] - 余家辉:中科大少年班/UIUC博士,曾任谷歌DeepMind Gemini多模态负责人,主导OpenAI图像生成等项目[16][17][21] - 毕书超:浙大本科/UC伯克利博士,研究方向涵盖多模态推理、智能体系统整合等前沿领域[23][24][27] - 任泓宇:北大本科/斯坦福博士,创建o3-mini/o1-mini,领导GPT-4o mini研发[28][29][31] Meta的AI战略动向 - 公司在4月发布Llama 4模型后启动大规模招聘,但模型表现未达CEO预期[2] - 行业质疑Meta在基准测试中使用特定版本Llama的做法[2] - 人才引进可能加速下一代模型Llama 5的研发进程[8]