Workflow
多模态
icon
搜索文档
A股盘前播报 | 两大稀土巨头宣布提价 上海大动作 事关稳定币
智通财经网· 2025-07-11 08:27
稀土行业 - 北方稀土与包钢股份宣布第三季度稀土精矿价格调整为不含税19109元/吨,较二季度上涨1.5% [1] - 机构预计全球镨钕氧化物市场将出现需求缺口,镨钕价格有望持续上涨 [1] 加密货币与区块链 - 上海市国资委召开会议研究加密货币与稳定币发展趋势,强调创新驱动和产数融合 [2] - 探索区块链技术在跨境贸易、供应链金融、资产数字化等领域的应用 [2] 中美贸易 - 中美双方可能在8月初进行贸易谈判,商务部表示双方保持密切沟通 [3] 特斯拉 - 特斯拉计划加速扩展无人出租车业务,申请在亚利桑那州进行Robotaxi测试与运营 [4] - 特斯拉股价隔夜上涨4.73%,Robotaxi服务可能在一到两个月内扩展至加州旧金山湾区 [4] AI行业 - 马斯克旗下公司发布Grok 4 AI模型,号称世界最强 [10] - 华泰证券认为多模态大模型发展将带来算力和应用方面的投资机会 [10] 消费行业 - 北京印发提振消费专项行动方案,力争总消费额年均增长5%左右 [11] - 湘财证券建议关注旅游旺季带动的酒店、景点及相关主题景区板块 [11] 工程机械行业 - 上半年工程机械行业复苏,预计全年内需保持两位数以上增速 [12] - 湘财证券认为出口增长将拉动制造业景气度回升,维持机械行业"买入"评级 [12] 公司业绩 - 天保基建预计上半年净利润9000万元–1.3亿元,同比增长1581.80%–2329.27% [15] - 国盛金控预计上半年净利润1.5亿元–2.2亿元,同比增长236.85%-394.05% [15] - 中国重工预计上半年净利润15亿元-18亿元,同比增长181.73%-238.08% [15]
Cursor终结者?Grok 4正式登顶!马斯克扬言编程碾压,20万N卡年赚47亿美金!
AI前线· 2025-07-10 15:41
Grok 4发布概况 - xAI跳过Grok 3.5直接发布Grok 4通用模型,后续三个月将陆续推出专为编码任务设计的Coding Model、多模态代理Multi-modal Agent和视频生成模型Video Generation Model [1] - Grok 4已上线三个订阅版本:免费基础版、每月30美元的Supergrok和每月300美元的Supergrok Heavy,后者可提前体验新产品 [1] - 马斯克宣称Grok 4智能水平超过博士生,在SAT考试中能取得满分,GRE各学科成绩近乎满分,表现超过绝大多数研究生 [2][9] 产品性能与技术特点 - Grok 4搭载"深度搜索"工具,可从X平台抓取实时数据,能高精度解读meme、俚语和幽默内容,成为最"懂网络"的AI助手之一 [7] - Grok 4 Heavy采用多智能体系统,多个智能体同时处理问题并比较工作以找到最佳答案 [8] - 在"人类终极考试"中,Grok 4准确率达50.7%,配备工具的Grok 4 Heavy得分44.4%,超过Gemini 2.5 Pro的26.9% [11][13] - 在ARC-AGI-1测试中取得66.7%成绩,在ARC-AGI-2测试中以15.9%创下新最优成绩,是此前商业模型最优成绩的两倍 [13][15] 基准测试表现 - 人工智能分析智能指数达73,领先OpenAI o3的70 [17] - 在GPQA Diamond测试中创下88%历史最高分,超过Gemini 2.5 Pro的84% [20] - 在MMLU-Pro和2024年AIME测试中分别以87%和94%成绩并列第一 [20] - 输出速度每秒75个token,慢于o3的188 token/秒但快于Claude 4 Opus思维版的66 token/秒 [20] 技术实现与训练 - 从Grok 3到Grok 4,公司将大量计算投入推理和强化学习,训练量是Grok 2的100倍 [25][27] - Colossus超级计算机扩展到20万个GPU,在强化学习中的计算能力比任何竞争对手模型高出10倍 [29] - 语音功能升级为自然、类人的声线,中断更少 [35] 市场反应与未来计划 - 网友认为Grok 4在多项基准测试中表现优于o3、Gemini和Claude,若在"人类终极考试"中得分44.4%属实则极其令人印象深刻 [38] - 预计几周内推出专用编码模型,第七版基础模型将增强多模态理解以实现强大视频生成功能 [35] - 马斯克预测第一款优秀AI电子游戏或值得一看的AI电影将在明年问世 [35]
AI发展的三种可能性与重新被定义的真实
新浪财经· 2025-07-08 14:28
未来科技发展趋势 - 未来25年技术演进分为基石层面(AI、数字治理与组织变革)、生存层面(医疗和教育)、应用层面(机器人、无人驾驶和太空探险)以及终极层面(生命科学和脑机接口)[2] - AI发展可能呈现三种场景:规模扩展持续增长、规模扩展失效需新模型、发展停滞进入平台期[3] - 未来AI发展最可能是第一种和第二种可能性的交叉版本,可能出现数据算力边际效用递减或研究领域全新变化[5] AI技术发展现状与挑战 - 当前AI热潮由大语言模型推动,英伟达因AI芯片技术优势市值一度超三万亿美元[2] - AI规模扩展模式可能导致电力消耗剧增,高科技企业开始考虑在火电站附近建数据中心或投资小型核电站[4] - 人类大脑能耗仅约25瓦且学习效率高,模拟人脑是AI发展的一个方向[5] AI对社会的深远影响 - AI将改变"眼见为实"的标准,深度伪造技术使验证真实成为必要,可能推动AI"测谎仪"开发[6] - AI平台可能达成行业共识,在生成内容上添加辨别真伪的标记[6] - 眼球经济/注意力经济在AI时代将有新发展[7] 全球AI商业格局 - AI领域入场券至少需10亿美元,将被科技巨头主导[8] - 全球AI领域可能出现两三个主导者,主导地位最多维持10年左右[8] - 中美将是AI竞争最激烈国家,中国和印度可能在25年内超越模仿阶段开始真正创新[9] AI赋能领域与投资机会 - AI目前对编码和软件编程领域影响最大,程序员普遍使用AI优化工作[10] - AI可能加速更强大AI的问世,神经网络和大语言模型尤其适合生成代码[10] - 未来25年发展最快的领域将是能充分受益于AI技术突破的领域[10]
Gemini负责人爆料!多模态统一token表示,视觉至关重要
量子位· 2025-07-03 14:58
Gemini多模态技术核心观点 - Gemini从设计之初就是原生多模态模型,旨在构建像人类一样感知世界的通用人工智能(AGI),视觉能力是其核心组成部分[8][9] - 最新Gemini 2.5 Pro(0605)在代码、推理和视觉能力(尤其是视频理解)上达到SOTA水平,巩固了谷歌在多模态领域的领先地位[4][16] - 多模态能力存在正向迁移效应,视觉能力的提升带动了代码处理、OCR等多项能力的整合,催生"视频转代码"等创新用例[21][24] - 采用"万物皆视觉"产品理念,将视觉应用分为基础OCR、人类专家级任务和超越人类能力的三类场景[36][38][41] 技术架构设计 - 原生多模态架构:所有模态(文本/图像/视频/音频)统一转化为token表示进行协同训练,而非拼接单一模态模型[12][13] - 视频处理技术:以1FPS采样率配合64token/帧的压缩方案,实现6小时长视频处理(200万上下文token),音频与视频帧交错对齐提升理解能力[33][31][34] - 信息损失控制:承认图像/视频token化存在固有信息损失,但通过大规模训练使模型在低采样率下仍保持优异泛化能力[14] 产品应用方向 - 视频理解突破:解决长视频注意力衰减问题,支持食谱生成、讲座笔记转换等实用功能,未来将拓展高尔夫挥杆分析等高帧率场景[18][20][34] - 交互体验革新:计划突破"回合制"交互模式,通过视觉化信息呈现(如IDE流式编程辅助)和隐含意图理解提升自然度[25][55][57] - 未来场景规划:开发物理世界交互能力(实时环境问答)、烹饪辅助等超越人类反应速度的实时应用[42][43][45] 团队与研发策略 - 人才密集型研发:需整合OCR、检测、分割等多领域专家构建统一模型,形成产品-模型反馈循环[49][50][52] - 长期技术布局:当前视觉能力作为未来自然交互的基石,重点开发个性化和同理心等拟人化特性[53][54][56]
刚刚,OpenAI四位华人学者集体被挖,还是Meta重金出手
机器之心· 2025-06-29 10:21
Meta从OpenAI挖角人才 - Meta近期从OpenAI挖走四名核心研究人员,距离上次挖走苏黎世办公室团队仅隔几天[1] - 被挖人员包括GPT-4、GPT-4o及轻量化模型研发的中坚力量,涉及ViT等重要研究领域[5][8] - 具体人员为:余家辉(领导o3、o4-mini和GPT-4.1研发)、任泓宇(创建o3-mini/o1-mini)、毕书超(多模态组织负责人)、赵盛佳(GPT-4/o1关键贡献者)[6][8] 人才争夺战与行业竞争 - OpenAI CEO称Meta开出"1亿美元签约奖金"挖人,但强调顶尖人才未被挖走[3] - Meta CTO回应称实际报价条款复杂,非一次性现金支付[4] - 此次挖角可能强化Meta在大模型微调和多模态对齐的技术短板[8] 被挖研究人员背景 - 赵盛佳:清华本科/斯坦福博士,参与GPT-4/GPT-4o/o1训练,获ICLR 2022杰出论文奖[10][11][13] - 余家辉:中科大少年班/UIUC博士,曾任谷歌DeepMind Gemini多模态负责人,主导OpenAI图像生成等项目[16][17][21] - 毕书超:浙大本科/UC伯克利博士,研究方向涵盖多模态推理、智能体系统整合等前沿领域[23][24][27] - 任泓宇:北大本科/斯坦福博士,创建o3-mini/o1-mini,领导GPT-4o mini研发[28][29][31] Meta的AI战略动向 - 公司在4月发布Llama 4模型后启动大规模招聘,但模型表现未达CEO预期[2] - 行业质疑Meta在基准测试中使用特定版本Llama的做法[2] - 人才引进可能加速下一代模型Llama 5的研发进程[8]
下一站AI创业主线:别卷模型了,把这件事干成才重要
Founder Park· 2025-06-27 18:32
Agent成为创新中心 - Agent成为新一轮创新叙事的核心坐标[1] - AI创业从"拼技术"进入"拼交付"时代[2] - 通用Agent由巨头主导,垂直Agent满足千行百业具体需求[3] - AI"劳动力化"催生全新基础设施需求[3] 多模态技术发展 - 多模态技术进展显著但尚未完全成熟[11] - 当前面临多模态理解与生成一体化、各模态统一融合两大挑战[11] - 可控性要求不高的场景已实现商业化落地[12] - 行业高估多模态短期影响,低估长期潜力[18] - 多模态将逐步发展而非一步到位[17] Agent投资逻辑 - 通用Agent需具备流量、模型能力、硬件、生态四大要素[34] - 垂直Agent是创业公司重要机会,已出现千万级ARR案例[35] - 未来可能由成百上千个小而美的Agent公司组成[8] - 投资聚焦生成式AI驱动的五大领域:内容生成、生产力工具、数据洞察、各类Agent、AI与物理世界交互[23][24][25][26][27] - 投资节奏加快,从年均5-6个项目增至每月1个[28] Agent基础设施 - Agent发展将带来记忆模块、执行环境等新基础设施需求[43] - Agent核心三要素:感知&记忆、决策、行动[45] - 记忆相关infra和执行环境是重要机会点[45] - 决策能力提升依赖模型进步[45] - 行动方面需关注工具调用能力[46] 商业模式演变 - 从SaaS"按用户月付费"转向"按调用量付费"甚至"按结果付费"[4] - 未来可能直接按交付结果收费[49] - 按结果付费是理想商业模式[54][55] - 广告行业从CPM到CPS的演变可作为参考[57] 全球化视角 - 中国创业者应从一开始就布局全球化[68] - 已有许多中国创业公司从创立第一天就是全球化[69] - 非主流市场创业者更具韧性[67] - AI使ToB公司更具可扩展性[66] 行业现状 - 投资市场存在泡沫但也找到坚实逻辑[61] - 优质创业公司供给不足导致估值过高[64] - 能穿越周期的公司需长期创造价值[62] - 现在是创业者下场的良好时机[64]
OpenAI连丢4位大将!Ilya合作者/o1核心贡献者加入Meta,苏黎世三人组回应跳槽:集体做出的选择
量子位· 2025-06-27 16:09
核心观点 - Meta近期从OpenAI挖走多名核心AI研究员,包括Trapit Bansal和苏黎世三人组(Lucas Beyer、Alexander Kolesnikov、翟晓华),加强其在推理大模型和多模态领域的布局 [1][10][11] - 公司同时推进语音AI初创公司PlayAI的收购谈判,并已招募语音AI专家Johan Schalkwyk,强化AR眼镜的语音交互能力 [23][24][26] - OpenAI创始人奥特曼公开回应称不担心人才流失,并暗示被挖人员并非其最优秀人才 [12] 人才流动 Trapit Bansal - 2022年加入OpenAI,与Ilya Sutskever合作推动大模型强化学习研究,是o1系统的核心贡献者 [1][6] - 谷歌学术引用量2883次,h指数16,多篇高引论文涉及多智能体强化学习和非平稳环境适应 [7][8] - 加入Meta新成立的超级智能部门,专注推理大模型研发 [2] 苏黎世三人组 - 原谷歌研究员,共同开发ViT架构(论文引用超6.5万次),开创Transformer视觉应用先河 [14][15] - 2023年被OpenAI集体挖走并成立苏黎世工作室,2024年6月又集体跳槽至Meta [10][20][21] - 成员背景:翟晓华(南京大学本科/北大博士)、Lucas Beyer(德国亚琛工业大学博士)、Alexander Kolesnikov(ISTA博士) [16][17][18] 战略布局 语音AI - 拟收购初创公司PlayAI(2024年获2100万美元融资),其技术目标是实现类人类的流畅语音对话 [24][25] - 此前已招募Seasame AI的Johan Schalkwyk,强化端侧语音模型能力 [26] - 行业推测Meta计划将语音AI整合至AR硬件生态 [27] 研究领域 - 推理大模型:通过Trapit Bansal加盟强化前沿技术探索 [2] - 多模态:苏黎世三人组持续深耕视觉-语言交叉领域 [14][20]
计算机行业重大事项点评:MiniMax:推理模型、Agent与多模态
华创证券· 2025-06-26 19:04
报告行业投资评级 - 推荐 [4] 报告的核心观点 - 6月17日MiniMax连续五天推出AI新品,涉及推理模型、视频生成模型、Agent、语音设计等产品,展示了其在多领域的技术实力和追赶国际巨头的能力,随着全球模型厂商能力提升,我国AI Agent商业化落地有望在2025H2提速,实现客户转化率与付费率双提升,建议关注海内外AI企业级服务及场景落地机会 [2][8][31] 根据相关目录分别进行总结 MiniMax:推理模型、Agent与多模态 - 6月17日MiniMax连续5天发布多款AI新品,覆盖推理、视频生成、智能体等领域 [11] MiniMax - M1:混合架构赋能性能升级 - 6月17日MiniMax发布并开源新一代推理模型MiniMax - M1,融合混合门控专家架构与Lightning Attention双技术框架,在性能与推理效率上显著突破,在长上下文理解等场景表现卓越,接近国际顶尖闭源模型能力并优化计算资源消耗 [12] - MiniMax - M1提出创新强化学习算法CISPO,训练效率高于DAPO和GRPO算法,该模型采用分层计价模式收费 [17] Hailuo 02:NCR模态助力性能成本双赢 - 6月18日MiniMax推出全新AI视频生成模型Hailuo 02,能根据文本或图像生成高清视频,支持1080p分辨率输出,单段视频最长10秒 [18] - Hailuo 02在国际AI视频生成模型评测中凭借NCR框架跻身前列,全球排名第二,且付费价格低廉,性价比高 [21] MiniMax Agent:多模态集成重塑智能体性价比 - 产品发布周期第三天,MiniMax推出通用型AI智能体MiniMax Agent,基于多模态大语言模型构建,集成多种能力,支持多智能体协同工作,已在公司内部完成近两个月测试,遵循人类智能标准研发,具备编程辅助等功能并支持MCP协议扩展架构 [26] - 通用Agent采用积分制收费,优惠期设基础会员和Pro会员,基础会员月费19美元,Pro会员月费69美元 [26] Voice Design:个性化定制的交互语音模块 - 产品发布周期间,MiniMax对语音大模型Speech - 02进行重要版本升级,优化语音合成设计功能并集成Voice Design模块,升级后语音合成质量显著提升 [28] - Voice Design可精确调控音色多方面,用户输入音色文本描述,模型能生成相应音色编码 [30] 投资建议 - 多模态模型发展快,我国AI Agent商业化落地有望在2025H2提速,建议关注A股AI应用方向,国内侧关注办公、营销等企业级服务及金融、教育等行业场景相关企业,海外侧关注办公、金融等多领域相关企业 [8][31][32]
三年跃迁中国AI凭什么逆袭美国?
36氪· 2025-06-26 10:29
中国AI技术发展现状 - 中美AI技术差距从2022年显著缩小至2025年不足三个月,中国AI实验室和企业取得巨大进步 [2] - DeepSeek R1模型(2025年5月)与OpenAI o3同获68分评分,阿里巴巴Qwen3 235B A22B评分47分,中美语言模型能力接近 [2] - 中国通过技术创新实现跨越,如DeepSeek R1采用强化学习优化推理能力,参数规模达671B(活跃参数37B),在MMLU-Pro等评测中表现优异 [2] 开放权重战略 - 中国头部实验室采用开放权重策略,与美国闭源形成对比,如阿里巴巴QwQ 32B Preview超越Meta Llama 3.1 405B成为最智能开源模型 [4] - 开放权重降低技术门槛,加速技术扩散并构建生态,如字节跳动Seedream 3.0吸引全球开发者二次开发 [7][8][9] - 阿里巴巴、腾讯、华为等企业2024-2025年陆续推出旗舰开源模型,形成技术共享共识 [9][10] 企业生态协同 - 大科技公司(阿里、腾讯、华为)提供底层模型和平台支持,如阿里ModelScope、华为Pangu系列配套芯片云服务 [16] - AI初创企业专注垂直领域:Moonshot AI专攻长文本处理,MiniMax优化轻量级边缘设备模型 [18] - 跨界玩家(小米、百度、360)将AI融入现有产品,如小米MiMo-7B增强小爱同学,360整合AI至安全软件和办公工具 [19][20] 多模态能力进展 - 中国图像生成模型快速追赶,字节Seedream 3.0(ELO 1111)接近Midjourney V6(ELO 1150),阿里Seedream系列优化中文提示支持 [22] - 视频生成领域中国加速突破,快手Kling 2.0(ELO 1053)和阿里Wan 2.1(ELO 1039)虽落后Google Veo 3(ELO 1247),但本土化应用突出 [25][26] - 大公司整合多模态能力:阿里ModelScope支持图像/视频功能,腾讯Hunyuan提供一站式多模态接口 [28][29] 中美AI竞争与合作 - 基础研究共享仍存空间,如Transformer架构和扩散模型曾依赖全球协作 [33] - 行业标准共建需求显著,中美共同参与联合国教科文组织等国际AI治理框架建设 [34][35] - 商业合作持续存在,中国企业需求英伟达芯片,美国企业寻求中国市场机会 [36]
2025 AI Cloud 100 China榜单发布:6个赛道,34家新上榜,DeepSeek、Manus上榜
Founder Park· 2025-06-25 19:23
2025 AI Cloud 100 China榜单核心观点 - 榜单聚焦GenAI商业落地企业,要求GenAI收入占比至少10%,其中38家企业GenAI收入占比超50% [5][9] - 新上榜企业34家,DeepSeek和百图生科首次上榜即进入前10名 [9] - 过去三届榜单累计10家企业成功上市,2024年有4家(合合信息、太美医疗、七牛云、多点Mall) [9] 榜单结构及赛道分布 - 赛道类别从10个精简为6个:AI基础设施、AI for Insight、AI for Productivity、AI for Real World、AI for Services、AI for Content [12] - AI基础设施赛道头部企业为DeepSeek(第1)、MiniMax(第2)、智谱AI(第3) [12][14] - AI for Productivity赛道新增企业最多(31家),AI基础设施赛道平均估值最高 [10][63] 融资与市场动态 - 全球AI融资额同比增长79.6%,占总融资额比例从21%升至37%,超大项目(>1亿美元)占比达69.2% [22] - 中国AI融资额同比下降14.2%,资金集中流向AIGC、自动驾驶、AI行业应用赛道 [24] - 中美云厂商加大投入:美国三大巨头2025年资本支出2500亿美元(+33%),阿里计划三年投资3800亿元(80%投向AI) [26] 技术发展趋势 - 大模型向"慢思考"演进,多模态成标配,AI应用从Copilot向Autopilot升级 [34][40] - AI for Content赛道中,多模态内容编辑/生成类产品占比47.8% [40] - 具身智能领域融资火热,但行业仍处基础模型竞赛初期 [44] 地域与企业特征 - 北京企业占榜单49家,其次为上海(17家)、杭州(12家)、深圳(7家) [59] - 独角兽企业33家,平均估值125亿元(低于2024年的139亿元) [10][61] - 头部企业Palantir(AI for Insight赛道)股价一年上涨4.5倍,市值达3240亿美元 [43] 未来五大趋势预测 1 从Copilot到Autopilot进化(如Cursor两年内完成转型) [48][49] 2 环境智能(Ambient)通过GenAI+硬件规模化商用 [51] 3 RaaS(Result as a Service)在效果广告等可量化场景率先落地 [53] 4 端侧AI随AI手机/AIPC普及加速发展 [55] 5 高质量数据推动具身智能从L0.5迈向L1应用 [57]