Workflow
AGI
icon
搜索文档
大模型淘汰赛开启,智谱能笑到最后吗?
36氪· 2025-08-13 20:22
行业竞争格局变化 - DeepSeek爆红后 AI六小虎(智谱 月之暗面 百川智能 MiniMax 阶跃星辰 零一万物)声量下滑 零一万物与百川智能放弃大参数模型转向应用 形成"四小强"竞争格局 [1] - 月之暗面 Minimax和智谱近期更新底座大模型以维持竞争力 智谱GLM-4.5在推理 代码 智能体综合能力达开源模型SOTA水平 [1] - 行业出现整合趋势 零一万物创始人预测国内基座大模型最终仅剩DeepSeek 阿里巴巴 字节跳动三家 投资界认为市场仅容留性能与成本前二至三名的玩家 [10] 智谱技术进展 - 推出GLM-4.5系列6款大参数模型 其中GLM-4.5V为106B总参数视觉推理模型(激活参数12B) 号称全球100B级效果最佳开源视觉推理模型 [1][3] - GLM-4.5实现推理 编码和智能体能力原生融合 在多个评测基准中获全球模型第三 国产模型第一 开源模型第一成绩 [4] - 展示强Agent编程能力 可一分钟生成可运行搜索引擎 构建社交媒体网站及游戏应用 [6] - API调用成本显著降低 输入价格百万tokens仅0.8元 输出为2元 提供50元1万亿token资源包 [7] 融资与资金状况 - 2025年完成五轮融资超30亿元人民币 投资方包括浦东创投集团 张江集团 北京市人工智能产业投资基金 成都高新区 华发集团 杭州城投 上城资本等国资背景机构 [10][11] - 当前估值突破400亿人民币 成国内估值最高大模型创业公司之一 [16] - 2024年行业AI赛道融资额同比下降14.2% 大模型技术层融资金额92.98亿元 不足AIGC赛道三分之一 [12] - 2024年公司收入约3亿元 亏损约20亿元 模型预训练年成本超2亿美元 [14] 商业化挑战 - 主要收入来源为B端私有化部署服务(API调用 MaaS平台 行业定制) 但交付周期长 规模复制性差 且受DeepSeek等竞争对手挤压 [16][18] - C端APP"清言"2025年3月月活1043万 居AI产品榜第10 远低于豆包(9736万) DeepSeek(7701万) Kimi(2649万) [19][20] - 2024年商业化收入实现100%以上增长 MaaS平台API年收入增超30倍 但仍未盈利 [16] - C端市场面临用户付费意愿有限问题 需依靠烧钱投流换取增长 [19] 战略布局与风险 - 正式启动A股与港股IPO进程 由中金公司辅导 计划2025年10月完成辅导 动机包括现金流压力 一级市场估值已达440亿元 以及IPO审核趋严背景 [14] - 发力Agent产品线 推出个人端AutoGLM沉思Agent与企业级CoCo Agent 但面临技术限制(如报告仅支持文本输出)及百度 字节等大厂竞争 [21] - 2024年起多名核心管理层离职 包括首席战略官 副总裁等6名高管 人才流失对公司稳定性与创新性构成挑战 [23]
对谈 Memories AI 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds
海外独角兽· 2025-08-13 20:03
文章核心观点 - Memoriesai致力于构建基础性视觉记忆层,目标是成为所有AI的"海马体",通过LVMM(大型视觉记忆模型)实现对无限量视频数据的压缩、索引和查询 [2][8][9] - 当前AI的记忆本质是"上下文工程",而真正的类人记忆应是视觉化的,视觉记忆与文本记忆在数据特性(数据量、信噪比)上存在根本差异 [13][14][18] - 构建PB级基础设施能力是打造全球视觉记忆的护城河,公司已建立亿级视频数据库并实现规模化运行 [28][29][30] - 视觉记忆技术将赋能多模态AI助手和人形机器人,成为实现高度个性化服务的关键组件 [21][39][40] Memoriesai的视觉记忆技术与多模态AI应用路径 - 公司定位为B2B基础设施提供商,通过LVMM系统解决视频数据特有的海量存储(单日视频数据超5GB)和低信噪比问题 [8][20][22] - 技术路径区别于text-to-video生成类公司,专注于video-to-text理解领域,解决B2B场景的长链路需求 [12][17] - 视觉记忆系统包含解压层、聚合模块和服务层,采用类脑架构模拟人类记忆的压缩、索引和检索机制 [27][28] LVMM的人类记忆模拟机制 - 系统设计受人类记忆类型(语义/程序性/情景记忆)启发,但尚未实现人类水平的连续学习和记忆重构能力 [25][26] - 关键技术突破包括:基于范式的token聚合、视觉检索模型(VRM)和亿级数据库的实时问答能力 [27][29] - 当前系统在信息重要性判断(retrieval & reranking)环节已接近人脑机制,但抽象能力仍存在差距 [26][27] 大规模视频记忆的基础设施与VRM技术路径 - 采用非端到端架构,通过分布式数据库处理增长性数据,技术路径区别于Gemini等有上下文限制的模型 [28][29] - VRM技术超越RAG(检索增强生成)框架,直接对视觉数据进行token化处理,要求更高的基础设施能力 [29][30] - 团队核心成员来自Meta Ads Team,具备处理亿级数据库的工程经验,实现从演示到规模化运行的跨越 [30] 视觉记忆技术的多行业应用 - 安防领域:实现实时行为检测,应用于商场人流量统计、餐厅翻台率等B2B场景,覆盖零售/楼宇/停车场等 [34][35] - 媒体领域:为短剧提供毫秒级人物信息分析、自动剧本生成和视频再利用解决方案,提升内容生产效率 [35][36] - 视频营销:建立TikTok视频索引库(超100万条),提供创意引擎和网红达人搜索服务,优化内容策略 [35][41] 视觉记忆技术的隐私合规与未来应用方向 - 通过SOC 2 Type 1/2和GDPR合规认证,建立受监管的数据处理体系 [38] - 未来最大应用场景为AI助手和类人机器人,通过视觉记忆实现人机情感连接和个性化服务 [39][40] - 现阶段聚焦B2B基础设施赋能,长期可能通过开源或示范应用推动生态建设 [40][41]
用户集体「退货」,奥特曼终于让旧版回归,年度最失望AI留下了什么
36氪· 2025-08-13 19:08
熹妃,回宫! 在全球用户的强烈呼声下,OpenAI 不得不让旧模型悉数回归,真是一出大戏啊。 Sam Altman @ @ @sama · 1h Updates to ChatGPT: You can now choose between "Auto", "Fast", and "Thinking" for GPT-5. Most users will want Auto, but the additional control will be useful for some people. 现在 GPT-5 Thinking 的速率限制为每周 3.000 条消息,超过后会在 GPT-5 Thinking mini 上提供额外容量。GPT-5 Thinking 的上下文限制为 196k 令牌。 我们可能会根据使用情况随时间调整速率限制。 4o 现在默认对所有付费用户在模型选择器中可用。如果我们将来要弃用它,会 提前充分通知。付费用户现在在 ChatGPT 网页设置中还有一个"显示更多模 型"开关,打开后会增加像 o3、4.1 和 GPT-5 Thinking mini 这样的模型。4.5 仅对 Pro 用户开放 ...
DeepMind哈萨比斯:智能体可以在Genie实时生成的世界里运行
量子位· 2025-08-13 15:02
世界模型与Genie 3技术进展 - Genie 3能实时生成可交互的虚拟世界并让智能体在其中运行,标志着世界模型技术取得突破[3][5][35] - 世界模型需理解物理规律、材料特性及生物行为,这是实现AGI的必要条件[33][34] - Genie 3已实现720p分辨率、多分钟交互时长及可导航的提示性世界事件生成能力[32] DeepMind发展动态 - 公司研发节奏持续加速,几乎每天都有新成果发布,包括DeepThink、IMO金牌模型等里程碑[9][15][18] - 智能体系统从早期游戏领域扩展到多模态模型,现正通过整合思考规划能力向AGI迈进[24][25] - 强化学习仍是核心技术路径,2010年至今持续投入并验证其可扩展性[27][28] AI能力评估与Game Arena平台 - 现有模型表现参差不齐:IMO金牌级数学能力与高中基础题错误并存[11][29] - 行业亟需新评测基准,需覆盖物理直觉、多目标优化等更复杂维度[13][45][46] - Game Arena平台通过数千款游戏动态测试AI能力,支持模型间对抗与自动难度调整[47][48][53] 工具整合与系统进化 - 工具使用能力成为AI新扩展维度,需平衡内置功能与外部工具调用[63][64][66] - 模型正向系统级进化,能组合调用数学软件、搜索引擎等工具完成复杂任务[68][69] - 产品设计需预测技术发展节奏,保持架构灵活性以适应快速迭代[72] 技术融合与AGI路径 - Genie、VO、Gemini等模型正朝"全能模型"方向融合,形成统一能力体系[75][76] - AGI需具备自主转化人类意图为动态奖励函数的能力,解决多目标优化难题[23][60] - 物理模拟器可能成为关键工具,帮助AI理解并操作现实世界[33][63]
AI商业化落地逻辑不变,科创AIETF(588790)冲击3连涨,涵盖模型+算力+应用,备受市场关注
新浪财经· 2025-08-13 10:13
市场表现 - 上证科创板人工智能指数(950180)上涨0 43%,成分股晶晨股份(688099)上涨7 62%,优刻得(688158)上涨2 21%,航天宏图(688066)上涨1 94%,奥普特(688686)上涨1 65%,奥比中光(688322)上涨1 50% [3] - 科创AIETF(588790)上涨0 46%,冲击3连涨,最新价报0 66元,近1周累计上涨2 82% [3] - 科创AIETF近6月净值上涨5 60%,居可比基金第一,自成立以来最高单月回报为15 59%,最长连涨涨幅为26 17%,上涨月份平均收益率为9 25%,历史持有6个月盈利概率为100 00% [7] - 科创AIETF近3个月超越基准年化收益为2 48%,排名可比基金前2/6 [7] 流动性及资金动向 - 科创AIETF盘中换手1 31%,成交9252 41万元,近1周日均成交5 22亿元,排名可比基金第一 [3] - 科创AIETF近1周份额增长3 63亿份,新增份额位居可比基金1/7,最新资金净流出8774 59万元,但近5个交易日内有4日资金净流入,合计"吸金"3 48亿元,日均净流入达6967 06万元 [7] - 科创AIETF最新融资买入额达3428 99万元,最新融资余额达8 53亿元,显示杠杆资金持续布局 [7] 行业趋势与投资逻辑 - AI商业化落地逻辑不变,国内AI应用投资已进入第二阶段,GPT5成为规模化落地的关键拐点,模型幻觉下降将增强AI在医疗、教育、金融等高信任度场景的适用性,更低的调用成本有望加速中小开发者和垂类应用爆发 [4] - 国产大模型更新及AI软硬件新产品周期推动应用端持续发力,建议关注覆盖人工智能全产业链的科创AIETF(588790) [4] - 上海证券强烈看好AI应用驱动的算力需求持续高增长,海内外AI应用进入普及拐点,国内外算力产业链共振,海外算力产业链需求旺盛 [5] 基金与指数概况 - 科创AIETF最新规模达70 34亿元,创成立以来新高,位居可比基金1/7 [6] - 科创AIETF管理费率为0 50%,托管费率为0 10%,费率在可比基金中处于较低水平,近1月跟踪误差为0 009%,跟踪精度最高 [10] - 上证科创板人工智能指数前十大权重股包括寒武纪(688256)、金山办公(688111)等,合计占比67 36% [10] 财务与估值 - 指数2025年预测净利润高达128亿元,同比增长96 34%,估值回到正常区间,2025年半年报业绩中前十大权重股净利润保持高增长态势 [4] - 科创AIETF成立以来相对基准回撤0 40%,近1个月夏普比率为1 21 [8][9]
深聊GPT-5发布:过度营销的反噬与AI技术突破的困局
虎嗅· 2025-08-12 17:05
GPT-5技术评估 - GPT-5未实现颠覆性技术突破,Transformer架构的弱点进一步暴露,包括PPT图表错误、代码bug和理论解释问题[1] - 模型开发遭遇技术瓶颈,最终选择改良架构而非革命性方案,Scaling law面临碰壁[1] - 技术路径上人类仍需寻找突破AI发展瓶颈的新方法[1] 商业化战略 - OpenAI采取激进商业化策略,重点布局教育、健康医疗和编程三大应用场景[1] - 公司通过快速场景落地来稳固市场地位,GPT-5被定位为"合格的AI产品"而非颠覆性创新[1] 行业影响 - GPT-5发布引发对AI泡沫破灭的讨论,行业面临技术创新放缓的质疑[1] - 当前AI发展进入平台期,技术突破速度低于市场预期[1]
GPT-5数字母依然翻车,马库斯:泛化问题仍未解决,Scaling无法实现AGI
36氪· 2025-08-12 11:57
GPT-5性能缺陷 - GPT-5在简单字母计数任务中表现异常,例如将"blueberry"中的b错误计数为3个[1][5][7] - 即使通过多种提示策略纠正(如展示字母位置、直接拼写单词),模型仍坚持错误答案并给出不合理解释(如"double b")[5][7][9] - 中文测试同样失效,例如将"blueberry"中的e错误计数为3个[13] 多模态与逻辑推理漏洞 - 在多模态场景中,GPT-5无法识别人工修改的图片(如5条腿的斑马、3条腿的鸭子),仍按常规对象计数[21] - 逻辑推理能力存在缺陷,包括伯努利原理演示错误、国际象棋规则违反(4回合出现非法移动)[15][16] - 阅读理解任务也被发现存在明显错误[19] 学术批评与路线争议 - 学者指出GPT-5存在"分布漂移问题",其泛化能力与1998年神经网络相似,30年未解决[26][30] - 批评认为Scaling Law无法实现AGI,Transformer架构存在根本局限[30] - 神经符号AI(Neuro-symbolic)被提议为解决泛化问题和实现AGI的替代路径[31] 用户反馈与厂商应对 - 用户通过持续交互可使GPT-5给出正确答案,但模型仍坚持最初错误的逻辑(如声称混淆了虚构单词"blueberry")[12] - OpenAI因用户批评紧急恢复GPT-4o模型下线[26]
刚刚,OpenAI内部推理模型斩获IOI 2025金牌,所有AI选手中第一
36氪· 2025-08-12 11:51
OpenAI内部推理模型的竞赛表现 - OpenAI内部推理模型在国际信息学奥林匹克竞赛中获得金牌,总排名第6位,在AI参赛模型中排名第1位 [1][7] - 该模型在330名参赛选手中位列第6,前5名均为人类选手 [8][11] - 模型沿用此前获得国际数学奥林匹克竞赛金牌的相同版本,未针对IOI进行专门训练 [5][12] - 竞赛设置与人类选手相同的条件:5小时时间限制、最多50次提交次数、无联网支持 [1][11][12] 模型技术特点与进展 - 该推理系统仅能访问基本终端工具,未使用联网功能或RAG搜索技术 [12] - 相比去年IOI比赛成绩仅略低于铜牌分数线,今年排名从第49百分位跃升至第98百分位 [12] - OpenAI评估发现该IMO金牌模型在编程等多个领域均为当前最佳模型 [5] - 模型采用"草莓"作为代表形象,这一形象可能进化为OpenAI内部推理系统的官方代表 [2] 商业模型对比表现 - 主流商业模型在IOI竞赛中表现较差,准确率最高仅为26.2% [15][16] - Grok 4以26.2%准确率领先商业模型,其次是GPT-5(20.0%)、Gemini 2.5 Pro(17.1%)和Claude Opus 4.1(15.2%)[16][17] - 测试发现只有每道问题成本超过2美元的昂贵模型才能取得有意义的表现 [17][18] - OpenAI内部推理模型性能远超公众可接触的商业模型 [20] 行业竞争格局分析 - AI巨头热衷于权威竞赛排名,将其作为直接有效的营销手段 [24] - 竞赛排名与模型的通用性能和应用潜力高度相关,代表技术优势 [24] - 排名领先有助于提升品牌形象、吸引公众关注和增强用户信任 [24] - 行业高度竞争性和技术快速迭代驱动企业持续参与竞赛较量 [24][27] - 竞赛胜出能够显著提高对人才和资本的吸引力 [24]
1亿美元买不走梦想,但只因奥特曼这句话,他离开了OpenAI
36氪· 2025-08-12 11:27
AI行业投资与人才竞争 - 全球AI基础设施资本开支已达3000亿美元[48] - Meta为顶级AI人才提供1亿美元签约费进行挖角[2][8] - Anthropic每年资本开支增长一倍[7] AI技术发展现状与趋势 - Scaling Law依然有效 模型发布节奏从一年加速至每月或每三个月发布新模型[10] - 单位智能成本通过算法改进下降10倍[59] - Claude Code团队用AI完成95%代码 客服领域AI工具自动解决82%客户请求[26] 变革性AI与经济影响 - 经济图灵测试定义为AI通过50%薪资计算岗位的测试时标志变革性AI到来[20] - AI发展可能导致高达20%失业率 尤其影响白领工作[21] - 2024-2026年人形机器人硬件成本将降至两万美元 2027-2028年可能迎来技术奇点[57] AI安全与研究投入 - 全球全职研究AI对齐问题的科学家不足千人[1][48] - Anthropic采用宪法式AI方法 将联合国人权宣言等原则嵌入模型[49] - Anthropic定期发布模型"犯罪记录"以促进行业透明进步[57] 企业战略与文化差异 - Anthropic团队氛围强调"没有大佬光环 大家只想做对的事"[8] - OpenAI曾存在安全 研究和创业三大阵营制衡机制 被质疑安全优先级降低[39][40] - 2020年底OpenAI安全负责人团队集体出走创办Anthropic[35][40] 技术瓶颈与资源限制 - 行业面临算力饥荒 需要10倍电力才能支持GPT-5级别模型[61] - 7nm芯片物理极限逼近 算法进步速度放缓[61] - 高质量训练语料即将耗尽 AI可能陷入自我抄袭循环[61]
廉价版MacBook售价曝光/OpenAI CEO:AGI是个没什么用的术语/雷军征集小米YU7改名意见
搜狐财经· 2025-08-12 11:11
小米汽车 - 公布碰撞检测方法专利,通过终端速度变化信息检测交通工具碰撞状态并触发报警 [1][11] - 小米YU7标准版续航达835公里,搭载700 Tops算力英伟达Thor芯片和激光雷达,1.6万用户投票中1.1万人反对改名Pro/Max版 [12] 智谱AI - 开源106B参数多模态模型GLM-4.5V,在41个视觉榜单中达到同级别开源模型SOTA性能,支持图像/视频/GUI任务等全场景推理 [13][14] - 新增"思考模式"开关,同步开源桌面助手应用支持实时截屏录屏分析 [14] 百川智能 - 开源医疗增强大模型Baichuan-M2,在HealthBench评测以60.1分反超OpenAI的gpt-oss120b(57.6分)登顶开源模型第一 [17][18] - 量化后模型可在RTX4090单卡部署,成本较DeepSeek-R1 H20降低57倍,急诊场景token速度提升74.9% [18] 奇瑞汽车 - 消息称玛莎拉蒂和阿尔法·罗密欧将采用奇瑞E0X电动平台开发新能源车型,路虎Freelander首款SUV已采用该平台 [20][21] 昆仑万维 - 发布SkyReels-A3数字人模型,支持60秒单分镜视频生成,在唇形同步指标上超越OmniAvatar等开源模型 [24][25] 广汽埃安 - 计划投资华为合作公司华望汽车不超过30%股权,首款高端智能车型预计2026年面世 [26][28] 阿里达摩院 - 开源机器人协议RynnRCP及VLA模型RynnVLA-001-7B,支持从传感器数据到机械臂动作的全流程适配 [31][33] 宇树科技 - 人形机器人降价至3.99万元起,CEO王兴兴预测具身智能的"ChatGPT时刻"或需2-5年实现 [34][35] 苹果 - 供应链称廉价版MacBook将搭载A18 Pro处理器而非M系列,配备12.9英寸屏,组件2025年Q3末量产 [3] - 2025年Q3 Mac销售额达80亿美元同比增长15%,M4 MacBook Air为增长关键 [3] 制糖工厂 - 推出68W C³充电器,体积缩小至掌心大小,支持三设备同时充电,即日起至8月31日开展抽奖活动 [4][5] 追觅科技 - 将发布全球首款双机械臂洗地机,引入具身智能理念实现AI双臂协同清洁 [40][41] 荣耀 - 与Jimmy Choo合作推出Magic V Flip 2高定版折叠手机,采用水晶镶嵌工艺背板 [43][44] 华硕 - a豆14 Air香氛版搭载AMD锐龙9 H270 AI处理器,总AI算力39 TOPS,配备2.8K 120Hz OLED屏 [47][48] 他山科技 - 机械手已应用于工业线缆插取等精细作业,预计2025年实现小龙虾预处理自动化,可节省县级市数亿元人力成本 [53][55] 电影行业 - 《F1:狂飙飞车》内地票房破4亿元,密钥延期至9月26日,全球票房达5.707亿美元 [61]