量子位
搜索文档
ChatGPT千亿tokens,干掉麦肯锡5000名顾问
量子位· 2025-10-21 11:38
文章核心观点 - 传统咨询行业正经历由AI驱动的深刻变革 咨询巨头积极部署AI工具以提升效率 但同时引发了大规模裁员和行业格局的重塑 [3][4][5][26][55] 麦肯锡的AI转型 - 麦肯锡因成为OpenAI的Tokens消耗大客户而获得奖牌 暗示其大量使用ChatGPT [1][3] - 公司通过收购QuantumBlack并在2018年将其整合为AI原生咨询部门 奠定了AI转型基础 [7][10] - 2023年推出内部AI平台Lilli 该平台基于超过10万份内部文件与访谈资料训练而成 [14][15] - Lilli能自动生成PPT 润色文本 撰写提案和整理汇报 大幅提升工作效率 [16][17] - 目前麦肯锡超过70%的员工(超过4万名)在日常工作中使用Lilli 平台每月响应问题数量突破50万条 [18] 波士顿咨询集团的AI策略 - 波士顿咨询集团在AI部署上更为激进 已研发出八九款内部AI工具 [21] - 工具包括用于制作PPT的Deckster和用于头脑风暴的语音助理GENE [23] - 公司将AI使用率纳入员工绩效考核指标 将其视为顾问的新核心竞争力 [23][24] - BCG约3 3万名员工中已有近90%在使用AI工具 其中约一半每天高度依赖AI工作 [25] AI对咨询行业人力资源的影响 - 自ChatGPT问世以来 麦肯锡已裁撤员工超过5000人 被裁率高达约10% 为公司历史上最大规模裁员之一 [27] - AI平台已承担起约30%的信息收集与整理任务 足以接管部分初级顾问的工作 [32][33] - 咨询行业入门级职位招聘受冲击最大 今年6月入门级顾问招聘数量同比暴跌54% [60] - 公司招聘策略转向 更倾向于直接聘用经验丰富的成熟人才 而非从零培养毕业生 [63][64] - 研究显示AI导致22至25岁群体就业率骤降13% 但以经验和洞察为核心的资深岗位更具韧性 [66][68] 新兴AI咨询业态的挑战 - OpenAI Anthropic等AI公司开始直接向企业提供解决方案 绕过传统咨询公司 [38] - 新兴的咨询科技公司利用AI自动化咨询流程 旨在用算法取代顾问 [39][41] - 例如Hasura公司的PromptQL平台可帮助企业打造专属AI分析师 并提供支持服务 每小时收费900美元 [45][47] - 此类AI咨询初创公司获得资本青睐 如Parable完成1660万美元融资 Dialogue AI完成600万美元融资 [49] - 这些初创公司已开始蚕食二线咨询公司的市场份额 为中小企业提供了成本更低的替代方案 [51][52] 隐性知识与行业未来 - 业内认为AI目前仅能连接全球2%至5%的隐性知识 无法完全取代人类顾问的洞察力 [69][70] - 咨询公司声称AI接管基础工作后 顾问将转向对客户更有价值的事务 [57] - 然而 咨询行业传统的职业上升路径正被AI部署和绩效标准收紧所破坏 年轻顾问的成长阶梯被逐阶拆除 [71][72]
我拿AI给神曲《八方来财》做了个MV,真的好魔性!
量子位· 2025-10-21 11:38
产品概述 - 中国电信推出面向公众的AI创作平台TeleStudio,支持AI视频生成[3] - 平台具备生成图片、生成视频和生成音效三大核心创作功能[7] - 目前平台处于限时免费阶段,支持最高2K清晰度、单次最长20秒的视频生成[5][6] 技术能力 - 平台基于自研星辰大模型,能精准理解文字、图像、声音间的复杂关系[40] - 依托智传网(AI Flow)技术,为AI任务提供高效、低延迟的算力调度和传输保障[41] - 支持文生视频、图生视频、角色视频和音乐生视频四种视频生成模式[13] 核心功能亮点 - “万物跳舞”特色功能允许用户通过简单指令让任何物体跳指定舞种,如民族舞、拉丁舞等[22][31][33] - “音乐生视频”功能可通过上传音频或歌曲,让静态图片根据声音内容生成动态视频,如让梵高开口唱歌[37][38] - 支持视频片段连贯生成,可将前一段视频的尾帧作为下一段的首帧,实现剧情延展[19][20] 市场定位与影响 - 平台显著降低内容创作门槛,让非专业用户也能通过简单描述实现创意[40] - 为专业创作者提供全新视觉表达工具,如让静态产品图跟随节奏跳舞[40] - 体现央企将前沿AI技术转化为普惠生产力的务实思路和强大实力[42]
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
量子位· 2025-10-21 07:34
核心观点 - DeepSeek最新开源模型DeepSeek-OCR采用创新的视觉压缩技术解决长文本处理算力爆炸难题实现以小博大的效能突破[1][5][12] - 该模型仅3B参数但在文档解析基准测试中达到SOTA水平通过将文本压缩为视觉token大幅降低计算开销[5][13][14] - 技术思路被行业专家评价为可能打开AGI大门并模拟人类记忆机制为无限长上下文处理提供新方向[9][10][36] 技术原理 - 核心组件包括DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器采用先局部处理再压缩后全局理解的串行设计[20][22][27] - 编码器支持从Tiny到Gundam多种输入模式可根据任务需求动态调整压缩强度使用100-800个视觉token实现高效处理[23][24][25] - 当压缩率小于10倍时模型OCR解码准确率高达97%即使压缩率达20倍准确率仍保持在60%左右[6] 性能表现 - 在OmniDocBench基准测试中仅用100个视觉token就超越每页使用256个token的GOT-OCR2.0模型[17] - 使用400个视觉token时与之前SOTA模型表现相当而使用不到800个token便大幅超越平均每页近7000个token的MinerU2.0[17] - 模型支持金融报表化学分子式数学几何图等复杂图像解析以及100多种语言的深度处理能力[25] 行业影响 - 研究公布后迅速在GitHub斩获3.3K starHuggingFace热榜第二X平台引发广泛好评[7] - 专家评价认为图像比文字更适合LLM输入并将该技术类比为AI的JPEG时刻开启记忆架构新路径[8][9] - 业内猜测该方法可能涉及谷歌Gemini核心商业机密的开源体现技术的前沿性和颠覆性[1][10] 创新拓展 - 团队提出用光学压缩模拟人类遗忘机制通过动态分配计算资源构建无限长上下文处理架构[36][37][41] - 该机制将近期记忆渲染为高分辨率图像远期记忆渐进压缩实现信息自然遗忘更贴近人类智能[41][39] - 研究虽处早期阶段但为超长对话和文档处理提供新思路解决传统方法计算资源暴涨问题[38]
马斯克要让Grok全面接管x,彻底剔除人类规则推荐算法
量子位· 2025-10-21 07:34
X平台算法重大变革 - 公司将在未来几周内彻底移除启发式推荐算法,由AI助手Grok全权接管内容推荐 [1] - Grok将通过阅读和观看全部内容的方式,实现全自动的用户兴趣匹配 [1] - 用户可对Grok提出请求,动态调整内容推荐,实现更高程度的个性化定制 [7] - 此次更新旨在让新号发布的优质内容更容易被看见,并让用户更能定制自己的信息流 [9] 新旧算法模式对比 - 现有启发式算法依赖人类制定的规则,如点赞数、转发量、发帖频率、用户历史行为等指标判断内容质量 [11][13] - 启发式算法容易导致大号内容获得高曝光,而新号或小号的优质内容难以触达用户,形成内容垄断 [13] - 新算法基于Grok的AI能力,可逐条分析帖子和视频,根据个人兴趣进行个性化推送,促进小号内容的公平发现 [15] - 单纯发布无文字链接的内容将难以获得推荐,添加精彩标题、图片或背景信息有助于提升内容曝光度 [8] 行业影响与市场反应 - 若计划实施,X将成为首个完全抛弃启发式算法的大型社交平台,在行业内具有首创性 [2] - 部分用户期望此次更新能解放小号、打破内容垄断,另一些用户则担忧算法消失后优质账号将失去曝光红利 [9] - 有用户表达了对高度算法化内容分发模式的担忧,希望互联网能保留更多"活人感",而非完全由算法决定内容呈现 [17] - 此次变革被视为AI在内容分发领域扮演更核心角色的标志性事件,反映了互联网内容生态向AI驱动的加速转变 [16][18][20]
AI正在改写地图APP!这一次轮到谷歌了
量子位· 2025-10-20 19:45
谷歌Gemini API集成谷歌地图功能 - 谷歌向所有开发者开放Gemini API调用谷歌地图工具 实现应用位置感知功能整合 [1] - 开发者可通过API接入谷歌地图庞大地理数据库 包含2.5亿个地点信息 [2] - 支持模型包括Gemini 2.5 Flash-Lite、Gemini 2.5 Pro、Gemini 2.5 Flash和Gemini 2.0 Flash(不含2.0 Flash Lite) [5] - API按查询次数收费 当前费率为每1000条有事实依据的提示25美元 若单次发送多个查询仅计为一次请求 [5][6] 功能应用场景与用户体验 - 功能适用于餐馆推荐、路线规划、房产选址、旅行行程规划等基于实时地图数据的AI应答 [3] - 谷歌AI Studio负责人演示语音请求AI推荐芝加哥意大利餐厅 并成功通过三种拼写方式找到特定餐厅 [9][10][13] - 功能具备个性化、可视化特点 用户可查询当日营业时间及路况等实时信息 [14][16] - 所有用户可在谷歌AI Studio体验新功能 支持自定义模型、语音及系统提示词 [19][23] 行业竞争与空间智能发展 - 高德地图作为国内玩家早在谷歌之前尝试AI+地图 聚焦空间智能落地战略 [31][33] - 高德地图今年7月推出小高老师智能体 9月推出高德扫街榜 覆盖119万家回头店 [34][39] - 高德扫街榜数据基于近一年5370万人的13亿次导航 对应里程232亿公里 相当于绕地球58万圈 [39] - AI正让地图从导航工具变为空间智能体 具备预测用户需求能力 完成从静态工具到动态智能空间的升维改造 [41][42][44]
拍个照就能测秃头等级?蚂蚁这AI医疗App我体验了一下
量子位· 2025-10-20 19:45
文章核心观点 - 蚂蚁集团推出的AI医疗产品“AQ”并非单纯提供医疗AI工具,而是以“看病”需求为核心,利用AI能力整合了从问诊、识别、科普到购药、支付、医保查询及本地配送的全场景服务闭环,显著提升了用户体验和流程效率 [2][40][41][42] 产品功能与体验 - **问诊流程与诊断能力**:产品问诊流程模拟真实就医过程,支持文字与图片输入,能对皮肤问题(如痤疮)、心电图、舌象等进行识别分析,诊断结果与三甲医院结论相近 [13][16][17][34] - **多模态识别能力**:支持皮肤检测(肤质、肤龄、水油度等)、舌象分析(气虚、阳盛等)、报告解读(血常规、心电图)及药品识别(药盒拍照),但无法解读CT等硬核医学影像 [30][33][34][37][38] - **内容专业性与辅助功能**:诊断建议附带“AQ智库”知识库,内容经专业医生审核并标注专家署名及论文出处,面对急症时会优先安抚情绪再提供步骤指导 [18][20][21][25][40] 生态整合与场景闭环 - **支付宝生态深度整合**:产品内可无缝跳转至支付宝完成挂号、购药、医保查询及支付,将原本多级菜单的复杂流程大幅简化,形成了高效的内部服务闭环 [4][11][26][41] - **提升用户体验与粘性**:通过将看病流程拆解并嵌入用户熟悉的App使用习惯,提供了便捷的一站式健康管理服务,增强了用户对支付宝生态的依赖 [40][42] 产品优势与市场定位 - **便捷性与实用性**:产品在常见小病问诊(感冒、痘痘)、报告解读、药品识别、夜间应急咨询及老人语音交流等场景下实用性强,能有效节省用户时间 [10][44][45] - **差异化竞争力**:通过整合问诊、识别、购药、医保等全链条服务,构建了比单一AI问诊工具更完整的场景闭环,形成了独特的竞争优势 [2][11][42] 当前局限与用户反馈 - **诊断深度与个性化不足**:部分诊断结论较为笼统,缺乏个性化建议,且有些功能仅凭用户文字输入即可推断,多模态分析的附加价值存疑 [12][22][23][24] - **功能边界存在局限**:无法处理CT等复杂医学影像识别,在硬核医疗诊断方面仍需依赖专业医疗机构 [12][36][37] - **隐私担忧**:有用户对健康数据在大型生态平台内的使用提出了隐私方面的关切 [43]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-20 18:29
让我们共同见证年度之星,点亮未来的方向。 组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行的 企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现并 致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人 ...
Vidu Q2携「王炸」登场!杀手锏「参考生」功能全球上线,APP体验全面革新
量子位· 2025-10-20 18:29
Vidu Q2参考生功能升级 - 参考生功能于10月21日正式上线,具备高一致性、更快速度和更优惠价格的特点,且无需邀请码即可使用[13] - 生成速度对比上一代Vidu Q1参考生快了3倍,大幅提升创作效率[40] - 支持多主体一致性控制,例如同时处理人物、九尾狐和鱼三个主体且保持原图一致[30][33] 视频延长功能突破 - 视频延长功能首次在网页端单独上线,免费用户最长可生成30秒视频,付费用户最高可延长至5分钟[3][20] - 延长功能支持文生视频、图生视频和参考生视频等多种生成方式[20] - 用户可节选任意视频帧或上传图片进行延长,每次延长时长可在1-7秒间任意选择[21][23] AI视频生成技术进展 - 视频生成画质保证1080p高清晰度,且有效避免主体畸变[17][35] - 具备强大的语义理解能力,能精准实现Prompt要求的复杂场景转换,如人物眼睛自然过渡到星河效果[27][29] - 支持多角度运镜控制,例如从正面拉近、左右移动、上下切换等,满足商品展示等专业需求[36][38] Vidu APP平台化转型 - APP从AI创作平台升级为一站式AI内容社交平台,集成创作、互动和分发功能[4][12] - 新增“二次创作”功能,用户通过@主体+一句话即可生成合拍视频,无需复杂提示词,大幅降低创作门槛[7] - 平台内置海量主体库,包括人物、动物和特效等素材,用户可直接调用生成视频[8] 商业化应用前景 - 技术升级推动AI视频生成进入复杂叙事阶段,满足内容创作和公司对高一致性、长时间及高清的需求[24][42] - 电商行业可快速生成商品展示短片,例如用静态产品图片结合简单Prompt生成动态营销视频,降低制作门槛和成本[43][45][47] - 移动端升级使个人用户可随时随地实现创意,通过简单操作将想法转化为视频内容[47][48]
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
量子位· 2025-10-20 18:29
技术方案与核心创新 - 提出名为Mem-α的强化学习框架,用于训练大语言模型智能体自主管理复杂的记忆系统[2] - 采用数据驱动的强化学习方法,让模型在交互中自主学习最优记忆管理策略,而非依赖预设指令[4] - 将记忆构建问题转化为可通过强化学习优化的序列决策问题,实现端到端的优化[14] - 训练时智能体依次处理信息块并决定记忆操作,通过下游任务表现获得反馈进行优化[16] 技术背景与现有挑战 - 大语言模型智能体受限于有限的上下文窗口,使得外部记忆系统对长期信息理解至关重要[5] - 即使支持100万tokens的模型如GPT-4.1,在长期交互中也会因窗口增长导致成本激增和延迟增加[6] - 当前记忆增强智能体依赖预定义指令和工具进行记忆更新,缺乏决定存储内容、组织结构和更新时机的能力[7][8] - 传统方法导致次优记忆构建和信息丢失,严重影响智能体在长期交互中的表现[9] 记忆系统架构设计 - 设计包含三种记忆类型的复杂系统:核心记忆(容量512 tokens)、情景记忆(记录带时间戳的事件)和语义记忆(存储结构化知识)[20][22] - 每种记忆类型支持插入、更新、删除操作,智能体需学习在适当时机选择合适工具和记忆类型[23] - 记忆系统灵感来源于认知科学中的记忆分类理论,涵盖持久信息、事件记录和结构化知识[20] 实验性能与效果验证 - 在30k tokens上训练后,模型在验证集上问答准确率等指标显著提升[27] - 主实验显示Mem-α在MemoryAgentBench上全面超越现有方法,平均性能达64.2%[29][33] - 相比Long-Context和RAG-Top2,记忆占用减少约50%的同时保持更优性能,在BookSum等任务上压缩效果更佳[35] - 训练仅使用平均<30K tokens的文档,成功泛化到超过400K tokens的文档,最长泛化至474K tokens[35] 技术突破与行业意义 - 证明在LLM智能体记忆管理领域,学习胜过工程,传统需精心工程化的系统组件可通过端到端学习优化[34][35] - 结构化架构必要性得到验证,扁平记忆基线性能明显受限,凸显分层记忆设计和强化学习优化的有效性[35] - 展现出对未见分布的强泛化能力,在精确检索和长期理解任务上表现尤其突出[35]
宇树最新机器人发布:1米8大高个,能跳舞会功夫,就是颜值一言难尽
量子位· 2025-10-20 18:29
文章核心观点 - 宇树科技发布其第四款人形机器人Unitree H2,该产品在形态上更接近真人,并首次增加了仿生人脸设计,但在外观上引发了部分用户的负面反馈[1][4][5][9] - H2在技术性能上相比前代产品有显著提升,特别是自由度增加至31个,使其动作展示更为舒展,并在功夫、走秀等场景中表现出良好的协调性与稳定性[13][23][24][32][33] - 公司通过宣传视频重点展示了H2在舞蹈、功夫和走秀三个方面的能力,但部分展示效果与用户对“优雅”的预期存在差距,同时用户更关注机器人未来在洗衣、做家务等实用场景的应用[19][24][25][37] 产品发布与基本信息 - Unitree H2于2025年10月发布,是宇树科技的第四款人形机器人,定位为“仿生人形机器人”[1][12][13] - H2身高180厘米,体重70公斤,比同身高但体重47公斤的H1重了23公斤[1][13] - 该产品全身拥有31个自由度,相比H1的19个自由度有大幅提升[13][15][24] - 产品价格信息尚未公布[13] 产品设计特点 - H2在外观上的最大变化是增加了仿生人脸设计,使其整体形态更接近真人[4][5] - 宽肩窄腰的体形设计意味着电池和控制板需要集成在胸部空间[2] - 部分用户对仿生人脸设计的美感不买账,认为其引发“恐怖谷效应”,感觉诡异[7][9][10] - 社交媒体上有用户直接批评面部设计,例如“fire whoever designed the face please”[11] 技术性能与展示 - 宣传视频展示了H2在跳舞、功夫和走秀三个方面的能力[19] - 在舞蹈展示中,H2能完成“爱的魔力转圈圈”等动作,但由于动作缺乏情感注入,被部分网友形容为“像喝醉的人在乱比划”或“僵尸在跳舞”[21][24][25] - 在功夫展示中,H2表现出色,能完成重拳出击等动作,其表现力、稳定性和协调性与身高130厘米的G1机型几乎无异,显示出公司在机器人鲁棒性和协调性技术上的提升[26][27][29][32][33] - 在走秀展示中,H2穿上衣服后走路姿态协调自然,从背面看很有仿生人的感觉,戴上帽子后减轻了恐怖谷效应[33][35][37] 市场定位与产品线 - 宇树科技人形机器人产品线包括H1(高端通用)、G1(未明确)、R1(多功能中端研发平台/入门消费级)和H2(仿生机器人)[13] - H1发布于2023年8月,售价65万元;G1发布于2024年5月,售价9.9万元;R1发布于2025年7月,售价3.99万元[13] - H2在两个月前已通过海报预告,海报信息(身高180cm、九头身、31个自由度)与最终官宣视频内容一致[14][15][18] - 海报关键词“敏捷”、“优雅”与H1在春晚上因动作笨拙被戏称为“太奶机器人”形成对比,但H2的舞蹈表现仍被部分认为与“优雅”有距离[16][23][24] 用户反馈与期望 - 综合各大平台评论区,用户普遍对H2的发布表示高兴,但更关心机器人何时能应用于洗衣服、做家务等实用家庭场景[37] - 视频结尾引用了达芬奇名作《维特鲁威人》,暗示对“完美比例”的追求,与《西部世界》的宣发手法类似[39][41]