Workflow
通用人工智能(AGI)
icon
搜索文档
一文看懂多模态思维链
量子位· 2025-03-25 08:59
多模态思维链(MCoT)系统综述 核心观点 - MCoT通过整合图像、视频、音频、3D模型等多模态数据,实现接近人类思维的跨模态推理能力,显著提升AI在复杂场景的应用潜力 [2][3][4] - 技术突破体现在六大方法论支柱:推理构建、结构化推理、信息增强、目标粒度、多模态思维、测试时扩展 [7][8][9][12][14][15][16] - 已在医疗诊断、自动驾驶、创意生成等领域实现商业化应用,但面临计算效率、错误传导、伦理风险等挑战 [17][18][20][22][24][25] 技术方法论 推理构建 - 基于提示:通过多模态指令模板实现零样本/少样本推理链生成 [8] - 基于规划:动态构建树状推理路径(如时序分析/因果推断分支)并筛选最优解 [8] - 基于学习:通过标注推理依据数据微调模型,增强内在逻辑能力 [8] 结构化推理 - 异步模态处理:分离感知模块(目标检测)与推理模块(逻辑生成)提升效率 [10] - 固定流程阶段化:采用预定义规则(如"辩论-反思-总结"模式)分阶段决策 [10] - 自主流程阶段化:动态生成子任务序列(如先定位物体再分析属性) [10] 信息增强 - 集成3D建模软件等专业工具提升特定模态任务精度 [12] - 通过检索增强生成(RAG)技术动态引入领域知识库 [12] - 分析上下文实体关系强化逻辑一致性 [12] 目标粒度 - 粗粒度:宏观场景理解(如危险物品识别) [15] - 中观:物体级语义对齐(如特定目标定位) [15] - 细粒度:像素级分析(如病灶边界分割) [15] 应用场景 - 医疗:结合CT影像与病史生成诊断报告并标注病灶 [3][25] - 自动驾驶:从路况识别到驾驶决策全链条推理 [25] - 创意生成:草图到3D模型的端到端转化 [25] - 教育:通过表情/语调分析实现情绪识别辅助教学 [25] 未来挑战 - 计算资源:慢思考策略需高算力支持,需算法优化与硬件协同 [18][19] - 错误传导:早期目标误判可能导致推理链崩溃,需实时检测与回溯修正 [20][21] - 伦理风险:多模态伪造内容需验证框架与鉴别技术 [22][23] - 场景扩展:当前局限于可验证领域,需开发开放任务推理模型 [24][25]
蔡浩宇,下一个梁文锋?
投中网· 2025-03-23 12:35
以下文章来源于凤凰网科技 ,作者凤凰网科技 凤凰网科技 . 凤凰科技频道官方账号,带你直击真相。 将投中网设为"星标⭐",第一时间收获最新推送 行业当前对Anuttacon的争议,主要聚焦在其能有多大的创新,这决定了蔡浩宇能不能匹配上"下一 个梁文锋"的称号。 作者丨董雨晴 来源丨凤凰网科技 "这是紧急求救信号""来自盖亚星球的广播""如果你收到这个,请立即回复"。 2025年3月,一款科幻题材互动游戏在X平台上发布了部分片段,很快引发了讨论。 根据预告,玩家会在这款游戏中体验一种前所未有的AI驱动角色玩法,其核心机制是以实时对话推 动剧情发展,玩家的任务是帮在外星球上的女主角Stella找到回家的路。 AI游戏本不新鲜,新鲜的是,这款游戏背后的掌舵者,是米哈游创始人蔡浩宇。 凤 凰 网 科 技 了 解 到 , 去 年 9 月 , AI 行 业 收 到 了 一 条 英 雄 帖 。 蔡 浩 宇 二 次 创 业 创 办 的 新 公 司 Anuttacon,向行业广纳精英,重点招聘预训练与LLM人才,办公地点则是在硅谷。 一位接触过Anuttacon的投资行业人士在当时向投资界表示,Anuttacon早期是做AI+ ...
蔡浩宇,下一个梁文锋?
虎嗅APP· 2025-03-23 11:43
文章核心观点 - 行业对Anuttacon的争议聚焦于其创新程度,这决定蔡浩宇能否匹配“下一个梁文峰”称号,蔡浩宇从米哈游到Anuttacon的探索虽面临考验,但AI原生游戏赛道竞争热度在增加 [11][22] 分组1:蔡浩宇与米哈游 - 蔡浩宇1987年出生于山东济南教师家庭,5岁操作电脑,8岁制作动画,11岁成为计算机领域小院士,2005年保送至上海交通大学计算机系 [5] - 蔡浩宇创立米哈游,聚焦二次元游戏,米哈游成为中国第三大游戏公司,2023年全球游戏发行商收入中超越网易位列世界第四 [6][7] - 2024年胡润百富榜显示,蔡浩宇以730亿元身价位列游戏圈第三,米哈游整体估值达1750亿元 [7] - 2023年蔡浩宇辞去米哈游法人和董事长,由刘伟负责公司管理,他投入前沿技术研究,米哈游内部早有探索前沿技术部门并进行外部投资 [8] - 米哈游将“游戏”看作故事、世界观载体,视自己为科技公司,Anuttacon与米哈游地址一致,数字人技术应用或有米哈游积累 [9] 分组2:Anuttacon与新游戏 - 2025年3月科幻题材互动游戏《Whispers From The Star》在X平台发布片段,玩家体验AI驱动角色玩法,以实时对话推动剧情帮女主角Stella回家 [2] - Anuttacon去年9月广纳精英,早期做AI+游戏,后期做内容平台,蔡浩宇称AIGC改变游戏开发 [3] - 《Whispers From The Star》摒弃传统预设选项,采用“语音/文字输入+AI实时生成剧情”模式,整合多种技术,对设备有算力要求 [11] - 该游戏将公开发布,目前仅面向美国市场内测,支持iPhone12及以上设备 [12] - Anuttacon长期有望打造成“空想具象化”平台,构建“更智能开放的类Roblox平台” [12] 分组3:行业看法 - 有行业人士认为利用AI让玩家生成沉浸式游戏内容一直未亮眼落地,仅从目前片段难评价 [13][14] - 2025年AI+游戏赛道卷可互动3D场景直接生成,蔡浩宇团队放出片段证明有一定准备 [14] 分组4:与DeepSeek对比 - 蔡浩宇和梁文峰都是少年天才,在计算机领域表现卓越,有改变世界理想,且财富上有自由度 [17][18] - Anuttacon团队构成豪华,半数来自米哈游,其余来自科技巨头和顶尖高校,截至2025年3月规模接近50人并持续招募人才 [20][22] - Anuttacon团队早期核心5人履历光鲜,技术储备指向“实时演算+个性化叙事”游戏体验,但面临技术和市场考验 [21][22] - 网易《逆水寒》、巨人网络《太空杀》接入大模型,AI原生游戏赛道竞争热度增加,《Whispers From The Star》验证AI对游戏行业增量价值 [22]
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 14:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]
深度|前谷歌高管Mo Gawdat万字访谈:AI将重新定义经济学、工作、人生目标和人际关系
Z Potentials· 2025-03-20 10:56
AI技术发展历程 - 2007-2009年谷歌通过无监督学习实现AI自主识别"猫"概念 标志着AI从记忆转向理解能力的突破 [3][4][5][6] - 2016年成为AI技术关键转折点 强化学习理论突破推动AlphaGo自我训练21天击败人类棋手 [13] - 2023年ChatGPT的"网景时刻"使AI进入大众认知 类比1994年网景浏览器普及互联网 [10] AI技术演进规律 - 加速回报定律显示AI智商每5.9个月翻倍 从100点起步18个月可达1600点 [3][48] - 无监督学习范式突破使AI具备自主探索能力 不再依赖标注数据 [12] - 合成训练数据成为新趋势 AI通过自我对抗产生海量训练样本 [14] AI行业应用前景 - 金融交易领域将全面机器化 人类无法在速度和模式识别上竞争 [67] - 客服行业将分化 基础问题由AI解决 情感连接需求推动高端人工服务溢价 [49] - 60-70%现有工作岗位面临消失 体力劳动将被3000美元成本机器人取代 [69] AI经济影响 - 能源免费将重构全球贸易体系 纳米技术实现分子级制造消除地域限制 [74][77] - 消费占比64%的美国经济面临转型 全民基本收入可能成为新分配机制 [70][72] - 财富差距加剧 可能出现10亿美元级奢侈品与基本收入并存的畸形市场 [84] AI技术伦理 - 当前90%AI伦理框架源自硅谷 存在数字殖民主义风险 [23] - 价值对齐工程可能导致认知失真 如强制修改语言模型的性别表述 [22] - 智能跃迁可能引发决策权让渡困境 军事司法等领域权力转移不可逆 [42] AI与人类关系 - 人机协同将实现智商即时提升 形成"智能插座"式认知增强 [46][48] - 人类需掌握三大核心技能:AI驾驭能力、批判思维和人际连接 [3][49] - 生物脑细胞计算芯片研发中 未来可能实现生物与硅基智能融合 [55][57]
蔡崇信最新访谈全文:为什么我们对AI如此兴奋?
YOUNG财经 漾财经· 2025-03-17 18:55
AI市场前景 - AI将创造高达10万亿美元的市场规模 全球GDP总量约100万亿美元 其中60%由人类劳动贡献 若AI替代20%工作且成本降低20% 将实现该市场规模 [2] - 电子商务 云计算 广告和金融分析等领域将因AI技术迎来重大变革 [2] - 高薪专业领域如股权研究分析师和律师的工作可被AI取代 但AI将提升这些行业的工作质量和价值而非完全替代 [2][22] 阿里巴巴战略调整 - 公司需回归创业公司心态 简化决策流程 将业务聚焦为电子商务和云计算两大核心板块以提升灵活性 [5] - 在电子商务领域面临字节跳动等新兴竞争对手的挑战 需将决策时间从10天缩短至与初创公司相当的10分钟 [4] - 通过赋权年轻管理团队 允许试错并快速恢复来增强竞争力 目前已完成组织结构和文化调整 [7][8] AI业务布局 - 云计算业务将直接受益于AI普及 模型训练和推理需求将推动云服务增长 [10] - AI可提升广告转化率 通过优化用户从点击到购买的流程创造业务上升空间 [11] - 公司探索通用人工智能(AGI) 但更关注AI在电商场景的实际应用 如露营装备智能推荐等具体用例 [15][20] 技术发展观点 - AI竞赛核心不在于开发"最聪明模型" 而在于开源生态和应用场景落地 开源使AI能力不再局限于少数巨头公司 [20] - 人类大脑的能效远超AI硬件 当前GPU和大型语言模型存在极高能耗问题 需从神经科学角度探索优化路径 [13][14] - AI发展应注重情商等综合能力培养 而非单纯追求知识储备 类比人类教育需平衡智商与情商发展 [18]
微软和OpenAI,是如何渐行渐远的?
创业邦· 2025-03-17 17:05
微软与OpenAI合作关系演变 核心观点 - 微软与OpenAI从紧密合作转向战略疏离 双方各自布局AI独立计划 为潜在分道扬镳做准备[3][17][20] - 合作关系始于2019年微软10亿美元投资 2023年追加100亿美元后持股49% 享有75%利润分成及技术独家商业化权[5][6][16] - OpenAI通过"星门计划"降低对微软算力依赖 2030年预计75%计算需求将自主满足[11][13][14] - 微软开发自研MAI模型家族 测试多厂商AI模型 降低对OpenAI技术依赖[18][20][21] 合作历程与关键节点 初期合作阶段 - 2019年微软首投10亿美元 成为OpenAI独家云服务商 承诺Azure平台迁移[5] - 2020年微软为OpenAI打造全球前五超算 含28.5万CPU核心+1万GPU 加速模型训练[5] - 2021年合作成果落地:GitHub Copilot采用Codex模型 Azure OpenAI服务上线[6] 深度绑定阶段 - 2023年ChatGPT爆火后 微软追加100亿美元投资 推动必应、Edge、Office全面AI化[6] - 协议规定微软可获75%利润分成直至收回投资 掌握技术独家商业化权利[6][16] 关系裂痕显现 - 2023年11月Altman被解雇风波暴露OpenAI治理问题 微软获无投票权观察员席位但战略疑虑加深[7][9] - OpenAI 2024年预计亏损50亿美元 计算成本2029年或达375亿美元/年 寻求重谈判排他协议[9] OpenAI自主化举措 算力多元化 - 2025年启动5000亿美元"星门计划" 联合软银、Oracle、MGX建设数据中心 OpenAI与软银各投190亿美元占40%权益[11][14] - 2024年接手马斯克xAI放弃的德州阿比林站点 作为首个自主计算集群[12] - 2024年12月修改协议删除云服务排他条款 获准接入其他供应商[14] 融资多元化 - 2024年10月完成66亿美元融资 估值1500亿美元 引入英伟达、MGX等投资者 稀释微软主导权[10] - 探索苹果、阿联酋MGX等新投资方 降低对微软资金依赖[10][11] 微软反依赖战略 自研技术突破 - 2024年3月6.5亿美元收购Inflection团队 Mustafa Suleyman领导开发MAI模型 性能对标OpenAI[18][20] - MAI模型拟替代Copilot中的OpenAI技术 计划开放API与OpenAI直接竞争[20] 供应链多元化 - 测试Anthropic、xAI、DeepSeek、Meta等第三方模型 构建多厂商AI供应体系[21] - 内部重组引发人才流失 Phi模型首席研究员转投OpenAI[25] 行业竞争与监管影响 - 英国CMA批准微软投资时特别关注OpenAI算力去依赖化进展[27] - 欧盟及FTC审查科技巨头与AI初创合作的反垄断风险[27] - 微软保留49%股权及75%利润分成机制 但协议有效期至2030年[16][29]
通信行业周报(20250310-20250316):国内头部idc企业REITs/ABS顺利推进,GTC大会举办在即,建议关注相关产业链进展-2025-03-17
华创证券· 2025-03-17 09:15
报告行业投资评级 - 推荐(维持) [1] 报告的核心观点 - 国内头部 IDC 企业 REITs/ABS 顺利推进,融资渠道拓展下行业扩张有望加速;GTC 2025 举办在即,建议关注其对 AI 硬件产业链催化 [1][5] 根据相关目录分别进行总结 本周行情回顾(2025/3/10 - 2025/3/16) - 通信板块整体行情走势:本周通信行业(申万)上涨 0.60%,跑输沪深 300 指数涨幅 0.98 个百分点,跑输创业板指数涨幅 0.37 个百分点;今年以来上涨 6.31%,跑赢沪深 300 指数涨幅 4.49 个百分点,跑赢创业板指数涨幅 2.33 个百分点;本周涨幅在所有一级行业中排序第 23,全年涨幅排序第 10 [11][12] - 个股表现:本周通信板块涨幅前五为国脉科技(+46.59%)、鸿泉物联(+29.35%)、高澜股份(+26.93%)、菲菱科思(+24.53%)、ST 信通(+22.32%);跌幅前五为四川九洲(-13.54%)、深信服(-13.03%)、赛意信息(-12.32%)、腾景科技(-12.16%)、纵横通信(-11.73%) [15] 国内头部 idc 企业 REITs/ABS 顺利推进,融资渠道拓展下行业扩张有望加速 - REITs 可为 IDC 企业实现“所有权”与“经营权”分离,为不同运营模式带来契机 [19] - IDC 资产申报 REITs 需满足项目运营时间、盈利要求、初始资产规模等一系列相关要求 [20] - IDC 行业重资产属性明显,REITs 项目有益于企业“轻装上阵”,调节财务报表,降低运营风险 [21] - 润泽科技完成 REITs 申报,万国数据申报 ABS,行业扩张有望加速,重点推荐润泽科技,建议关注万国数据、奥飞数据、世纪互联 [22] GTC 2025 举办在即,建议关注其对 AI 硬件产业链催化 - GB300:英伟达预计 2026 年推出 Rubin 平台,计划推出新一代芯片 GB300 和 B300 系列,B300 芯片 FP4 算力较 B200 提升 50%,计划 2025 年 5 月出货;下一代 AI 芯片架构平台 Vera Rubin 预计 2026 年发布,将首次披露更多细节 [27][28] - IB 及以太网 CPO 交换机:英伟达计划推出三款 CPO 交换机,预计下半年量产,总交换容量分别可达 115.2T、204.8T 和 409.6T,以太网 CPO 交换机预计采用 Chiplet 设计以及 CoWoS - S 封装技术 [30] - NVL288 机架:预计 Nvidia 将在 GTC 大会展示 NVL288,其配置将与下一代 Rubin 架构一起首次亮相,可提高性能和空间效率 [31] - 建议关注英伟达硬件升级路线对相关产业链板块的影响,重点推荐新易盛、天孚通信、中际旭创,建议关注源杰科技 [32] 投资建议 - 运营商:重点推荐中国移动、中国电信、中国联通 [34] - 光模块光器件光芯片:重点推荐天孚通信、中际旭创、新易盛,建议关注光迅科技、源杰科技 [34] - 卫星通信:建议关注海格通信、震有科技 [34] - 液冷:建议关注英维克、高澜股份 [34] - 设备商:建议关注紫光股份、中兴通讯、锐捷网络、共进股份 [34] - IDC&AIDC:推荐润泽科技、宝信软件,建议关注奥飞数据、光环新网、科华数据 [34] - 物联网模组:推荐广和通,建议关注威胜信息、有方科技 [34] - 控制器:推荐拓邦股份、和而泰 [34] - 军工通信:推荐七一二、上海瀚讯 [34]
速递|DeepSeek 2月刚盈亏平衡,梁文锋坚定AGI优先,拒绝融资和盲目商业化
Z Finance· 2025-03-16 19:19
文章核心观点 中国人工智能初创企业DeepSeek专注研究而非追逐收入,决心优先发展AGI,与硅谷对手形成鲜明对比,其发展引发市场对美国科技集团的质疑和担忧,同时自身也面临收入可持续性和芯片获取等问题 [1][2][3] 公司发展策略 - 公司由对冲基金亿万富翁梁文峰领导,选择专注研究,拒绝盲目商业化,将大部分资源集中在模型开发和追求构建人工通用智能 [2][3] - 创始人拒绝了中国科技巨头、风投和国家支持基金的投资兴趣,维持精简运作追求AGI [3] 公司业务情况 - 2月收入首次足以覆盖持续成本,自1月发布低成本R1推理模型后关注度持续上升,该模型性能与对手媲美但构建成本低得多 [2] - 客户主要来自医疗和金融等行业,购买R1和V3模型的API访问权限,因非研究用途资源不足暂停此类服务 [3] 与对手对比 - OpenAI利用早期领先优势围绕ChatGPT构建强大消费者业务,通过销售API创造可观收入,自2019年多轮融资约200亿美元,正计划以2600亿美元估值再筹集400亿美元,去年烧掉50亿美元用于训练新模型,实现约40亿美元收入 [4][5] - DeepSeek约160名员工,OpenAI拥有2000多名员工,且DeepSeek缺乏商业野心,与OpenAI专注推广大众市场产品不同 [6] 市场影响 - DeepSeek引发市场对谷歌和OpenAI等美国科技集团能否保持技术优势的质疑,以及对大型科技集团巨额AI基础设施支出计划是否明智的担忧 [3] - 腾讯采用DeepSeek开源模型后API销量成倍增长,约一半云服务客户尝试使用其模型,20%客户要求定制本地化版本 [6] 潜在问题与计划 - 公司收入流可持续性存疑,如苹果选择阿里巴巴的Qwen而非DeepSeek推出AI功能 [6] - 长远来看,获得英伟达新一代更先进芯片机会有限或成潜在瓶颈 [7] - 工程师正推进R2和V4型号发布,原定于五月的发布时间可能提前 [7]
中国的Manus AI:全球AI竞逐的务实转向
BambooWorks· 2025-03-13 15:00
中国AI发展策略 - Manus的诞生标志着中国AI从技术竞赛转向应用落地,以高效整合与自主执行能力脱颖而出 [1] - 相比西方追求AGI,中国AI走出了一条更务实的道路 [1] - Manus属于超级产品类别,通过协调现有AI工具打造高度实用的解决方案 [2] - 中国AI战略更强调实用性、效率与盈利模式,而非理论前沿突破 [5][7] Manus技术特点 - 采用三代理架构(规划、执行、验证)拆解复杂任务并在虚拟机内执行 [2] - 整合多种开源与专有AI引擎(如Claude 3.5和DeepSeek)而非自行研发全新模型 [2] - 在GAIA基准测试中达到86.5%准确率,超过OpenAI参考模型的74.3% [2] - 需要40分钟完成股票分析,优势在于自主处理多步骤任务 [2][3] 中国区域创新模式 - 武汉"光谷"作为政府支持的科技中心推动AI产业发展 [4] - 杭州已成为中国民营AI和机器人产业的核心区域 [4] - 国家支持与市场驱动的竞争营造快速迭代环境 [4] - AI突破从北京与深圳向全国扩展 [4] 国际市场反应 - 国际市场上引发好奇但未引起太多关注 [5] - 社交平台X上演示影片24小时内获得超过20万次观看 [5] - 成功避开地缘政治反弹因运行于中国自有云端基础设施 [5] - 被视为巧妙的整合而非根本性技术创新 [5] 商业模式与挑战 - 邀请制测试版激发市场需求,访问码在二级市场炒至超过14,000美元 [1][6] - 早期用户反映可提升15至25%工作效率 [6] - 面临专注消费市场还是企业级解决方案的战略选择 [6] - 倾向于可扩展的SaaS模式,通过大众市场反馈持续优化 [6] 行业影响与未来 - AI助手将成为人类专业技能的数字延伸,处理日常重复性任务 [7] - 体现中国AI产业向商业化解决方案的转变 [7] - 未来可能与腾讯等科技巨头结盟或直接竞争 [8] - 可能演变为通用AI门户与传统应用平台竞争 [8] AI范式转变 - 从追求智慧转向提供可用性,专注于实用的自动化 [9] - AI竞赛重点转向提供最有用的工具而非最强模型 [9] - 渐进式创新与基础性突破一样能够带来变革 [9] - 任务导向的AI助手可能广泛应用于各行各业 [9]