AI科技大本营

搜索文档
腾讯混元开源首个13B激活MoE大模型:推理提升超2倍,单卡可跑!
AI科技大本营· 2025-06-27 17:31
模型发布与性能 - 腾讯混元开源首个混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数仅13B,推理速度是同类模型的2倍以上,日均调用超1.3亿次 [1] - 模型在Github、Huggingface等开源社区上线,API支持快速接入部署 [2][5] - 模型单卡可跑,仅需1张中低端GPU卡即可部署,支持多种量化格式,整体吞吐是前沿开源模型的2倍以上 [11] 技术架构与训练 - 模型基于MoE架构,训练了20T tokens的语料,覆盖多个领域,显著提升通用能力 [12] - 团队构建了适用于MoE架构的Scaling Law联合公式,完善了MoE架构的理论体系 [12] - 采用多阶段后训练方式,提升推理能力同时兼顾创作、理解、Agent等通用能力 [13] 性能表现 - 在数学领域表现突出,AIME2024得分87.3,超过同类模型 [7] - 在推理任务中,BBH得分89.1,DROP得分91.1,均位列前茅 [7] - Agent能力表现优异,BECL v3得分78.3,ComplexFuncBench得分61.2,均为最高分 [7] 长文处理能力 - 支持256K原生上下文窗口,在PenguinScrolls得分87.7,LongBench-v2得分55.0 [9][10] - 在RULER测试中,64K-128K长文处理得分73.9,优于同类模型 [10] 应用与生态 - 模型已应用于腾讯内部400+业务,日均请求超1.3亿次 [14] - 开源两个新数据集:ArtifactsBench包含1825个任务,C3-Bench包含1024条测试数据 [14] - 未来计划推出多尺寸混合推理模型,从0.5B到32B的dense模型及13B的MoE模型 [15]
与技术谈实现,与客户谈价值,与高管谈钱!硅谷顶级产品专家亲述生存法则
AI科技大本营· 2025-06-27 09:54
产品失败的核心原因 - 产品失败的最大元凶是对客户问题理解不够透彻或解决方案行不通,而非开发速度慢 [3][25] - 公司内部存在沟通壁垒,不同部门使用不同"语言":工程师谈技术、销售谈订单、高管谈财务 [6][22] - 绿色部分(占比最大)的失败源于错误的问题定义或解决方案,与开发速度无关 [30] 产品经理的核心能力 - 必须掌握三种语言:与工程师谈技术、与客户谈价值、与高管谈钱 [3][22][29] - 每周至少进行一次非销售性质的客户访谈,直接获取用户反馈 [20] - 需为开发团队提供背景信息和沟通,而非简单下达任务清单 [17] 产品负责人的角色转变 - 产品负责人需营造让产品经理成功的环境,而非直接执行产品工作 [44][48] - 关键职责包括设计产品团队、推动战略制定、增进跨部门协作 [53] - 需从执行者转变为领导者,减少个人操作而增加团队培养 [46][47] 资源分配与优先级管理 - 研发预算应保持合理组合:50%计划功能、25%技术债、15%未来探索、<10%大客户需求 [63][56] - 必须无情地进行优先级排序,从150项需求中筛选2-3件核心事项 [41] - 警惕高管"巧克力蛋糕"式的小需求侵蚀核心资源 [51][52] 高管沟通策略 - 用SWAG方法(科学依据的瞎猜)将技术方案转化为财务价值故事 [60][62] - 案例:通过降低4%-8%客户流失率可挽回600-1200万欧元/年 [62] - AI功能增购案例显示9000个白银客户中3%-6%升级可带来400-800万欧元年收入 [65] 产品成功的关键行动 - 持续外部验证:只相信市场证据而非内部假设 [41] - 让研发团队参与解决方案头脑风暴,利用其智力而不仅是执行力 [41] - 产品经理需像"音乐厅后排父母",以产品成功而非个人声名为荣 [38][39]
通往 AGI 之路的苦涩教训
AI科技大本营· 2025-06-26 19:10
核心观点 - Google DeepMind CEO Demis Hassabis预测未来5到10年内有50%概率实现通用人工智能(AGI)[1] - AI发展历程中最大的教训是过度依赖人类经验而非算力与数据规模[2][3] - 当前AGI探索面临技术路径的隐忧,包括强化学习的局限性、脑模拟的算力瓶颈以及NLP的认知边界问题[9][14] 技术路径分析 - **强化学习**:虽为早期突破性技术,但存在"短视"缺陷,需结合更宏观的智能框架[14] - **脑模拟**:受限于算力瓶颈与理论盲区,难以完全复现人类认知机制[14] - **自然语言处理(NLP)**:虽进展迅速,但语言能力不等同于认知能力,模型输出与真实思想存在本质差异[9][15] 行业趋势与反思 - **算力驱动**:历史表明AI突破的核心引擎是计算规模而非人类直觉[2][3] - **大模型争议**:Scaling Law下参数膨胀可能掩盖智能本质,引发"进化还是幻觉"的质疑[15] - **跨学科融合**:脑科学与AI交叉研究成为新方向,强调对世界理解与知识迁移的能力[7][13] 关键人物与事件 - **刘嘉教授**:从AI转向脑科学再回归,提出AGI需融合认知科学、心理学等多学科视角[7][13] - **AlphaGo事件**:标志性技术转折点,推动研究者重新审视智能的本质与构建路径[7] - **《苦涩的教训》**:Richard Sutton指出AI发展应放弃人类经验依赖,专注算力与数据扩展[2][3] 未来探讨方向 - AGI构建是否需突破语言模型的表层能力,实现真正的认知理解[9][15] - 技术路线选择如何平衡短期效果(如NLP)与长期智能本质(如脑模拟)[14] - 跨学科研究(脑科学+AI)对突破现有范式局限的潜在价值[7][13]
AI 时代最大的“幻觉”:我们有了最强工具,却正在失去定义真问题的能力
AI科技大本营· 2025-06-26 09:17
AI时代增长的变与不变 - 核心观点:在算力爆炸时代,最稀缺的是对用户需求的洞察力而非技术复杂度,商业本质仍是人与人的连接[1][2] - 不变原则:所有增长出发点始终是用户需求和洞察,如AI PPT通过挖掘宝妈群体未被满足需求实现差异化增长[12][13] - 变化方向:AI将不确定性转化为确定性,如拼多多基于人群分类1小时生成300万素材并智能筛选最优方案[45] 北极星指标制定方法论 - 制定依据:需结合用户洞察与行业观察,如美团将外卖指标从GMV切换为订单量以适应用户消费力下降趋势[18] - 动态调整:指标应随生命周期变化,招行从存款量→AUM→MAU+AUM→AUM的演变体现阶段性策略聚焦[26][27][30] - 平衡原则:需设置制约指标(如ROI)并兼顾长短期价值,字节直播业务设定用户体验伤害阈值不超过1%-2%[21][22] AI赋能增长实战案例 - 百度网盘:转型生产力工具后会员数增长50%,但面临办公人群接受度低的推广瓶颈[16] - 招商银行:通过AUM指标满足高净值用户资金灵活性需求,零售业务实现差异化增长[26] - 滴滴海外:基于油价上涨数据分析将巴西业务重点从C端转向B端司机激励[33] 数据分析体系构建 - 三级拆解法:一级按业务线(美团外卖/酒旅)、二级分B/C端、三级细拆新老用户结构与增长方向[33][34] - 关键因素定位:通过AB测试验证留存相关性,如美团商家核心诉求是"低成本多赚钱"需优化激励体系[36] - 智能监控趋势:未来系统将实现预判诊断,如识别新用户与沉睡用户画像相似性自动推荐召回策略[39] AI技术应用红利 - 投放优化:谷歌黑盒白盒打分法将素材拆解为价值卖点/演绎形式等维度实现精准调优[46] - 流量获取:Temu通过页面劫持技术篡改搜索入口低成本获客,国内厂商植入AI关键词抢占搜索流量[46] - 研究提效:秘塔/Kimi可结构化分析行业数据,自动输出竞品MAU、商业模式等深度报告[40][41] 留存与召回关键洞察 - 留存本质:基于产品核心价值,快手短剧业务起源于用户对剧情类内容的自发需求[54] - 召回模型:美团外卖通过地理位置、消费频率等200+维度建立用户流失原因预测体系[51] - 行业瓶颈:AI工具类产品普遍面临留存率低问题,头部情感陪伴类应用七日留存仅41%[56]
模型训练最重要的依然是 Scaling —— 对话阿里通义千问 Qwen 多语言负责人杨宝嵩 | Open AGI Forum
AI科技大本营· 2025-06-25 14:49
通义千问多语言战略 - 通义千问(Qwen)从项目启动就将国际化作为核心战略,优先考虑多语言数据优化以服务全球用户[2][9] - 模型支持全球119种语言,在Hugging Face平台下载量位居前列,衍生模型数超过10万个[2][6] - 英语社区用户量最大,中文用户仅排第三或第四,体现其国际化影响力[8][9] 多语言技术突破 - 建立覆盖上千细粒度分类的文化标注体系,解决不同语言文化禁忌与安全合规问题[3][13] - 采用"英语内部推理+目标语言输出"的折中方案应对多语言混杂难题,提升小语种稳定性[16] - 通过数据合成与人工审核结合提升低资源语言数据质量,文化对齐投入占研发重要比重[14][16] 模型能力演进方向 - 提出"知识密度"概念,4B参数小模型性能已超越早期70B大模型,反映数据质量优化成效[19][20] - 持续探索Scaling Law延续路径,重点布局合成数据两大方向:创造新知识与提升数据纯度[21][22] - 针对"数据回流"现象采取混合比例控制,保留人类数据多样性避免模型风格趋同[25] 产品生态布局 - 采取大小模型并行策略,4B级小模型适配终端设备部署需求,已应用于车载、穿戴设备场景[26][28] - 与硬件厂商合作开发Mobile-Agent系统,实现视觉操作手机等基础功能,复杂场景仍需技术突破[30][31] - 规划将语音翻译、文字识别等能力深度集成至操作系统,但涉及安全的核心功能保持审慎[32][34] 行业趋势展望 - 多语言技术面临三大挑战:文化多样性对齐、小语种生成流畅度、多模态融合[39][41][43] - 合成数据与跨模态迁移被视为解决小语种数据匮乏的关键路径,需社区共建高质量数据集[42][45] - AI技术替代催生新职业形态,如AI编程师、Prompt工程师等协同型岗位将成就业增长点[37][38]
被 AI 大厂逼至绝望,这帮欧洲人发起了一场“科学复兴运动”
AI科技大本营· 2025-06-24 15:45
LAION的起源与使命 - LAION诞生于对AI领域"黑箱"研究现状的反思,旨在通过开放数据集和工具推动机器学习研究的可复现性[7][12][13] - 由德国高中教师Christoph Schuhmann发起"在家爬虫"计划,后联合程序员Theo Coombes共同创建去中心化协作网络[2][3] - 核心信条为100%非营利与免费,目标是通过开放资源对抗AI发展的集权化趋势[3][9][26] 组织架构与关键成员 - 采用分布式实验室网络模式,核心成员包括尤利希超级计算中心的Jenia Jitsev博士、斯坦福大学Ludwig Schmidt教授等[5][9][11] - 依托德国亥姆霍兹联合会的超级计算资源,实现工业级模型训练能力[9][14] - 志愿者社区涵盖科学家、工程师、医生等多元背景,形成互补型人才网络[3][5] 技术突破与行业影响 - 成功构建LAION-400M/5B开放数据集,训练出的OpenCLIP模型性能媲美OpenAI原始CLIP[16][17] - OpenCLIP B32模型持续产生影响力,月下载量超100万次[17] - 验证了开源社区通过协作可复现顶尖实验室成果的可能性[16][26] 研究范式与学术理念 - 强调"以数据为中心"的机器学习理念,主张网络规模数据集的多样性优于人工筛选[21][22] - 遵循"苦涩的教训"原则,追求算法与数据集的双重可扩展性[22][23] - 通过OpenThoughts等项目推动推理模型发展,已积累100万条推理轨迹数据[41][43] 行业问题与批判 - 揭示大语言模型存在根本性逻辑缺陷,简单数字变化即可导致GPT-4等顶尖模型性能崩溃[35][36] - 指出商业模型过度自信的"虚构"问题可能对实际应用造成隐蔽风险[37][38] - 批评封闭实验室因商业压力可能偏离基础研究方向[27][28] 未来发展方向 - 计划扩大推理数据规模至数百万条,验证量变能否引发质变[41][43] - 寻求与Linux基金会等组织建立更紧密的开放生态合作框架[45] - 持续通过"爱丽丝梦游仙境"等研究对行业进行压力测试[33][38]
李建忠对话 KK 凯文.凯利:通用智能是个伪命题,AI 不应该模仿人类 | AI 进化论
AI科技大本营· 2025-06-23 16:38
AI 的人机交互、单一设备 VS 多元设备 - 凯文·凯利预测智能眼镜将在25年后取代智能手机成为个人计算中心设备,但需攻克储能技术等五项关键突破 [5][6] - 镜像世界的构建不依赖眼镜,特斯拉自动驾驶汽车和TikTok等已在扫描真实世界训练AI的空间智能 [6][7] - 技术发展呈现钟摆效应,未来设备可能回归专业化,但智能手机是例外,AR眼镜或成为通用平台连接专业化应用 [7][8][9] AI 的路线之争、通用智能 VS 专用智能 - 技术路线呈现从专用模型向通用模型统一趋势,大语言模型已统一文本任务,但应用层面专用AI更实用 [10] - AI发展路径存在巨大不确定性,分为"扩展派"(持续扩大模型规模)和"专业化派"(终端小模型、领域专用AI) [11][12] - 凯文·凯利个人倾向专业化路线,认为需为不同场景做好准备,避免垄断生态 [12] AI 哲学思辨、"异人智能"与人类智能 - AI智能与人类智能本质不同,AI意识将是"异人意识",其智能构成和演进环境(人类需求)决定差异 [13][14][16] - 人类价值在于责任承担能力,未来工作核心是管理AI并为其决策担责,人性本身成为稀缺资产 [15][16] AI 的创新 VS 人类的创新 - AI创造力分为日常创新(当前可实现)和颠覆式创新(25年内或部分实现),后者将开辟全新领域 [17][18] - AI创新呈现"异人"特质,如AlphaGo第37手,但社会消化现有AI技术仍需10年,重大突破尚需时间 [17][19] Agent 的生态与入口之争 - Agent生态将推动互联网从"信息网络"升级为"行动网络",入口之争涉及超级AI助理、操作系统或新型设备 [20] - 智能眼镜可能成为Agent交互界面,需支持多模态交互(语音、手势、表情),苹果等公司正探索相关设备 [20][21] AI 时代的操作系统 - AIOS需定义自然语言交互标准,实现跨Agent协作,开源属性可避免垄断,责任是规范人机交互协议 [23] AI 变革内容创作与内容消费 - 未来内容向3D/4D沉浸式体验迁移,AI将具备情绪反应能力,引发人机情感联结革命 [24][25] - AI成为内容主要消费者,催生为AI创作的新模式,如传记专供AI阅读,重塑互联网商业模式 [26][27] AI 时代的创业公司与巨头竞争 - 科技巨头面临创新者窘境,OpenAI等创业公司更可能主导AI变革,因巨头难以冒险投入高风险新业务 [28][29] - 突破窘境需强决断力领导者,如盖茨和乔布斯,但成功概率极低 [29][30] 人形机器人 VS 专用机器人 - 绝大多数机器人非人形但适配人类尺寸基础设施,仅家用机器人可能拟人化,工作场景优先普及 [31][32][33] AI 时代的组织变革 - 小公司AI应用速度快于大公司,因需重构组织而非简单添加AI工具,亚马逊要求15万员工强制实验AI [34] - 成功关键为持续试错(容忍10次失败)、量化评估人机协同效果,中层管理者受影响最大 [34][35] 行业活动与趋势 - 《AI进化论》系列直播吸引超50万人观看,聚焦DeepSeek等前沿技术,构建高信噪比思想策源地 [1][37]
Andrej Karpathy最新演讲刷屏:软件 3.0 时代已经到来!
AI科技大本营· 2025-06-20 13:49
软件范式变革 - 过去70年软件底层范式几乎未变,但近几年连续经历两次剧烈跃迁,进入Software 3.0时代 [6][7][21] - Software 1.0:人类用Python、C++等语言明确编写代码,主导过去70年 [16] - Software 2.0:以神经网络权重为核心,通过数据集和优化算法自动生成程序,典型代表如Hugging Face托管模型 [15][16][17] - Software 3.0:以自然语言提示词编程大型语言模型(LLM),实现更灵活的组合与编排 [25][26] LLM的生态定位 - LLM具备公共事业属性,服务中断会导致全球性"智能停电",依赖度将持续增长 [39][43][44][45] - 训练LLM类似建造芯片工厂,需巨额资本投入(CAPEX)和尖端技术,通过API按量计费(OPEX) [46][47] - LLM是新时代操作系统,生态演化路径与计算机历史相似:闭源提供商(如OpenAI)与开源替代品(如Llama)并存 [50][55][58] 技术扩散路径反转 - LLM颠覆传统技术扩散路径,直接进入消费市场解决日常问题,而非优先服务军事/政府需求 [73][74] - 公司需追赶消费者使用步伐,应用起点与演化路径将不同于以往技术 [74] LLM的认知特性与局限 - LLM具有"人类灵魂"特质:百科全书式记忆但存在幻觉、智能不均衡、顺行性遗忘等认知缺陷 [75][76] - 安全风险突出,易受提示词注入攻击,需设计机制规避风险 [77] 应用开发范式迁移 - 特斯拉案例显示:Autopilot中Software 2.0神经网络逐步替代传统C++代码(Software 1.0) [30][31][33][34] - 自然语言编程降低门槛,实现"人人可编程",但产品化涉及支付/认证等非代码环节仍是痛点 [99][104][106] - 未来需构建LLM友好型基础设施,如上下文构建器(Gitingest)、协议标准(MCP)等 [109][110][111] 人机协作发展方向 - 短期应聚焦"部分自治应用",通过图形界面和"自治滑块"实现可控自主 [83][84][95] - 长期需平衡增强与自主,类似钢铁侠战衣的人机融合模式 [93][94][115]
从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
AI科技大本营· 2025-06-19 09:41
吴翼的职业发展路径 - 高中时期获得全国青少年信息学奥林匹克竞赛金牌并代表中国参加国际竞赛[2] - 保送清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[2] - 本科期间在微软亚洲研究院和Facebook实习[2] - 2014年赴加州大学伯克利分校攻读人工智能博士学位,师从Stuart Russell[4] - 博士毕业后加入OpenAI担任研究员,参与多智能体捉迷藏项目[4][5] - 2020年回国任清华大学交叉信息研究院助理教授[5] - 2023年创办边塞科技,探索大语言模型与强化学习结合[6] - 2024年与蚂蚁技术研究院合作推出开源强化学习系统AReaL[6] 强化学习技术发展 - OpenAI多智能体捉迷藏项目展示复杂行为通过简单规则自发涌现,成为观看量最高的研究视频之一[5] - AReaL系统专为大规模推理模型设计,优化强化学习训练效率与灵活性[6][18] - 推理模型通过"thinking token"机制提升准确性,强化学习成为关键训练工具[18] - 与RLHF相比,AReaL更关注提升模型推理能力而非行为调优[21] - 大模型时代强化学习面临新挑战:模型规模增长1000倍,计算需求剧增[23] - 训练系统效率成为关键瓶颈,开源系统价值可能超过开源模型[32] AI行业趋势与挑战 - 创业公司面临极短时间窗口,错过关键节点可能导致失败[12] - 模型分化趋势:大而强的高成本模型与轻量化高效小模型并存[31] - 强化学习三要素中系统门槛最高,数据质量次之,算法相对次要[30] - 多智能体系统发展缓慢,部分任务仍需多模型协作[42] - 个性化交互成为AI产品核心竞争力,需适配不同用户类型[37] - 模型"幻觉"问题亟待解决,需建立不确定性认知机制[38][39] 技术突破方向 - 记忆表达与个性化交互是未来重要发展方向[40] - 强化学习Scaling Law仍将持续,后训练阶段提升空间显著[26] - 垂类模型在细分领域深度优化,如代码生成等场景表现突出[26] - 产品+强化学习组合仍是重要方向,生态可能呈现多层次结构[28] - 人机协作场景需AI更好理解人类意图,减少主动打扰[37]
与“硅谷精神之父”凯文·凯利(KK)对话,聊聊一万天后的 AI 产品
AI科技大本营· 2025-06-18 15:55
凯文·凯利对中国互联网的影响 - 凯文·凯利的思想深刻影响了马化腾、张小龙等中国互联网开拓者,其著作《失控》被奉为行业"必读圣经"[1] - 2012年马化腾在与凯文·凯利对话中,就微信的"野蛮生长"、垄断指控和平台战略等腾讯面临的现实问题寻求解答[4] - 凯文·凯利提出的"自然垄断"、"共同控制"和"涌现"等概念被张小龙应用于微信开发,并将《失控》作为团队招聘标准[5] 历史预言与行业演变 - 凯文·凯利2012年预言"消灭你的那个人不会出现在既定名单中",随后字节跳动创始人张一鸣用抖音冲击腾讯社交根基[5] - 2013年搜狗CEO王小川、创新工场李开复均与凯文·凯利展开深度对话,如今二人分别创立百川智能和零一万物投身AI浪潮[6] - 凯文·凯利的去中心化理论在中国被用于构建"超级App",形成历史性反差[5] AI时代的未来展望 - 凯文·凯利新书《2049》预测:智能眼镜取代手机、人类专注低效创新、专业AI生态取代单一AGI、中国文化输出成为全球力量[14] - 提出AI时代核心问题:开发者角色定位、人类创新根基存续、AI Agent生态的权力分配等[14] - 全球产品经理大会将汇聚3000+AI产品精英,探讨AI落地难题[6][13] 行业活动与思想碰撞 - 8月15-16日北京全球产品经理大会将围绕产品设计、智能落地等12大专题展开,聚集互联网大厂与AI创业公司实战专家[13] - 凯文·凯利与CSDN李建忠的对话将聚焦未来25年技术演进,探讨AI产品方向[10][12]