Workflow
语言模型
icon
搜索文档
[大模型实践] 卡比人贵时代的深度学习经验
自动驾驶之心· 2025-06-20 22:06
大模型实验方法论 - 选准关键指标指导迭代方向,避免盲目追求表面指标而忽略真正区分SoTA能力的核心指标[1][4] - 识别实验真瓶颈,通过文献阅读和同行讨论排除低效调参,聚焦验证强假设而非网格搜索[1][5] - 平衡大小实验组合:大实验(10B-100B规模)用于发现问题,小实验快速筛选有效想法[1][6] 实验设计与效率优化 - 定性实验需揭示新现象(如长链思维o1/R1的应用突破),而非仅追求定量指标提升[4] - 自动化评测工具可提升效率,公司内部采用多榜单自动测试机制以发现潜在问题[4] - 避免低性价比实验,超参数微调或数据配比研究对大规模模型效果有限[5] 团队协作与资源整合 - 明确团队比较优势分工:卡资源充足者可主导大规模验证,资源有限者聚焦前期idea验证[8] - 通过高频交流与实验记录共享提升协作效率,优化资源分配(如卡调度)[8] - 大模型研发需跨角色协作,需结合社区定位调整团队研究方向[8] 行业技术动态 - 自动驾驶领域技术覆盖30+方向(BEV感知、多传感器融合、轨迹预测等),社区规模达4000+成员[9] - 前沿技术布局包括端到端自动驾驶、世界模型、大模型应用等,产学研结合紧密[9][11]
Z Potentials|专访陈羽北,Aizip打破效率瓶颈,让AI进入真实产品,推动On-Device AI的未来革命
Z Potentials· 2025-06-11 10:21
行业背景与公司定位 - AI行业面临能耗高、模型庞大、学习机制复杂等效率瓶颈问题,创新型公司正致力于突破这些难题 [1] - Aizip专注于On-Device AI模型研发,推动AI技术在硬件设备上的广泛应用,在多模态感知、语言推理及行为控制等领域取得突破 [1] - 公司定位为不具备全栈AI能力企业的后盾支持方,帮助客户实现AI技术落地 [32] 创始人背景与创业历程 - 创始人陈羽北本科毕业于清华大学电子系,博士阶段在伯克利从事AI理论研究,后在Meta从事博士后研究 [4][5] - 2020年疫情期间创立Aizip,联合创始人包括斯坦福和CMU背景的技术专家,团队注重"高能力、低ego"的人才 [16][17][18] - 创业动因包括:实现AI技术落地、把握数据入口迁移机遇、提升AI效率 [8][9] 技术理念与研究方向 - 核心研究聚焦AI三大效率问题:能量效率(人脑20瓦 vs 大模型数千瓦)、模型效率(跳蛛几百万神经元 vs 自动驾驶数十亿参数)、学习效率(人类100亿token vs LLaMA 3 15T tokens) [10] - 研究方向包括:白盒模型(探索AI内部机制)、世界模型(模拟现实世界)、小语言模型开发 [15] - 不盲目追求模型规模,而是开发"全球最小、最高效"的AI系统 [14] 产品与技术架构 - 产品围绕三类感知模态(声音、视觉、时序)和语言模型展开 [22][23] - 视觉模态包括物体识别、人脸识别、OCR等;时序模态专注于高精度"下一步预测"能力 [23] - 开发voice-AI agent,融合语音识别、小语言模型、local RAG等能力 [24] - 已实现3B参数小模型在手机端部署,可完成本地路线推荐等任务 [27] 市场前景与商业化 - 预测未来50%的AI推理将在设备端完成,拐点将在2-3年内到来 [26][31] - 商业化路径分三阶段:技术优势→规模优势→品牌优势 [34] - 已与Renesas、ADI、Qualcomm、Bosch等头部硬件厂商合作,模型年出货量达数千万级别 [36][38] - 获得"Best Sensor of the World"、"Best AI Product of the Year"等国际奖项 [38] 行业趋势判断 - On-Device AI将迎来"质价比跃迁",由市场准备、硬件演进(如苹果芯片从0.6 TOPS发展到35 TOPS)、软件突破三股力量推动 [29][30] - 云端AI与设备端AI将共存,但设备端在隐私、延迟、成本方面具优势 [26][27][28] - 看好learning与search融合的技术趋势,关注OpenAI的Operator概念 [41]
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
语言模型对奖励噪音的鲁棒性研究 - 语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分奖励(如正确答案得0分,错误答案得1分),下游任务表现不受显著影响 [2] - 强化学习对下游任务的提升关键在于模型能否产生高质量的思考过程,而非奖励的绝对准确性 [2] - 仅通过奖励模型输出中关键思考词的出现频率(而非答案正确性),语言模型仍能取得高表现 [2] 思考模式奖励机制(RPR) - 设计极简奖励机制RPR,根据高频思考关键词(如"First, I need to"、"finally")的出现频次给予奖励 [6][7] - 仅使用RPR机制(不考虑答案正确性),Qwen-2-5-7B在MATH-500数据集上准确率从5%提升至70%以上 [11] - RPR可校准奖励模型输出,即使奖励模型准确率仅65%,校准后效果接近85%准确率模型的表现 [17] 奖励模型准确率与噪声耐受性 - 当奖励模型准确率超过75%时,不同模型训练结果的主观评测得分相似 [14] - 奖励模型准确率低于75%时训练效果显著下降,65%准确率时表现大幅劣化 [14] - RPR校准可帮助较小模型(如Qwen-2-5-3B)避免训练崩溃,在复杂开放任务中展现良好解题思路 [20][21] 强化学习的核心作用 - 强化学习主要改变语言模型输出风格并形成良好思考模式,而非教授新知识 [22] - 预训练阶段的能力提升仍至关重要,因其构成下游任务表现的基础瓶颈 [23] - 实验显示Llama3因预训练阶段思考路径质量不足,表现和抗噪音能力显著弱于Qwen模型 [23]
如何知道别人想要什么?
36氪· 2025-04-29 08:06
需求洞察方法论 - 传统需求调研假设存在客观可测的隐性需求集合 通过街头访谈 问卷调查等方式收集数据 但这种方法容易陷入无止境的细节描绘而忽略真正迫切的需求 [2][5] - 本质主义思维认为需求是固有属性 可通过形式化方法发掘 但现实中需求由特定行为序列触发 需要创造性构建情境来催生 [5][6] - 主动展现世界观或产品构想能激发客户具象化需求 如同非牛顿流体遇力变硬 在未受刺激前需求处于混沌状态 [3] 序列思维应用 - 需求产生于情境而非孤立存在 关键在于构建能激发目标客户反应的言行序列 刻意保持客观反而会削弱观察效力 [4][5] - 通过试错成为能创造需求的人 需观察并复现情绪震颤 如新餐厅体验中的文化密码与情感交织 这些感受可转化为设计LOGO或撰写文章的灵感 [7] - 语言模型训练是序列思维的隐喻 通过生成序列学习隐性模式 在特定语境下调用 人类同理 但作为持续训练的模型能不断产生新响应 [7] 产品开发范式 - 主流方法论聚焦客户客观需求 认为产品是雇佣来完成特定任务的工具 但客户通常无法明确表达需求清单 [1][2] - 老练的创始人采用民族志研究方法 勾勒客户立体画像 包括日常行为细节 但过度追求客观性可能导致核心需求迷失 [2][3] - 开发过程如同学步 需经历笨拙尝试与跌倒 最终掌握微动态调节能力 无需思考即可做出响应 这是做出别人想要东西的关键 [8]