Workflow
BERT
icon
搜索文档
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 12:23
软件3.0与AI范式变革 - Andrej Karpathy提出「软件3.0」概念,自然语言成为新编程接口,AI模型直接执行任务,标志着计算范式的根本转变[1][2] - 自2017年Transformer架构问世后,LLM领域快速发展,GPT系列和多模态应用迅速崛起[3] - 技术演进从传统编程转向自然语言交互,关键论文揭示了这一转变的内在逻辑[5] 奠基性论文与技术突破 Transformer架构 - 《Attention Is All You Need》提出Transformer架构,完全摒弃循环和卷积网络,依靠自注意力机制高效处理序列数据,成为现代AI基石[8][10] - Transformer的并行计算和位置编码能力使其在机器翻译等任务中表现优异,并广泛应用于NLP和计算机视觉领域[11] GPT系列与缩放定律 - GPT-3拥有1750亿参数,通过少样本学习在翻译、问答等任务中表现优异,确立了「大模型+大数据」的缩放定律[12][13] - GPT-3开创提示工程新范式,降低AI开发门槛,引领生成式AI浪潮[13] 强化学习与人类反馈 - 《Deep Reinforcement Learning from Human Preferences》提出RLHF技术,通过人类偏好训练奖励模型,成为对齐ChatGPT等LLM的关键[14][15] - InstructGPT结合RLHF技术,即使参数更小也能更好遵循指令,催生ChatGPT并确立行业标准[16][17][18] 高效训练与推理技术 计算优化 - Chinchilla论文挑战「模型越大越好」认知,提出计算最优缩放法则,模型参数与训练数据应同步增长[22][23] - LLaMA证明小模型通过更长时间训练可超越大模型,推动开源生态繁荣[27] 注意力与内存优化 - FlashAttention通过融合计算内核和优化内存使用,提升长序列处理效率,成为行业标准[29][30] - PagedAttention借鉴操作系统分页思想,提升LLM服务内存利用率,显著增加吞吐量[51][52] 多模态与开源生态 - LAION-5B提供58.5亿图文对数据集,推动多模态模型发展并降低研发门槛[56][58] - Mistral 7B通过GQA和SWA架构实现高效推理,成为开源社区标杆[55] 新兴趋势与前沿探索 - Mamba架构通过选择性状态空间实现线性时间序列建模,挑战Transformer地位[44][45] - QLoRA技术使消费级GPU可微调数十亿参数模型,推动社区创新[47][49][50] - 思想树(ToT)框架增强LLM复杂问题解决能力,推动推理技术发展[60][61] 行业影响与未来方向 - LLM能力随规模「涌现」,不可预测的新能力推动模型持续扩大[62][63] - 稀疏门控专家混合层(MoE)实现万亿参数模型训练,成为顶尖LLM核心技术[70][71][72] - 开源框架如DeepSpeed和Megatron-LM突破硬件限制,支撑超大规模模型训练[65][67][68]
ESG体系下的AI研究(一):多维投资增效,防范伦理风险
浙商证券· 2025-06-05 22:23
AI助力ESG投资基础设施完善 - AI大模型迭代加速、成本降低,有望推动在ESG事务中的大规模应用,2024年全球各类机构使用AI的比例达78%,较上年提高23%,中国机构使用率为75%,较上年提高27%[2][24][27] - AI帮助监管端降低追踪成本,通过动态监管与多模态交叉验证防范“漂绿”行为,如提升碳数据准确性[34][39] - AI助力企业降低合规成本,通过政策智能解析、报告自动化等方式,德勤报告显示78%的企业计划在2025年增加AI技术投入[45][51][57] AI赋能资管机构ESG投资 - AI助力多模态数据的敏捷挖掘和快速处理,扩展ESG投资的信息处理范围,解决信息收集和处理难题[60][61] - AI优化投资策略,包括机器学习模型ESG因子挖掘、ESG语言模型分析、人工智能算法预测等方向[72] - AI推动基金营销转型,降低宣发内容创作成本,部分替代沟通职能,普及ESG产品信息和投资理念[89] ESG+RAI框架助力分析AI风险与机遇 - AI在ESG议题中表现出两面性,在环境、社会、公司治理层面既提升效率又产生争议[93] - 整合ESG框架与负责任AI原则,帮助投资者识别有AI伦理风险的企业,管理投资风险[4][92] 风险提示 - 经济修复不及预期;AI模型不稳定风险;市场情绪与偏好波动风险[5]
AI浪潮录丨王晟:谋求窗口期,AI初创公司不要跟巨头抢地盘
贝壳财经· 2025-05-30 10:59
北京AI产业发展 - 北京正成为AI大模型领域的战略高地,汇聚了智源研究院的"悟道"大模型、月之暗面、智谱等人工智能独角兽 [1] - 北京积极打造"全球开源之都",开源技术已深入汽车、机器人等行业 [1] - 在北京市科委和中关村管委会支持下,新京报AI研究院推出"AI浪潮录"专栏,深度访谈AI浪潮亲历者 [1] 投资人视角 - 天使投资人是AI初创企业迈出"第一步"的关键支持者,英诺基金较早关注生成式模型潜力,2022年6月投资了深言科技 [4][5][6] - 投资人更青睐有经验的创始人,如深言科技的岂凡超团队虽有技术实力,但融资竞争力不如王小川、王慧文等有创业经历者 [12] - 过半投资项目为"水下"项目,不投资完全市场化、公开化的路演项目 [14] AI大模型发展历程 - 2013年以CV和自动驾驶为主导的第一波AI浪潮,2018-2019年"AI四小龙"经历高峰与低谷 [7] - 2018年BERT出现,大幅提升NLP能力,Transformer架构提供多元化能力 [7] - 2020年OpenAI发布GPT3和Diffusion模型,显示AI多维爆发潜力,新时代到来 [8] - 2021年底国内除百度和阿里外,仅智源研究院关注大模型方向 [8] 创业者特点 - 当前AI大模型创业者多为科学家或"技术大牛",圈子收敛,属于科学共同体 [18] - 学术能力和科研能力是基本保障,高技术壁垒要求创业者是学界或行业翘楚 [16] - 高校技术基因影响创业,清华和浙大创业文化最踊跃,哈工大技术强但创业者较少 [16] 投资策略 - 天使基金偏向长期主义,关注公司创新力度和生产力提升,接受企业长期亏损 [21] - 体系化布局产业链上下游,如机器人领域投资机器人公司、供应链公司和场景化公司 [22] - 2024年投资重点是Agent(智能体),DeepSeek验证了推理模型前景 [23] 行业趋势 - Llama开源缩短了大模型研发差距,使创造新模型不再困难 [13] - 大模型训练从"暴力美学"转向细致工程化,"用钱换能力"路径失效 [26] - 初创公司应避免在超级共识形成后做无窗口期的事,不要试图占领巨头地盘 [27][28] - 产业在推动AI技术范式上的作用增强,论文数量和质量超过学界 [20]
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 09:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]
一文讲透AI历史上的10个关键时刻!
机器人圈· 2025-05-06 20:30
人工智能发展历程 核心观点 - 人工智能从1956年达特茅斯会议的理论探索阶段,逐步发展为2025年渗透千行百业的实用技术,经历了10个关键里程碑事件 [1] 关键历史时刻 1 达特茅斯会议(1956年) - 首次确立人工智能作为独立学科,由麦卡锡、明斯基等先驱提出机器智能研究框架,定义问题求解、符号推理等核心方向 [2][3] 2 感知机(1957年) - 弗兰克·罗森布拉特开发首个神经网络模型,开创"训练-预测"的机器学习范式,奠定现代深度学习技术基础 [4][6] 3 ELIZA(1966年) - MIT开发的第一个聊天机器人,通过罗杰式对话法模拟心理治疗师,首次验证自然语言交互的可行性 [7][8] 4 专家系统(1970年代) - Dendral和MYCIN系统实现专业领域推理,化学分子结构分析与医疗诊断应用标志AI从理论转向垂直领域落地 [9][11] 5 深蓝胜利(1997年) - IBM超级计算机击败国际象棋世界冠军,证明机器在复杂策略游戏中可超越人类 [12] 6 机器学习范式(1990-2000年代) - 汤姆·米切尔提出数据驱动算法定义,推动自适应系统的研究转向 [14][15] 7 深度学习革命(2012年) - Geoffrey Hinton的反向传播算法突破多层网络训练瓶颈,AlexNet在ImageNet竞赛中准确率提升10.8个百分点引爆行业热潮 [17][18] 8 生成对抗网络(2014年) - 伊恩·古德费洛提出GAN框架,生成器与判别器对抗机制实现逼真图像/文本合成 [20] 9 AlphaGo(2016年) - DeepMind攻克围棋复杂性,战胜李世石展现直觉与战略决策能力 [22] 10 Transformer与大模型(2017-2025) - 2017年Transformer架构解决长文本依赖问题,GPT-3(1750亿参数)展现零样本学习等涌现能力,2023年GPT-4实现多模态融合,国内百度、阿里等企业快速跟进大模型研发 [24][26] 行业现状 - 2025年AI技术渗透至图像生成、自动驾驶、医疗诊断等全领域,形成以GPT-4、Claude、文心一言等为代表的全球化竞争格局 [26]
首个能准确回答火箭发动机问题的AI来了!马斯克:下周推出 Grok 3.5【附大模型行业现状分析】
搜狐财经· 2025-05-04 17:57
Grok产品与技术 - Grok由xAI公司研发,是马斯克旗下社交平台X与人工智能团队整合的核心产品,其突破性在于"立场鲜明"的对话哲学,基于"极致求真"理念,依托X平台海量数据训练,具备实时响应能力、幽默表达风格及争议性话题处理机制 [1] - 2024年7月,Grok 3训练使用10万块英伟达H100芯片,2025年1月3日宣布即将发布,1月27日启动内部测试,2月18日正式推出,2月20日面向公众免费开放后迅速登顶苹果应用商店免费应用下载榜首 [1] - 大模型指包含超大规模参数(十亿个以上)的神经网络模型,基于人脑神经系统结构启发,通过调整人工神经元连接的权重来学习和适应输入数据模式 [1] 大模型行业趋势 - 全球大模型正经历从"性能竞赛"向"价值创造"的范式转型,技术突破与伦理约束平衡、开源生态与商业模式创新、垂直场景与跨行业知识融合将决定未来3-5年产业格局 [2] - 2024年全球大模型行业市场规模达280亿美元 [2] - 行业呈现"杠铃式"发展特征:超大参数模型持续刷新性能天花板,轻量化小模型通过端侧部署实现商业闭环,双轨并行策略平衡技术前沿探索与落地成本管控 [6] 技术创新方向 - 行业从"大而全"通用模型竞赛转向"专而精"垂直领域深耕,多模态大模型成为核心技术突破口,能同步处理文本、图像、语音及视频数据,在医疗影像分析、自动驾驶决策等场景提升综合判断能力 [5] - DeepSeek等开源框架推动技术普惠,"AI+产业"在制造、金融、政务等领域深度渗透,加速行业从技术狂热转向价值创造,构建技术创新与商业回报良性循环 [6] 主要企业动态 - OPENAI推出GPT系列(包括GPT-4)语言模型,应用于自然语言处理、文本生成、对话系统、编程辅助等领域,还开发多模态AI模型如DALL·E(图像生成)和CODEX(代码生成) [6] - GOOGLE旗下DEEPMIND推出BERT和PALM等大型语言模型,应用于自然语言理解、翻译、自动生成文本等任务,技术已深入搜索引擎、翻译系统及广告优化 [6] - META开发LLAMA系列大规模语言模型,推动AI在社交网络、内容推荐、虚拟助手等领域应用 [6] - IBM推出WATSON系列AI解决方案,专注于自然语言处理和企业级智能化应用,覆盖医疗健康、金融、客服等领域 [6] 开源生态影响 - DeepSeek和通义千问系列开源产品推动国际大模型开源路线,对突破技术垄断、促进技术平权、提升人工智能普惠性具有重要作用 [7]
亚裔 AI 人才的硅谷晋升之路,被一张绿卡阻断了?
36氪· 2025-04-28 19:23
核心观点 - 美国移民政策收紧对科技行业华裔高端人才造成重大冲击 典型案例为OpenAI研究员Kai Chen因绿卡被拒被迫离美 反映政治不确定性对技术人才流动的深刻影响 [1][2][4][12] - AI行业技术密集型特征曾打破华裔职场天花板 但当前政策环境可能逆转这一趋势 数据显示谷歌亚裔员工占比达45.7% 已超过白人 Meta等企业同样呈现此趋势 [7][9][10] - 全球AI人才争夺战加剧 欧洲和中国企业正积极吸纳受政策影响的顶尖研究者 华为"天才少年"计划提供500万/年研发预算 阿里字节等大厂推出专项人才引进项目 [19][20][21] 行业格局 - 美国AI企业亚裔技术贡献显著 OpenAI的GPT-4研发团队至少有33位华人 谷歌BERT模型、ResNet等里程碑成果均由华裔主导 [11] - 华裔在AI领域晋升通道改善 谷歌DeepMind副总裁Ya Xu、Scale AI联合创始人Lucy Guo等案例显示技术实力正成为职业发展核心驱动力 [11] - 印度裔仍占据高管优势 微软谷歌CEO均为印度裔 反映办公室政治能力差异带来的职场天花板尚未完全消除 [9] 人才流动 - 签证政策直接影响企业人才储备 全美超1000名国际学生签证被撤销 波及130所高校 达特茅斯等院校已出现研究助理被迫中断项目的案例 [16][17] - 远程工作成为过渡方案 Kai Chen计划在温哥华通过Airbnb维持工作 但欧洲和中国企业的主动挖角显示人才可能永久性流失 [13][19] - 马斯克等科技领袖公开反对H1B限制 警告政策将削弱美国AI竞争力 但特朗普政府内部存在废除H1B的激进主张 短期政策转向可能性低 [18] 企业应对 - OpenAI等公司面临人才体系风险 尽管公司对Kai Chen提供支持 但移民流程仍导致关键研究员流失 [5] - 中国科技企业加速海外引才 字节跳动通过组织架构调整吸纳Google Fellow级人才 华为为95后研究员开放6G项目主导权 [20][21] - 薪酬竞争力显著提升 阿里云A Star项目、字节Top Seed计划等针对顶尖研究者提供定制化发展路径 形成与美国企业的人才争夺战 [21]
AI 取代人类的第一步,就是剥夺我们“慢思考”的能力
AI科技大本营· 2025-04-28 17:58
AI大模型发展历程 - 1980年代AI主要依赖规则基础的专家系统 如医疗诊断系统通过预定义规则快速处理信息但缺乏灵活性和学习能力 [1] - 21世纪机器学习兴起 垃圾邮件过滤器通过算法从数据中学习识别邮件类型 引入神经网络等复杂模型实现更深入分析 [1] - 当前AI大模型如GPT/BERT具备复杂语言理解和生成能力 关注上下文/情感/逻辑推理 决策表现更接近人类慢思考 [12] 卡尼曼双系统理论对AI的影响 - 系统1(快思考)自动快速运行依赖直觉 占日常决策90%以上 系统2(慢思考)需专注处理复杂问题占深度决策10%以下 [6][10][11] - ChatGPT思维链技术基于双系统理论 通过逻辑推导/因果关系分析实现系统化决策 如Deepseek R1/o1的思维链推理 [12] - 前景理论帮助AI模拟人类损失厌恶心理 启发式与偏差理论优化算法避免认知偏差导致的决策错误 [12][13] AI与人类认知模式对比 - AI向慢思考进化 如360AI深度搜索调用多模型模拟人类思考步骤(意图识别/推理等)提供精准信息 [12] - 人类在信息爆炸时代趋向快思考 依赖短视频/碎片化新闻导致深度思考能力弱化 [15] - AI生成内容(图片/视频/声音)逼真度提升 被用于诈骗如AI换脸案件造成单笔430万元损失 [20][21] AI技术应用与互补 - AI可辅助人类慢思考 如MIT实验室认为AI是工具 能快速分析海量数据为决策提供依据 [25] - AI心理咨询功能通过对话分析用户认知偏差 提升自我认知减少焦虑 [26] - 人类创造力/情感理解力与AI高效性形成互补 如创造性想法和情感连接是AI无法替代的能力 [27] 行业技术动态 - AMD举办2025 GPU挑战赛 设置FP8 GEMM/MLA with ROPE/Fused MoE三大算子赛道 总奖金10万美元 [32][34] - 参赛需通过Github CLI工具提交内核 中国大陆开发者可参与 获奖者或受邀参加硅谷AI日活动 [35][37]