推理大模型

搜索文档
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-06 07:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]
质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
机器之心· 2025-06-09 12:33AI Processing
新鲜早科技丨雷军微博开启评论限制;谷歌推出革命性AI编程工具;Manus母公司辟谣融资消息
21世纪经济报道· 2025-05-15 10:05
巨头动向 - 小米集团创始人雷军设置微博评论限制,仅允许关注100天以上的粉丝评论,旨在防止水军干扰[2] - 谷歌DeepMind团队推出革命性AI编程工具AlphaEvolve,基于Gemini 2.0大语言模型,能自主生成、改进算法代码[2] - 英伟达CEO黄仁勋2025财年薪酬增长46%至近5000万美元,主要因股票奖励价值上升[3] - 腾讯成立电商产品部,负责探索微信内交易模式,加速发展交易基建及生态[3] 融资与资本运作 - 蝴蝶效应公司否认Manus母公司拟融资1亿美元的消息,称目前专注于产品[3] - 微分智飞完成数千万元天使轮及天使+轮融资,资金将用于加速飞行具身智能领域创新[7] 产品与技术 - 小米申请注册"XIAOMI MIMO"商标,涉及运输工具、科学仪器等类别,该模型为小米首个推理大模型[4] - 苹果计划为Vision Pro头显添加眼动滚屏功能,利用现有眼球追踪硬件提升交互体验[8] - 阿里巴巴开源视频生成与编辑模型通义万相Wan2.1-VACE,支持多种视频生成和编辑能力[8] 市场与销售 - 苹果下调iPhone 16 Pro系列价格,最高降价2500元,可能为"618"大促做准备[4] - 索尼预计美国关税将造成1000亿日元(7亿美元)影响,导致营业利润增长预期落空[4][5] 行业趋势 - IDC预测中国AR/VR市场2024-2029年复合增长率达41.1%,增速全球第一[5] - 腾讯2025年Q1营收1800亿元,同比增长13%,微信及WeChat月活突破14亿[6] 公司治理 - 特斯拉董事会成立特别委员会研究马斯克薪酬问题,可能提出新的股票期权方案[5]
小米申请推理大模型MiMo商标
快讯· 2025-05-14 15:00
小米科技商标申请动态 - 公司近日申请注册多枚"XIAOMI MIMO"商标 国际分类涵盖运输工具 科学仪器 通讯服务等领域 当前商标状态均为等待实质审查 [1] - Xiaomi MiMo是公司首个推理大模型 采用联动预训练到后训练技术 旨在全面提升推理能力 [1] - 该模型计划于2025年4月30日开源 [1] 人工智能领域布局 - 此次商标申请显示公司正在加强在AI推理大模型领域的技术储备 [1] - 模型技术路径明确 通过预训练与后训练联动优化推理性能 [1] - 开源计划表明公司可能采取开放生态策略推动技术应用 [1]
数字中国峰会 |度小满CTO张文斌:Agent正在重塑客户体验与金融风险决策模式
中国经济网· 2025-04-29 20:04
文章核心观点 第八届数字中国建设峰会期间举办"数智赋能·金融创新"数字金融分论坛,度小满首席技术官张文斌分享大模型在金融领域的应用变化、优势及落地建议 [1][3] 峰会及分论坛信息 - 第八届数字中国建设峰会4月29 - 30日在福建福州举行 [1] - 由北京大学主办的"数智赋能·金融创新"数字金融分论坛探讨数字技术重构金融生态及数字金融人才培养模式 [1] - 国家数据局副局长夏冰等参加分论坛 [1] 大模型应用变化 - 以R1推理大模型发布为节点,大模型能力从生成式转向推理大模型,通用工具从智能助手升级为Agent [1] - 推理大模型在金融中的应用从"外围"领域深入到"核心"场景 [3] 大模型应用优势 客户体验方面 - AI Agent重构交互模式,全流程线上引导客户,实时解答疑问,避免人工干预导致的体验割裂 [3] - 以信贷借款为例,传统流程繁琐、等待长,借助AI技术全流程线上引导,保障体验一致性 [3][4] 风险管理方面 - 推理大模型能充分理解全维度原始数据,提升数据使用效能,可识别高风险行为 [4] 大模型落地建议 - 寻找"小切口"构建Agent,深入特定场景和客群,研发差异化Agent [4] - 先落地应用,利用场景化数据反向优化模型,形成"飞轮效应" [4] - 集中算力和人才,建立适应AGI时代的企业组织,成立专项团队加速落地,培育"AI觉醒人才"带动全员转型 [4]