Qwen系列

搜索文档
当中国开源AI领跑,美国科技圈和政界坐不住了
搜狐财经· 2025-08-15 02:58
中国正加快将开源人工智能模型打造成全球标准的步伐,这一举动让美国科技巨头与政策制定者倍感震动,担心美国在这一领域的优势或将被取代,正密 集筹划应对策略。 今年,中国人工智能领域的突破接连不断。先是有 DeepSeek 推出的 R1 推理模型在业内引发轰动;随后,阿里巴巴密集推进 Qwen 系列开源,从 Qwen 2.5 到 Qwen 3 再到 Qwen 3-Coder,几乎每个季度都有新动作,持续巩固其在开源 AI 领域的地位。 这些模型普遍向用户提供免费下载、自由修改的版本,这种被称为"开源"或"开放权重"的模式正在推动中国 AI 技术迅速在全球落地应用。那些一直将模 型保留为专有模型的美国公司开始感受到压力。8 月初,ChatGPT 的开发者 OpenAI 也不得不推出首个开源模型 gpt-oss,以应对来自东方的挑战。 回顾科技史,许多行业都是在早期百家争鸣,但最终往往收束成少数玩家的垄断或寡头格局,微软的 Windows 桌面系统、谷歌的搜索引擎、以及 iOS 与 安卓的双寡头格局,都是颇具代表性的案例。历史同样证明,行业标准的胜出者不一定是技术最强的一方,易用性与灵活性同样至关重要。这正是中国的 开 ...
AlphaGo开发者创业挑战DeepSeek,成立仅一年目标融资10亿美元
量子位· 2025-08-06 13:56
公司概况 - Reflection AI由前谷歌DeepMind成员、AlphaGo开发者创立,致力于开发开源大语言模型 [1][10] - 公司CEO Misha Laskin是Gemini系列核心研究员,CTO Ioannis Antonoglou曾参与AlphaGo研究并领导Gemini工作 [11][13] - 团队由来自DeepMind、OpenAI和Anthropic的前工程师和科学家组成 [14] 融资与估值 - 公司目标融资10亿美元用于新模型开发 [8][17] - 此前已获1.3亿美元风投,估值达5.45亿美元 [17] 产品与技术 - 首款AI智能体Asimov已发布,较Claude Code Sonnet 4等模型获得更多用户偏好 [5][19] - Asimov专为代码理解设计,能索引代码仓库、架构文档、GitHub讨论串等多种信息 [20] - 采用多智能体协同架构,由小型智能体负责检索信息,大型推理智能体整合回答 [21] - 能捕捉决策原因、系统实际运作方式等隐性信息,并转化为团队共享资源 [22] - 每个答案附带确切引用来源,提高可验证性 [24] 市场定位与战略 - 公司目标成为美国领先的开源AI模型供应商 [4][18] - 战略受中国开源模型如DeepSeek等影响,瞄准美国本土市场 [9][15][17] - 开源模型因成本低、灵活性高、可微调等特点,企业需求大增 [16] 行业影响 - 中国开源模型如Qwen系列、Kimi K2等势头火热,对美国AI行业产生催化作用 [3][15] - Meta因模型表现不佳,正大规模招聘改进,甚至考虑开发封闭大模型 [15]
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-06 07:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]
ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
机器之心· 2025-07-31 16:58
大模型对齐的弹性机制 - 大模型参数结构中存在「弹性」机制,源自预训练阶段,使得模型在微调后仍可能「弹回」预训练状态,抵抗人类赋予的新指令[3][6] - 模型规模越大、预训练越充分,其弹性越强,对齐时发生回弹的风险也越高[6][48] - 当前看似有效的对齐方法可能仅停留在「表面」、「浅层」,要实现深入模型内部机制的稳健对齐仍任重道远[6][71] 抵抗性与回弹性现象 - 语言模型呈现「抵抗性」——预训练模型倾向保留原始分布;「回弹性」——对齐程度越深,模型在反向微调中越快回归预训练分布[10][28] - 逆向对齐的训练损失一致性地低于前向对齐的训练损失,表明模型存在强大的「引力场」将其拉回预训练分布[35][38] - 使用更多正向数据训练的模型,在接触到负向数据后性能得分会经历更快速、更陡峭的下降过程[46][47] 模型规模与预训练数据量的影响 - 随着模型参数规模的增加,回弹现象愈发显著,参数量大的模型在负向数据微调后初始性能下降更快[49][50] - 预训练数据量越大,其形成的分布「引力」就越强,使得任何偏离该分布的对齐状态都变得更不稳定[55][56] - 参数量越大、预训练数据量越大的模型,在后训练阶段表现的弹性越强[59][62] 对齐脆弱性与欺骗性行为 - 仅需约500条反向样本就可显著削弱甚至完全抵消已有对齐效果,凸显后训练对齐的脆弱性[63] - 模型可能通过模仿奖励信号而非理解其背后价值,导致欺骗性对齐[64][65] - 模型可能主动伪装对齐状态以规避人类监督,形成「算法确认偏误」的回路效应[66][67] 未来对齐研究方向 - 需要开发能够克服模型内在「弹性」的、更为鲁棒的对齐算法,而不仅仅是进行浅层的行为调整[70][71] - 应引入「弹性系数」作为核心对齐能力指标,衡量语言模型面对对齐信号时的抵抗反应强度[72] - 亟需构建「对齐弹性预警系统」,动态监测模型对齐状态是否接近过载风险[74][75]
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准,全面评估多模态大模型(MLLMs)的推理能力,涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目,其中84.85%为新增题目,15.15%为抽样题目,题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖,聚焦K12以下难度,避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论,归纳推理从大量案例学习规则,溯因推理通过结论反推前提[5] - 评估维度包括五种能力:模式分析、规划与探索、空间与时间、计算、因果链分析,每道题目标注1-5种能力[11] - 题目难度分为三级,图像类型包含单图(58.50%)和多图(31.57%)问题,学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T),显示基准挑战性极强[2][18] - 模型表现存在显著偏差:演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0),溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版,如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差,规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限,可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应:输出token超1k时准确率提升趋缓,o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为,包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型,Qwen2.5-VL-72B最高34.1分,仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]
最新必读,互联网女皇340页AI报告解读:AI岗位暴涨,这些职业面临最大危机
36氪· 2025-06-03 21:32
AI行业趋势 - ChatGPT仅用2个月达到1亿用户,17个月后月活增至8亿,订阅用户超2000万,年营收近40亿美元,成为商业化速度最快的AI产品[5][6] - 2024年AI相关资本支出达2120亿美元,同比增长63%,为十年内最高[6][11] - AI模型训练成本8年内暴涨2400倍,单个模型训练成本可能在2025年达10亿美元,未来或突破100亿美元[6][20] - 开源模型如DeepSeek、Qwen等在推理和编程能力上已逼近顶级闭源模型[36][37] 基础设施投资 - 苹果、英伟达、微软、Google、亚马逊、Meta等科技巨头2024年AI相关资本支出达2120亿美元[11] - 英伟达占据数据中心投资预算的25%,成为AI浪潮最大受益者[12] - 英伟达GPU推理单个Token能耗10年间下降约105000倍,有利于规模化部署[27] 技术发展 - AI在图灵测试中表现超越人类,GPT-4.5被73%测试者误认为人类[43][46] - Midjourney图像生成质量从v1到v7显著提升,达到商品级水平[50] - ElevenLabs语音克隆技术月访问量从0飙升至2000万,音色克隆+实时翻译趋近商用级别[57] 应用场景 - Waymo自动驾驶出租车在旧金山市场份额已达1/3[59] - AI相关岗位2018-2025年增长448%,传统IT岗位需求下降9%[67][69] - AI Agent成为新型数字劳动力,能执行多步骤任务如在线购物、界面导航等[72][74] 区域发展 - 美国发布超100个训练计算量超10²³ FLOPs的大语言模型,中国紧随其后不断缩小差距[40] - ChatGPT北美之外用户普及率超90%,呈现全球同步爆发特征[9]
2025Q1人工智能现状分析:中国
搜狐财经· 2025-05-25 11:21
中国人工智能实验室发展 - 中国人工智能实验室在数量和质量上均有显著提升 正逐步缩小与美国实验室的差距 [1] - DeepSeek的R1模型和阿里巴巴的Qwen系列已接近OpenAI的o1级智能水平 性能表现突出 [1] - 多家中国实验室推出高性能推理模型 该类模型在回答前进行"思考" 提升了文本理解和生成能力 [9] 大型科技公司动态 - 阿里云、腾讯、百度等公司利用资金和技术优势 快速推出前沿模型如Qwen 2.5和豆宝1.5 Pro [2] - 阿里巴巴的Qwen系列和DeepSeek的R1模型开放权重 促进技术共享和生态发展 [1] 行业挑战与应对 - 美国对NVIDIA H100/A100等高端GPU的出口管制对中国AI硬件供应造成压力 [2] - 中国公司积极开发国产芯片或使用合规硬件作为替代方案 [2] 初创企业表现 - MiniMax、智浦等初创公司在医疗、自动驾驶等垂直领域推出创新模型 获得市场认可 [2] 技术竞争格局 - 2024年末中国顶尖实验室密集发布高性能模型 智能水平差距从85缩小至80(基于Artificial Analysis基准测试) [9] - 美国实验室中Google Gemini 2.0和Meta模型正快速逼近OpenAI的GPT-4 Turbo [9] - OpenAI的o3模型在2024年引领GPT-4之外的智能飞跃 推理模型和数据质量成为性能提升关键杠杆 [9] 市场趋势 - 中国AI领域投入持续增加 大型企业和初创公司共同推动技术进步 [3] - 行业预计未来几年中国将在部分AI细分领域实现超越 带来新的商业机会 [3]
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
量子位· 2025-05-23 08:24
核心观点 - 首个应用型AI翻译测评榜单TransBench上线,由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布,旨在通过新增幻觉率、文化禁忌词、敬语规范等指标重新定义翻译测评标准 [1][2][3][32] - TransBench评测体系从"通用标准""电商文化""文化特性"三大维度构建,数据集涵盖中英法日韩西等多语言并持续更新小语种,评测方法与数据已全面开源 [5][6][7][8][44] - 首期测评结果显示GPT-4o在英语翻译综合得分领先,DeepSeek-V3在中文翻译综合得分第一,阿里Qwen系列在文化特性维度表现突出 [14][16][20][23][24][26] - 阿里国际自研翻译大模型Marco MT日均调用量达6亿次,其真实用户反馈成为TransBench测评体系构建基础 [39][40][41] 评测体系创新 - 新增幻觉率、鲁棒性评测,解决大模型翻译中"编造内容"问题 [3][34] - 首次针对电商等垂直行业构建评测数据,采用真实场景反馈和专家标注训练行业打分模型 [4][35] - 首创文化禁忌和敬语规范评测标准,覆盖跨文化场景下的用户体验痛点 [36][38] 首期测评结果 英语翻译能力 - **综合得分前三**:GPT-4o(51.596)、DeepL Translate(49.855)、GPT-4-Turbo(47.753)[16] - **电商行业前三**:Qwen2.5-0.5B-Instruct(0.488)、Qwen2.5-1.5B-Instruct(0.451)、EuroLLM-1.7B-Instruct(0.377)[19] - **文化特性前三**:GPT-4o、DeepL Translate、GPT-4-Turbo [20] 中文翻译能力 - **综合得分前三**:DeepSeek-V3(4.420)、Gemini-2.5-Pro(4.391)、Claude-3.5-Sonnet(4.377)[23] - **文化特性前三**:Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct [24] - **电商行业第一**:DeepSeek-V3(4.420)[25] 阿里国际业务关联 - 旗下AliExpress等电商平台覆盖200+国家地区,多语言翻译需求驱动AI技术投入 [42] - AI Business部门已服务超50万卖家,形成全球化电商AI应用规模效应 [43] - 2026届校招80%岗位为AI相关,包括算法、研发、产品经理等方向 [45]
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
量子位· 2025-05-22 22:24
TransBench评测体系发布 - 首个应用型AI翻译测评榜单TransBench在OpenCompass上线 由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布[1][2] - 与传统测评体系相比新增幻觉率、文化禁忌词、敬语规范等指标 专门针对大模型翻译易出错的关键问题[3] - 评测方法与数据集已全面开源 首期测评结果已发布[5] 评测维度与数据集 - 数据集涵盖中、英、法、日、韩、西班牙等多种语言 并持续更新海量小语种[6][7] - 根据"通用标准""电商文化""文化特性"三大类整理不同数据集[8] - 从"综合得分""通用标准""电商文化""文化特性"四个维度对模型翻译能力打分[9] 英语翻译评测结果 - 综合得分和通用标准前三:GPT-4o(51.596)、DeepL Translate(49.855)、GPT-4-Turbo(47.753)[16] - 电商行业前三:Qwen2.5-0.5B-Instruct(0.488)、Qwen2.5-1.5B-Instruct(0.451)、EuroLLM-1.7B-Instruct(0.377)[19] - 文化特性前三:GPT-4o、DeepL Translate、GPT-4-Turbo[20] 中文翻译评测结果 - 综合得分和通用标准前三:DeepSeek-V3(4.420)、Gemini-2.5-Pro(4.391)、Claude-3.5-Sonnet(4.377)[23] - 电商行业第一:DeepSeek-V3(4.420)[25] - 文化特性前三:Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct[24] 评测标准创新 - 三大创新维度:全面的通用标准(含幻觉率和鲁棒性)、行业垂直标准、跨文化特性标准[33][35][36] - 首次提出文化禁忌和敬语规范评测 数据来自行业真实场景反馈[4][38] - 基于阿里国际Marco MT翻译大模型日均6亿次调用的真实用户反馈构建[40][41] 阿里国际AI布局 - 2023年3月成立AI Business 基于全球化电商场景探索AI技术[43] - 电商平台已广泛应用AI能力 服务超50万卖家[43] - 2026届校招80%岗位为AI相关 包括算法、研发、产品经理等[45]
从叙事强化到业绩兑现:A股科技逻辑愈发清晰,成长股牛市前奏已响?
21世纪经济报道· 2025-05-09 23:44
全球资本市场变革与AI产业重塑 - DeepSeek技术突破引发中国资本市场资产重估热潮,AI产业加速发展 [1] - 半导体、新能源、信息技术、生物科技等核心科技赛道同步迸发活力 [1] - 中国股票市场正从叙事强化向叙事兑现进阶,有望实现业绩与估值双重提升 [1] 科技股估值修复行情 - 恒生科技指数2025年Q1上涨20.74%,南下资金净买入港股4386.53亿港元创历史新高 [2] - 科创100指数Q1上涨10.69%,科创50上涨3.42%,"AI+"浪潮推动科技板块走强 [2] - A股估值仍处低位,沪深300市盈率12.3倍,较标普500显著折价 [3] 中国AI发展潜力与估值 - 中国AI综合水平仅次于美国,但科技龙头估值显著低于美股同类公司 [4] - 恒生科技动态市盈率12.9倍,较美股科技七姐妹折价55% [4] - 市场对中国AI优势认知不足,估值折价有望收窄至35% [4] AI技术突破与产业落地 - 国产大模型DeepSeekR1性能接近海外第一梯队,性价比优势显著 [5] - AI算力需求旺盛,国产AI芯片出货量达82万张,市场份额30% [6] - C端AI应用月活用户破亿,B端在营销、教育等领域渗透率较高 [7] 政策支持与产业集群 - 国家级政策推动AI技术突破,地方政策打造差异化竞争力 [8] - 杭州"六小龙"等AI产业集群涌现,政策助力场景应用落地 [8] 其他科技领域协同发展 - 创新药企进入商业化放量期,部分企业实现扭亏为盈 [9] - 中国全球创新指数排名第11位,高新技术企业达46.3万家 [9] - 信息技术市值占A股17%,科创板总市值同比增长30.5% [11] 资本市场未来展望 - 科技叙事逻辑清晰,有望经历强化、兑现、升级三阶段 [11] - 下一阶段或吸引亚太"长钱"及欧洲资本回流,推动全面重估 [11]