Qwen 2.5

搜索文档
财富是对认知的补偿,不是对勤奋的奖赏
格隆汇· 2025-09-16 01:31
上周继续研读二战,日本偷袭珍珠港。当年日军出发前,美国控制着威克岛、关岛、中途岛、约翰斯顿岛、巴尔米拉岛等一连串重要岛屿。相当于在日军基 地与珍珠港之间形成一张巨型前哨警戒网。可偏偏日军很有创新精神,实现了海上加油技术,让油轮跟着日军军舰,边前进边加油。于是,绕开美军重围的 北太平洋远航成为了可能。但美军也有杀手锏,无线电定位网络。日军只能时刻静默,除了……一开始。没错,日军偷袭珍珠港的舰队刚在北方集结完毕, 就让美军发现了。美国情报部门得出的结论是:日本要偷袭苏联。这逻辑...勉强也说的通吧。接着,日军大舰队的信号就彻底消失了。偷袭前一周,美军终 于又连续精确定位了日军偷袭舰队的位置。美军情报部门才发现:"哦,不是打苏联,那....肯定是在演习。因为这个距离已经接近日本航母的航程极限。"于 是,美军再次低估了危险。偷袭前五天,美军情报系统在珍珠港西北海域发现两艘日军航母。美军情报部门的态度是:"超出了航程极限?那...肯定是情报 错了,没有航母。"偷袭当天,美军雷达发现了日军机群,上级的反应是:"没事,肯定是自己的飞机。"此情此景,让我想起一个病人说:"医生,我不想做 手术,要不你帮我P一下X光片吧?" 说 ...
谷歌版小钢炮开源,0.27B大模型,4个注意力头,专为终端而生
36氪· 2025-08-15 18:10
模型性能特点 - 模型仅含2.7亿参数 其中1.7亿为嵌入层参数 1亿为Transformer模块参数[7] - 词汇量达25.6万token 可处理特定及罕见词汇[7] - 注意力头仅4个 比Qwen 3 0.6B少12个[4] - 在Pixel 9 Pro手机运行INT4量化版时 25轮对话仅耗电0.75%[8] 功能应用场景 - 支持文本分类和数据提取任务 可生成创意内容如睡前故事[4][7] - 可直接在浏览器本地运行 无需联网[4] - 支持OCR应用 可将图片或PDF转换为结构化Markdown格式[4] - 提供INT4量化支持 性能损耗极微[10] 开发部署优势 - 微调过程仅需数分钟 开箱即具备指令遵循能力[1][9] - 支持通过Hugging Face/Ollama/Kaggle等平台获取模型[13] - 可使用Vertex AI/llama.cpp/Keras等工具测试[14] - 支持通过Hugging Face/UnSloth/JAX进行个性化微调[15] 行业应用案例 - SK Telecom采用Gemma 3 4B进行多语言内容审核 微调后性能超越大型专有模型[11] - 适用于情感分析/实体提取/合规检查等专业任务批量处理[13] - 可实现完全本地化部署 保障用户隐私数据不传输至云端[13]
谷歌版小钢炮开源!0.27B大模型,4个注意力头,专为终端而生
量子位· 2025-08-15 14:44
模型发布与市场反应 - 谷歌开源Gemma 3 270M模型 参数规模为2.7亿 其中1.7亿为嵌入层参数 1亿为Transformer模块参数 [1][14] - 模型可直接在浏览器本地运行 无需联网 支持创意内容生成如睡前故事 [3] - 发布后引发市场关注 网友误以为参数规模为270B 实际仅为0.27B [4] 架构与性能特征 - 采用紧凑高效架构 仅包含4个注意力头 较Qwen 3 0.6B模型少12个注意力头 [7] - 词汇量达25.6万token 可处理特定领域罕见词汇 适合进一步微调 [15] - 支持INT4量化运行 在Pixel 9 Pro手机25轮对话仅消耗0.75%电量 能效表现突出 [17] - 提供量化感知训练检查点 INT4精度下性能损耗极微 适合资源受限设备部署 [19] 功能与应用场景 - 开箱即用精准遵循指令 微调后可释放文本分类和数据提取能力 [12][13] - 支持OCR应用 可将图片或PDF转换为结构化Markdown格式 [6] - 适用于情感分析、实体提取、查询路由、文本结构化、创意写作及合规检查等批量任务 [27] - 支持完全本地化运行 无需云端数据传输 保障用户隐私 [24] 开发与部署优势 - 微调仅需数分钟 支持快速迭代实验 数小时内可完成用例配置 [1][24] - 可通过Hugging Face、Ollama、Kaggle等平台获取模型 [25] - 支持使用Hugging Face、UnSloth或JAX工具进行个性化微调 [28] - 可部署于低成本基础设施或终端设备 大幅降低推理成本 [24][27] 行业合作与案例 - Adaptive ML与SK Telecom合作案例 使用Gemma 3 4B模型微调后 在多语言内容审核任务中超越更大规模专有模型 [20][21] - 轻量化模型策略适用于明确界定的任务 可释放更高效率 [23]
2025Q1人工智能现状分析:中国
搜狐财经· 2025-05-25 11:21
中国人工智能实验室发展 - 中国人工智能实验室在数量和质量上均有显著提升 正逐步缩小与美国实验室的差距 [1] - DeepSeek的R1模型和阿里巴巴的Qwen系列已接近OpenAI的o1级智能水平 性能表现突出 [1] - 多家中国实验室推出高性能推理模型 该类模型在回答前进行"思考" 提升了文本理解和生成能力 [9] 大型科技公司动态 - 阿里云、腾讯、百度等公司利用资金和技术优势 快速推出前沿模型如Qwen 2.5和豆宝1.5 Pro [2] - 阿里巴巴的Qwen系列和DeepSeek的R1模型开放权重 促进技术共享和生态发展 [1] 行业挑战与应对 - 美国对NVIDIA H100/A100等高端GPU的出口管制对中国AI硬件供应造成压力 [2] - 中国公司积极开发国产芯片或使用合规硬件作为替代方案 [2] 初创企业表现 - MiniMax、智浦等初创公司在医疗、自动驾驶等垂直领域推出创新模型 获得市场认可 [2] 技术竞争格局 - 2024年末中国顶尖实验室密集发布高性能模型 智能水平差距从85缩小至80(基于Artificial Analysis基准测试) [9] - 美国实验室中Google Gemini 2.0和Meta模型正快速逼近OpenAI的GPT-4 Turbo [9] - OpenAI的o3模型在2024年引领GPT-4之外的智能飞跃 推理模型和数据质量成为性能提升关键杠杆 [9] 市场趋势 - 中国AI领域投入持续增加 大型企业和初创公司共同推动技术进步 [3] - 行业预计未来几年中国将在部分AI细分领域实现超越 带来新的商业机会 [3]
Michael Burry just made $1.2 million in two days
Finbold· 2025-05-12 23:06
阿里巴巴股价表现 - 阿里巴巴股价在2025年5月12日开盘后一小时内飙升6 52% 从125 51美元涨至133 50美元 [1][2] - 此次上涨使美国股市总市值单日增加2万亿美元 [1] - 2025年1月27日至2月21日期间 阿里巴巴股价曾从89 99美元飙升至143 75美元高位 涨幅达59 7% [7] 迈克尔·伯里持仓变动 - 截至2024年12月31日 伯里持有15万股阿里巴巴股票 价值1270万美元 [2] - 2025年5月9日收盘时持仓价值升至1880万美元 5月12日进一步增至2002万美元 [2] - 若持仓未变 伯里在最新一个周末通过阿里巴巴股票获利约120万美元 [2][4] 市场不确定性因素 - 伯里的实际持仓可能已在2025年Q1或Q2调整 最新13-F文件数据截止2024年Q4 [6][9] - 2025年Q1末的13-F文件将在5月中旬披露 但数据仅更新至3月31日 [9] - 阿里巴巴在2025年初发布Qwen2 5 AI模型后股价大幅波动 可能影响投资者决策 [7][8] 行业技术动态 - 阿里巴巴Qwen2 5人工智能模型发布后引发股价异动 时间点紧接DeepSeek R1冲击美国科技巨头 [7]
Qwen 3 发布,开源正成为中国大模型公司破局的「最优解」
Founder Park· 2025-04-29 20:33
阿里Qwen 3大模型发布 - Qwen3-235B-A22B评测成绩与DeepSeek R1、Grok-3、Gemini-2.5-Pro相当,支持混合推理和增强Agent能力 [1] - 全系列模型实现全参数(0.6B-235B)和全模态覆盖,成为HuggingFace最受欢迎开源模型,衍生模型数量突破10万超越Llama系列 [16][17][23] - 采用"思考模式/非思考模式"无缝切换技术,优化MCP工具调用成功率,官方明确从"训练模型"转向"训练Agent"的战略方向 [5][6][7] 中国开源模型全球竞争格局 - DeepSeek+Qwen形成开源"双子星"格局,取代Llama+Mistral成为全球主流开源生态 [1][13] - 开源策略突破地缘政治壁垒:模型权重和训练细节全公开,开发者可自托管定制,建立全球开发者社区信任 [10][12][15] - 两种差异化商业模式:DeepSeek通过技术突破提供低价API服务(成本降低80%),Qwen通过开源带动阿里云商业闭环 [19][20][21] MaaS模式创新 - 阿里云构建"模型-云-行业应用"飞轮:Qwen开源降低AI创业门槛,百炼平台提供MCP服务接入 [2][24] - 实际案例显示Claude+Qwen2.5组合成为创业公司主流方案,混合使用闭源与开源模型平衡成本能力 [25][27][30] - 行业专用模型在医疗、金融等高壁垒领域仍具优势,但需结合本地化服务和数据闭环 [14] AI创业者实践洞察 - 模型选择策略:ToB企业倾向Qwen32B微调(单卡可部署),ToC企业采用API组合(Gemini+DeepSeek) [27][45] - 四大核心挑战:长文本处理衰减(播客场景)、多模态情感理解(心理场景)、国产芯片适配(机器人场景)、并发稳定性(服务场景) [36][40][41] - 创业方法论验证:70%成功案例遵循"X+AI"而非"AI+X"模式,留存率取决于真实需求解决而非技术指标 [48][50] 开源模型技术趋势 - 能力差距持续存在但应用门槛降低:2025年开源模型已满足PMF验证需求,微调价值向窄领域迁移 [25][43] - 三大技术方向:混合推理架构(成本控制)、Agent工具调用(实用化)、多模态融合(场景适配) [5][7][23] - 社区驱动创新:Qwen生态含完整工具链(vLLM/SGLang),DeepSeek聚焦前沿技术(MoE/多模态) [32][49]
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被视为"AI智能体元年",但目前64.2%的企业AI智能体仍处于试点阶段,仅6.4%表现超出预期[1][2] - 行业普遍面临智能体从实验室到规模化应用的过渡难题,24.8%的企业反馈现有方案需高投入[2] RAGEN系统技术突破 - 由王子涵团队开发的RAGEN系统采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化实现多轮交互训练[5][7] - 系统创新性地引入两阶段训练:rollout阶段生成完整交互序列,update阶段基于归一化奖励更新参数[7] - 使用阿里巴巴Qwen系列开源模型作为基础,确保实验可复现性并支持符号任务对比[9] 训练稳定性解决方案 - 发现"回声陷阱"现象:模型在训练后期倾向于复制高奖励回答导致推理能力退化[12] - StarPO-S框架新增三项机制:基于不确定性的rollout筛选、移除KL惩罚项、非对称PPO剪裁,使训练崩溃率显著降低[19] - 在Bandit/Sokoban/Frozen Lake三个测试环境中验证,奖励水平平均提升30%以上[17][19] 企业应用挑战 - 任务多样性、交互粒度和rollout新鲜度被确认为影响训练效果的三大关键因素[22] - 当前奖励机制存在"重结果轻过程"缺陷,需优化奖励设计逻辑以维持长期推理能力[23][24] - 符号类任务到真实业务场景的迁移仍存挑战,如发票处理等场景需重新设计环境[24] 开源生态建设 - RAGEN系统及StarPO/StarPO-S框架已在GitHub开源,采用MIT协议[10][14] - 项目获得微软、斯坦福等机构支持,技术路线可能重塑大模型训练范式[2][9]
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被普遍认为是"AI智能体元年",基于大语言模型(如OpenAI、Anthropic、Google、DeepSeek)的智能体系统将专注于特定任务[2] - 当前64.2%的企业AI智能体仍处于试点阶段("pilot purgatory"),仅4.6%接近规模化应用[3][4] - 行业面临核心挑战:强化学习训练易崩溃,模型易陷入重复输出相似内容的"回声陷阱"现象[18][19] RAGEN系统技术突破 - 由李飞飞团队联合西北大学、微软等机构开发,聚焦提升AI在企业应用中的稳定性和可靠性[5] - 采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化,强调完整决策路径训练而非单次回答优化[11] - 开源框架包含三项创新机制:优先选择模型"犹豫"的交互序列、移除KL惩罚项、非对称PPO剪裁,显著提升训练稳定性[27][28][29][30] - 实验基于阿里巴巴Qwen系列开源模型(1.5/2.5版本),确保结果可复现性[14] 测试环境与评估方法 - 设计三类符号化测试环境:Bandit(风险收益推理)、Sokoban(规划能力)、Frozen Lake(适应性思考)[23] - Bandit任务要求模型通过类比推理(如将"龙"关联力量、"凤凰"关联希望)预测奖励分布,而非依赖直接概率数据[25][26] - 测试环境剥离现实先验知识干扰,纯粹评估训练所得策略的有效性[24] 企业应用现实挑战 - 训练效果三大关键因素:情境多样性、交互粒度(支持多动作/轮)、rollout新鲜度(数据与当前策略同步)[33][34] - 当前奖励机制缺陷:过度关注结果正确性而忽视推理过程质量,导致多轮任务中推理能力退化[36][38] - 技术局限性:长任务场景仍可能崩溃,符号类问题解决方案向真实业务(如发票处理)迁移存在不确定性[40] 行业影响与开源生态 - RAGEN标志着向"具备自主推理能力智能体"迈进,重构大模型训练边界认知[41] - 项目采用MIT协议开源,GitHub已获1.4k星、102分支,主要代码为Python(88.7%)和Shell(11.3%)[16][17] - 核心开发者王子涵(前DeepSeek研究员)专注大语言模型自主性与长文本理解,曾参与DeepSeek-V2项目[6]
Michael Burry's Alibaba bet pays off big; Here's how much it's worth now
Finbold· 2025-03-24 20:43
文章核心观点 著名投资者迈克尔·伯里对中国市场的投资在2025年取得成效,其旗下基金近半仓位配置中国科技公司,阿里巴巴是其表现最佳资产,因基本面良好股价上涨,伯里持仓获近760万美元未实现收益 [1][2][8][9] 迈克尔·伯里投资情况 - 迈克尔·伯里因预测2008年次贷危机获利闻名,近年转向中国市场投资 [1] - 他将近半Scion Asset Management基金组合配置中国科技公司,虽减持但持仓仍可观,阿里巴巴是表现最佳资产 [2] 阿里巴巴股价表现 - 截至3月24日,阿里巴巴纽交所股价涨至135.14美元,年初至今涨幅61.52%,港交所涨幅63.35% [3] 阿里巴巴业绩增长原因 - 2024年Q4财报双超预期,营收和利润均超分析师预期 [4] - 云智能集团季度营收增长13%,AI相关产品销售连续六个季度三位数增长 [4] - 电商平台淘宝和天猫客户管理收入增长9% [5] - 国际商业部门包括速卖通和Trendyol,上季度营收同比增长32% [5] 阿里巴巴技术合作与创新 - 宣布与苹果合作将AI功能引入中国销售的iPhone,引发投资者关注 [6] - 发布Qwen 2.5版本AI模型,称效率和性能超DeepSeek模型 [7] 投资收益情况 - 2025年初投资1000美元阿里巴巴股票,如今价值约1615美元,利润615美元 [8] - 截至2024年12月31日,伯里持有15万股阿里巴巴股票,价值1270万美元,到3月24日持仓涨至约2030万美元,未实现收益约760万美元 [8][9]
China's Bull Market Keeps Growing. 4 Reasons to Buy Alibaba Like There's No Tomorrow.
The Motley Fool· 2025-03-23 16:45
文章核心观点 美国股市承压时中概股ADR突然火爆且有上涨空间 阿里巴巴是值得买入的中概股之一 有四个买入理由 [1] 分组1:阿里巴巴在AI领域领先 - 尽管先进半导体出口受限 中国公司在人工智能领域取得进展 阿里巴巴是领导者之一 其最新Qwen 2.5模型表现优于竞争对手 [2] - 除基础模型外 阿里巴巴还提供特定任务的开源模型 秋季推出超100个模型 本月初推出由新QwQ - 32B AI推理模型驱动的新AI助理 [3] - 阿里巴巴的AI能力在云计算业务云智能结果中显现 上季度该业务收入增长13% AI相关收入再次翻倍以上 盈利能力飙升 调整后EBITDA增长33% [4] - 公司开始与其他领先科技公司合作 苹果将用其AI模型为中国的Apple Intelligence解决方案提供支持 还与中国AI初创公司Manus AI合作开发代理AI [5] 分组2:阿里巴巴核心电商业务好转 - 阿里巴巴电商业务由天猫和淘宝两大平台组成 此前受中国经济滞后和竞争压力影响 公司大力投资电商业务以提升商品交易总额并实现平台更好货币化 [6][7] - 上季度这些努力开始见效 第三方收入增长9% 整体业务收入增长5% 业务EBITDA微升2% 业务好转尚处早期但已取得明显进展 [8] 分组3:新兴业务为阿里巴巴带来上涨空间 - 阿里巴巴的国际商业部门发展较为领先 包括速卖通跨境业务和专注土耳其及中东本地商家的Trendyol 还在建设菜鸟物流业务以服务速卖通并缩短交付时间 [9] - 该部门上季度收入增长32% 但仍拖累盈利能力 上季度EBITDA为负6.78亿美元 管理层预计下一财年该部门将首次盈利 实现盈利将推动公司盈利增长 [10] 分组4:阿里巴巴股票估值有吸引力 - 尽管今年股价大幅上涨 阿里巴巴股票估值仍有吸引力 截至目前股价年内涨幅超60% [11] - 按2026财年分析师估计 其远期市盈率约为15 约为美国同行亚马逊估值的一半 资产负债表上有231亿美元现金和短期投资以及474亿美元股权和其他投资 占市值超20% [12] - 公司有加速营收和盈利增长的潜力 是值得买入的选择 [13]