Workflow
大语言模型
icon
搜索文档
字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍
量子位· 2025-08-01 12:23
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 用 扩散模型 写代码,不仅像开了倍速,改起来还特别灵活! 字节Seed最新发布扩散语言模型 Seed Diffusion Preview ,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技 术,在推理速度上表现出色。 在H20上,它的代码推理速度能达到 2146tokens/s ,比同类的Mercury和Gemini Diffusion等模型快不少,同时 比同等规模的自回归模型 快5.4倍 ,并且在代码编辑任务中更具优势。 Seed Diffusion Preview以 结构化的代码生成 为实验领域,系统性地验证离散扩散技术路线作为下一代语言模型基础框架的可行性。 下面介绍它的具体技术细节。 核心是两阶段训练学习 自回归模型存在串行解码延迟瓶颈,理论上,扩散模型的并行生成潜力和整体性生成的优势可以解决自回归模型推理速度局限这一痛点。 但理论优势与实际效果还是有差距,离散扩散模型在语言任务中的大规模部署仍面临两大核心瓶颈: 归纳偏置冲突 和 推理效率瓶 颈 。 为解决上述问题,Seed Diffusion Preview采用了四项关键的技 ...
赛道Hyper | 智谱GLM-4.5:技术突破成因与行业价值
华尔街见闻· 2025-08-01 08:41
作者:周源/华尔街见闻 7月28日,智谱AI发布旗舰模型GLM-4.5并开源。GLM-4.5是一款专为智能体应用研发的基础模型,在 性能、成本控制与多能力融合等方面均有出色表现。 在这些技术突破的背后,哪些因素起了支撑作用? 智谱AI核心团队主要来自清华大学KEG(知识工程)实验室:董事长刘德兵、CEO张鹏和总裁王绍兰 均为KEG实验室核心成员,张鹏和王绍兰同为清华创新领军工程博士,首席科学家唐杰曾任清华大学 计算机系教授。 从GLM-1到GLM-4.5经历四年多迭代。 早期(2021年)GLM模型(10B)就已探索了Transformer架构的优化,2022年推出参数规模达130B的 GLM-130B,2023年推出的GLM-3尝试了混合专家(MoE)架构的轻量化设计,为后续参数效率提升奠 定基础,其小步快跑的迭代模式,让团队对模型架构的理解不断深化。 GLM系列的LLM(大语言模型:Large Language Model)基于Transformer架构构建。 GLM-130B采用DeepNorm(一种用于稳定深层Transformer模型训练的归一化方法)作为层归一化 (Layer Normalizat ...
GLM-4.5大模型杀出重围 “领跑者”智谱走上台前
北京商报· 2025-07-31 22:55
当业界探讨智能体功能、开发环境时,近日北京智谱华章科技股份有限公司(以下简称"智谱")低调发布新一代旗舰 大模型GLM-4.5,这是一款专为智能体应用打造的基础模型,在复杂推理、代码生成及智能体交互等通用能力上实现 能力融合与技术突破。OpenAI"跳票"多次的GPT-5也强调融合,并在6月底将智谱列入全球竞争对手,没想到智谱率先 登场,GLM-4.5的综合得分位列全球第三、国产第一。 在资本市场,智谱也是"沉默的领跑者",4月已在北京证监局办理上市辅导备案,由中金公司担任辅导机构,成为第 一家启动IPO上市的"大模型六小虎"。根据辅导备案报告,8月智谱将进入正式辅导期第二阶段,在这期间,这家脱胎 于清华的大模型公司还密集收获多地国资的战略投资。从实验室到产业,智谱走出了中国通向AGI(通用人工智能) 的另一条路径。 全球第三,国产第一 最近的开源浪潮中,智谱的GLM-4.5发布仅2小时,就被X平台推荐上了首页,发布12小时后,它已经位列国际开源社 区Hugging-Face榜单全球第二,创增速纪录。 2024年1月,OpenAI CEO山姆·奥特曼曾在接受媒体采访时提到,他现在的首要任务是推出可能被称为GP ...
AI令一些人失业,但也让一些人工资大涨
财富FORTUNE· 2025-07-31 21:05
AI对劳动力市场的重塑 - AI正在加速科技行业裁员 受影响员工数量高达8万人 仅微软就裁减1 5万个岗位 同时承诺向新AI项目投入800亿美元 [1] - 非技术岗位对AI技能需求激增 相关职位薪资平均增长28%(约1 8万美元/年) 传统技术岗位占比从2019年61%降至2024年49% [2] - 2024年超半数AI技能需求来自非科技行业 营销 人力资源 金融 教育 制造业等领域AI工具整合加速 [3] 非技术领域AI应用爆发 - 要求GenAI技能的非技术岗位数量暴增8倍 营销 设计 教育 人力资源成为增长最快领域 [3] - 2024年明确要求GenAI技能的职位达6 6万个 较前一年增长近4倍 大语言模型 ChatGPT 提示词工程为热门技能 [6][7] - 客户支持 销售 制造等行业AI人才薪酬涨幅最大 复合型AI技能可使薪资比招聘广告再高43% [5][8] AI技能的价值分化 - 艺术类岗位受AI冲击最大 但沟通 管理 创新等人类独有能力在AI时代价值凸显 [4][10] - 技术岗位更需高级机器学习专家 非技术岗位仅需基础AI应用能力即可获得升职加薪机会 [8][10] - 头部企业正将AI融入全业务链 提升营销 HR 财务等部门的AI技能以构建未来竞争力 [10] 劳动力市场结构性变化 - AI技能普及带来28%薪资增长 但可能伴随高薪技术岗淘汰与低薪岗小幅提薪的结构性压缩 [11] - 掌握两项以上AI技能者薪资溢价显著 人类判断力与AI技能结合的人才极度稀缺 [8][9] - 企业招聘AI岗位时十大核心能力包含技术基础与软技能 复合型人才最受青睐 [9]
新一代青年与新一代人工智能 | 两说
第一财经资讯· 2025-07-31 18:01
近年来,人工智能技术迎来革命性突破,以ChatGPT、DeepSeek等为代表的大语言模型展现出惊人的理 解、推理和创造能力,正在重塑人类社会的知识生产方式和价值创造模式。与此同时,新一代青年成长 于数字时代,他们的学习方式、思维模式都不可避免地与AI交织在一起。 在此背景下,本集《两说》以"新一代青年与新一代人工智能"为主题,特邀复旦大学国际关系与公共事 务学院教授高奇琦、上海交通大学国际与公共事务学院长聘副教授贾开展开对话。他们将讨论这些话 题:青年一代如何认知和使用人工智能?教育体系又该如何调整帮助青年一代适应和引领这场技术变 革?面向未来,人工智能会进一步压制青年一代的机会,还是帮助他们更好地释放潜力? 01 人工智能怎么用? 今年大模型评测高考成绩理科达985水平,文科甚至可冲击顶尖高校,上海交通大学国际与公共事务学 院长聘副教授贾开指出从技术到应用,人工智能已进入全新节点。 人工智能逐渐嵌入到我们生活中,正确认知和使用才能发挥它的作用。全国高校纷纷开设AI通识课, 贾开向复旦大学国际关系与公共事务学院教授高奇琦问道:"学生用了AI后,还愿意思考吗?"高奇琦提 出,如果人工智能仅仅是用来完成作业就会 ...
大厂不再重压ChatBot、“六小虎”声量分化、机器人不依赖绳索“吊着”|WAIC观察
财经网· 2025-07-31 11:53
WAIC展会核心观察 - 展会吸引约35万线下观众,800多家展商展示从大模型到机器人零部件的全产业链技术进展 [1] - 大模型应用从ChatBot转向Agent成为行业焦点,Agent市场规模已达50亿美元且年增长率40% [3][4] - 人形机器人实现从"被吊着"到实际场景复刻的跨越,展示娱乐表演/工厂作业/家庭服务三大类应用 [2][10] 大厂Agent布局 - 阿里推出无影AgentBay并展示三款开源大模型,夸克AI眼镜集成Qwen大模型支持导航/支付/比价功能 [3] - 百度GenFlow 2.0 Agent平台支持多智能体协作和主动干预,8月将全量上线 [3] - 蚂蚁数科基于Qwen3推出金融推理大模型Agentar-Fin-R1,联合金融机构推出超百个金融智能体解决方案 [6] 大模型"六小虎"动态 - 百川智能和零一万物未参展,后者战略转向ToB推出万智企业大模型平台2.0 [7] - 阶跃星辰发布Step3大模型并组建"模芯生态联盟",全年营收目标10亿元 [8] - 智谱AI展示AutoGLM模型可自主完成电商操作,月之暗面重点展示K2模型 [8] 人形机器人进展 - 宇树/智元/星动纪元等厂商展示舞蹈/搬运/服务等场景,核心零部件六维力传感器出货量年增2000+台 [10][12] - 蓝点触控六维力传感器占国内70%市场份额,订单排至9月并完成近亿元B轮融资 [12][14] - 非夕科技展示自适应机器人完成蛋雕/按摩等精细操作,结合具身智能大模型实现复杂任务 [11] 基础设施与算力 - 超云展示AI大模型一体机SuperCube R7000,强调高性价比和专业服务 [9] - 大模型一体机市场快速膨胀,超云通过联合生态伙伴打通应用落地"最后一公里" [10] 行业趋势 - 技术展示转向场景演练,AI应用从"技术炫技"进入产品化能力比拼阶段 [14] - 具身智能技术路线尚未收敛,软硬协同和生态组建成为竞争关键变量 [14]
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
机器之心· 2025-07-31 00:25
机器之心报道 机器之心编辑部 在这届 ACL 大会上,华人团队收获颇丰。 ACL 是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL 在 NLP 领域的学术影响力都位列第一,它 也是 CCF-A 类推荐会议。今年的 ACL 大会已是第 63 届,于 2025 年 7 月 27 日至 8 月 1 日在奥地利维也纳举行。 今年总投稿数创历史之最,高达 8000 多篇(去年为 4407 篇),分为主会论文和 Findings,二者的接收率分别为 20.3% 和 16.7%。 根据官方数据分析,在所有论文的第一作者中,超过半数作者来自中国(51.3%),而去年不到三成(30.6%)。紧随中国,美国作者的数量排名第二,但只占 14.0%。 今年共评选出 4 篇最佳论文,2 篇最佳社会影响力论文、3 篇最佳资源论文、3 篇最佳主题论文、26 篇杰出论文,2 篇 TACL 最佳论文、1 篇最佳 Demo 论文以及 47 篇 SAC Highlights。 以下是具体的获奖信息。 最佳论文奖 在本届4篇最佳论文中,DeepSeek(梁文锋参与撰写)团队以及北大杨耀东团队摘得 ...
清华学者Nature Medicine发文:DeepSeek狂奔,已在近800家医院部署,应完善监管以保障安全
生物世界· 2025-07-30 17:10
中国科技初创企业 深度求索 (DeepSeek) 发布了一系列开源大语言模型 (LLM) ,其中最引人注目的是其旗舰推理大语言模型—— DeepSeek-R1 。其于 2025 年 1 月 发布,迅速爆火,1 月底, DeepSeek-R1 成为美国苹果应用商店下载量最高的聊天机器人,超越了 OpenAI 的 ChatGPT。与 OpenAI 等公司的 主流大模型 相比,DeepSeek-R1 在效率、成本和透明度方面具有优势,一度导致美国科技股大幅下跌。 大语言模型在包括临床决策支持、医疗文档处理、研究与教育以及慢性病护理支持在内的多种医疗任务中提高效率和效果的潜力。然而,实体医院部署大语言模 型,一直面临着持续的挑战,包括数据隐私、高昂的计算成本、集成复杂性以及有限的可解释性。 这些挑战导致了中国只有少数大型医院能够部署大语言模型,但 DeepSeek-R1 的出现迅速改变了这一局面。 2025 年 7 月 30 日,清华大学万科公共卫生与健康学院 张怡 团队及北京大学第一医院 、 中国医学科学院北京协和医学院、清华大学药学院的研究人员在 Nature Medicine 期刊发表了题为 : Rapid d ...
大模型发展情况及展望:海内外大模型梳理
2025-07-30 10:32
【大模型发展情况及展望】:海内外大模型梳理 20250729 摘要 人工智能投资经历了三轮浪潮,当前这轮与前两轮相比,持续时间更长, 上涨力度更强劲,且资本开支投入力度和商业化回报潜力更高,市场对 未来行情持乐观态度。 深度学习通过构建深度神经网络,广泛应用于大语言模型,如 Transformer,通过思维树增强逻辑思维能力,显著提升了模型在问答 速度和问题解决方面的表现。 强化学习的引入,使得大语言模型不再依赖大量外部语料,通过少量反 馈数据即可反复训练,显著提升逻辑推理能力,标志着行业进入 post- training scaling law 阶段。 OpenAI 的 GPT-4.5 发布延迟,GPT-5 预计将在逻辑思维、动态处理和 图形界面操作等方面实现跨代提升,同时 O3 在文本和视觉推理方面表 现突出,并引入 agent 制作能力。 GROX 系列模型通过逐步增加算力和强化学习时间,表现惊人,为未来 大模型训练范式提供了重要参考,即大幅延长强化学习时间并投入更多 算力。 强的持续性,还显示出更高的资本开支投入力度和商业化回报潜力。 人工智能的发展历史及其当前阶段是什么? Q&A 人工智能在资本市场 ...
世界人工智能大会,AI教父Hinton告诉你的25个道理
混沌学园· 2025-07-29 20:04
风起于青萍之末。 当我们被 AI 技术奇迹 冲击 震撼 之 时, 往往忽略了一个系统 背后几十年 的理论和 研究 积淀 , 也可能会漏掉一些关于未来的线索 。 Geoffrey Hinton , 诺贝尔物理学奖得主、图灵奖得主 ,同时也被誉为 人工智能教父 。 在 最近备受 关注的 上海 世界人工智能大会 WAIC2025 上,他发表了关于《数字智能是否会取代生物智能》的开场 演讲。 1. 过去 60 多 年,学术界对人工智能存在两种截然不同的理解范式:一是逻辑 启发 范式,认为智能的 本质在于 符号 推理;二是图灵和冯 ·诺依曼倡导的 生物学范式 , 认为 智能 的基础在于理解和学习 神经网络中的连接,而理解 是占首位的 。 2. 1985 年,我构建了一个小型模型,尝试融合上述两种理论,进一步探索人类是如何理解词汇的。我 为每个词提取了多个特征,将其与前一个词的特征建立联系,来预测下一个词。这一过程不依赖存储完 整句子,而是通过特征关联生成语言。 3. 十年后, Yoshua Bengio 证明这一方法可以有效建模自然语言;二十年后,计算语言学界接受了使 用特征向量(即嵌入)来表示词义;三十年后,谷歌提出 ...