Workflow
大语言模型
icon
搜索文档
AI如何开启心理治疗领域新时代?
36氪· 2025-06-05 07:19
心理健康护理领域的现状与挑战 - 心理健康护理领域缺乏明确的生理指标来评估干预效果,主要依赖自我报告和临床医生的判断,容易出现漏洞和认知偏差 [1] - 标准化问卷和评分量表提供部分量化指标,但仍存在患者记录不准确和医生判断错误的风险 [1] - 数字技术如智能手机和可穿戴设备可通过被动监测行为数据提供更客观的评估方法 [1] 数字技术与AI在心理健康护理中的应用 - AI可分析地理定位数据、短信发送频率和通话时长来预测抑郁症或双相情感障碍发作 [1] - 大语言模型可分析大量治疗会话记录,识别不同情境下最有效的干预措施和咨询师行为 [2] - 2024年1月的一项研究分析了超过16万次匿名文本咨询会话和2000万条信息,发现"提供信息"与较差治疗结果相关,而"复杂反思"和"肯定"与更好结果相关 [2][3] AI在心理健康护理中的发展阶段 - 第一阶段:AI辅助用途,如将会话录音转换为正式诊疗记录和治疗计划 [4] - 第二阶段:协作参与,如评估实习心理咨询师的循证实践遵循程度或帮助患者完成表格填写 [4] - 第三阶段:完全自主护理,临床大语言模型能执行人类临床医生的所有任务和干预措施 [4] 心理健康护理的未来展望 - AI可能使心理健康护理变得更加便捷、经济、可扩展和个性化,类似于Spotify和奈飞的服务模式 [4] - 完全虚拟的心理咨询师平台可能以每月不到20美元的固定费用提供24小时服务,突破人类心理咨询师的局限性 [6][7] - AI平台可分析数千名相似患者的数据,优先推荐功效超过阈值的方法,并提供个性化治疗方案 [8] AI对心理健康护理行业的潜在影响 - AI系统可帮助培训更多人类心理咨询师,支持他们与更多患者互动 [9] - AI能让当前护理模式无法覆盖的数百万人获得负担得起的护理服务 [9] - 未来可能开创一个更全面、持续且深度融入日常生活的心理健康护理新时代 [9]
11.98万元起售,小鹏MONA M03加推四款新版型升级上市
北京商报· 2025-06-04 12:11
产品发布与定价 - 小鹏汽车于5月28日升级上市MONA M03系列,加推四款全新版型,包括502长续航Max、600超长续航Max、515长续航Plus和620超长续航Plus [1] - 新车型官方指导价区间为11.98万至13.98万元 [1] 市场表现与定位 - MONA M03自2024年9月交付以来,连续8个月月交付量破万,并在216天内实现10万辆的生产交付,刷新新势力纯电车型交付速度纪录 [5] - 公司将AI高阶智能辅助驾驶与个性化设计结合下沉至A级市场,推动智能技术从中高端走向普及化 [10] - 新车型旨在延续销量优势并重塑A级电动车市场的智能标尺 [10] 智能驾驶系统升级 - 新车型全系标配小鹏自研图灵AI智驾系统,是当前同级唯一配备双Orin-X芯片方案,综合算力达508TOPS [5] - 系统配合27个高精度传感器与高清识别系统,具备无需选配、开机即用、全国通用的特点 [5] - 新车首次搭载全球首发的人机共驾功能,实现智能辅助驾驶过程中不强制接管控制 [8] - 泊车能力增强,支持极窄车位、自主出库与全场景车位到车位路径规划 [8] 智能座舱与交互体验 - MONA M03 Max首发天玑系统5.7.0版本,新增超300项功能,语音控制覆盖率超过90% [8] - 依托自研大语言模型XGPT,座舱实现推理、百科查询、连续对话等复杂交互,语音响应时间控制在0.9秒内 [8] - 系统兼容多家主流手机品牌,拓展车机生态使用边界 [8] 外观设计与功能配置 - 新车提供星暮紫、微月灰、星雨青三款原厂新车色,新增两种轮毂设计 [10] - 内饰推出全新“拂晓紫”配色,主副驾均提升舒适功能配置 [10] - 方向盘改为更紧凑的D型运动设计,后视镜升级为极简无边框造型并集成辅助提示灯 [10] - Max版本具备3.3千瓦对外放电功能,拓展户外及应急场景使用可能 [10] 上市与交付 - 此次四款新车型上市即交付,并同步开放全国试驾 [10]
助力水稻研究与智能育种 种业大语言模型“丰登·水稻”向全球开放网站
海南日报· 2025-06-04 09:19
模型发布与定位 - 全球首个专为水稻生物育种打造的大语言模型“丰登·水稻”正式向全球开放网站 [1] - 该模型由崖州湾国家实验室、上海人工智能实验室联合中国农业大学开发,是2024年发布的中国首个种业大模型“丰登”的后续学术成果 [1] - 模型深度融合水稻生物学知识图谱,旨在构建智能决策育种技术体系,提升生物育种研究的效率与质量 [1] 技术基础与数据规模 - 构建了全球最大规模的水稻科研语料库,系统整合了全球超过140万篇中英文文献,覆盖该领域超过98%的公开发表成果 [2] - 以阿里通义千问模型为基础,通过持续训练与精调流程开发而成 [2] - 构建了全球首个水稻多组学知识图谱,整合1879篇关于水稻转录组和蛋白质组的文献数据,图谱包含超过40万个节点与157万条边 [3] 模型性能评估 - 自动化评估使用自建数据集SeedBench(包含1975对问答样本),结果显示丰登模型在准确率等指标上均显著优于通义千问等主流通用模型 [2] - 人工评测数据集HumanDesignRiceQA包含253道专业问题,由326名评审(含83名水稻领域资深专家)参与,结果表明丰登模型答题质量全面超越OpenAI GPT4及人类本科生平均水平 [2] 核心功能与应用前景 - 模型具备强大的语言理解与知识推理能力,展现出在信息检索与知识理解方面的显著优势 [1][3] - 实现了图谱协同推理,能够跨越纯文本表达局限,调用结构化图谱执行精准查询、整合多维证据,有望成为支撑水稻研究与智能育种的关键工具 [3]
为什么DeepSeek还未能撼动OpenAI
虎嗅· 2025-06-04 08:27
AI行业竞争格局 - 2025年1月DeepSeek发布推理模型R1被视为AI全球竞争展开的标志事件 [2] - DeepSeek R1以开源和更高性价比达到OpenAI o1性能 导致英伟达股价单日下跌6000亿美元 [3] - OpenAI在DeepSeek R1发布后迎来爆发期 估值达3000亿美元 活跃用户从4亿增至8亿 年化收入从37亿美元增至127亿美元 [10] - DeepSeek R1在2月访问量一度超过OpenAI 但后续指标下滑 0528版本性能打平Gemini 2.5 Pro [11] - Anthropic的Claude 3.7成为最佳编程模型 Claude Opus 4支持智能体连续工作7小时 [11] 公司差异化竞争 - OpenAI凭借品牌优势和全球用户心智地位保持领先 [12] - Anthropic成为编程智能体首选 推出模型上下文协议(MCP)推动智能体生态 [11][12] - Gemini凭借统一多模态和视频生成能力 在谷歌用户生态中占据独特地位 [12] - DeepSeek最大程度开源推动AI在中国和国际推广 但模型性能差异性开始不明显 [12] 行业发展趋势 - AI商业化仍处早期 上半年DeepSeek和OpenAI用户均大幅增长 [13] - AI商业化下一阶段可能不是"赢家通吃" 而是融合与重构 关键在于掌握"工作逻辑" [14] - 大模型进入同质化和商品化竞争 性能差距缩小 差异性体现在应用层面 [12] - DeepSeek使命是实现AGI 需通过基础设施和产品验证 或成为超级横向平台 [15]
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 08:17
技术突破 - 提出全新训练框架General-Reasoner,显著提升Qwen系列大模型的跨领域推理准确率近10% [1][2] - 在多个基准测试中超越GPT-4o,如General-Reasoner-Qwen3-14B在GPQA任务准确率达56.1%,TheoremQA达54.4% [15] - 强化学习(RL)被视为提升模型推理能力的关键手段,但现有方法如Zero-RL局限于数据丰富、答案结构清晰的领域 [3] 方法创新 - 构建全领域推理数据集WebInstruct-verified,覆盖物理、化学、金融等领域约23万个高质量可验证推理问题 [5][9] - 开发生成式答案验证器General-Verifier,以1.5B参数小型模型取代传统规则式验证,显著提高跨领域答案验证准确率 [13] - 数据筛选过程严格,剔除模糊或过于简单的问题,确保数据集质量 [12] 数据集构建 - 初始数据来源于WebInstruct,包含约500万个从StackExchange和教育门户网站爬取的自然指令 [6] - 通过Gemini-1.5-Pro筛选出100万个候选问题,再经Gemini-2.0-Flash标注元数据并平衡数据 [7] - 最终数据集涵盖23万道具有不同答案格式和主题的推理问题 [9] 性能表现 - General-Reasoner在12个基准测试中表现优异,Qwen2.5-7B-Base在MMLU-Pro准确率达58.9%,高于基础模型的47.7% [15] - 在数学推理任务中略优于专业框架SimpleRL [15] - 生成式验证器与Gemini-2.0-Flash高度一致,鲁棒性与泛化能力显著超越传统方法 [13] 未来方向 - 研究团队计划优化模型性能,扩展更多领域的高质量推理数据,提升验证器鲁棒性 [17] - 推动大语言模型在复杂现实任务中的广泛应用 [17]
工银瑞信马丽娜:两大方向布局AI核心主线
券商中国· 2025-06-04 07:15
人工智能投资行情 - 2025年以来人工智能投资行情持续成为市场主线,DeepSeek是主要推动者 [1] - 公募基金布局备受关注,工银科技先锋混合发起式基金将于6月25日发行,聚焦人工智能产业链优质公司 [1] 基金经理马丽娜背景 - 马丽娜本科毕业于北大微电子系,硕士毕业于北大计算机系,2015年进入工银瑞信基金,从业10年专注科技产业研究和投资 [3] - 管理三只基金,工银新兴制造自2024年7月至2025年3月31日累计收益率达50.77%,同期业绩基准收益为23.46% [3] 工银科技先锋基金投资方向 - 聚焦人工智能产业链优质公司,细分方向包括AI硬件中的半导体、硬件基础设施和AI应用中的软件、互联网娱乐、智能驾驶、机器人等 [3] - 0—50%比例可投资港股,涵盖科技互联网、智能驾驶、半导体等优质龙头企业 [3] - 投资定位有别于其他在管基金,工银新兴制造聚焦半导体产业链,工银科技先锋覆盖更宽泛的AI应用 [3] 科技行业投资框架 - 科技投资核心是把握科技周期中的强主线,找到受益于产业趋势的个股 [2] - 选股三要素:业绩增长高、估值有提升弹性、有一定竞争壁垒 [5] - 自上而下选择成长空间大、竞争壁垒高的行业,自下而上选择成长空间大、增速快、竞争壁垒高的优秀企业 [4] 大语言模型发展趋势 - 生成式大语言模型的Scaling Law在放缓,未来关注方向是融合图像、视频、空间物理等多模态数据和合成数据的学习 [7] - 训练阶段的Test-Time Scaling仍有较大空间,后训练阶段加入强化学习和思维链可显著提升模型推理能力 [7] - 2025年由国内DeepSeek引领的产业趋势,通过工程优化降低模型训练和推理成本 [8] AI产业投资机会 - 看好两大方向:AI基础设施和AI半导体,2025—2026年海外云厂商资本开支快速增长,国内云厂商资本开支2024年底首次上修 [8] - AI应用随着模型性能提升和成本下降,更多应用将诞生,包括端侧AI应用、软件、具身智能等 [8] - 硬件基础设施端中国短板正在补齐,模型端中美差距缩小,应用端国内更具优势 [8]
“互联网女皇”AI报告图解版:AI采用速度前所未有,推理成本暴跌99.7%
36氪· 2025-06-03 20:14
文章核心观点 传奇风险投资家玛丽·米克尔发布《AI趋势报告》,核心观点认为人工智能革命已进入不可逆的爆发期,人类正站在技术奇点的临界点[1] 报告通过大量图表展示了AI在开发速度、应用广度、资金投入和使用规模方面的爆炸性增长,并质疑了OpenAI等巨头的“烧钱模式”的可持续性[1] AI技术的采用与普及速度 - 人工智能用户群的激增是AI时代来临的标志,ChatGPT在全球大部分地区同时增长,这与互联网1.0从美国稳步扩散的模式不同[1] - ChatGPT在17个月内达到8亿用户,增长速度超越了人类历史上任何一项技术[4] - ChatGPT的年度搜索量已达到3650亿次,是谷歌的5.5倍,ChatGPT达到这一数字仅用了两年,而谷歌用了11年[7] - 技术生态系统的AI采用速度令人印象深刻[10] 企业级AI应用的现状与目标 - 标普500指数公司中,有50%已在财报电话会议中提及“AI”并持续布局[19] 提及AI的公司比例从2015年的低水平增长至2024年第四季度的60%[20] - 全球企业针对生成式AI的改进目标主要聚焦于收入增长,而非成本削减[21] 例如,75%的企业目标与提升生产力、客户服务、销售收入和投资回报率(ROIC)相关,而专注于削减管理、制造、营销及人力成本的企业目标仅占25%[22] AI智能体的演进 - 一种全新的AI类型正在崛起,从基础的“聊天回复”向能够“执行任务”的功能强大服务提供者演变[25] - AI智能体具备推理和行动能力,能够代表用户完成复杂的多步骤任务,其重点在于实现目标而不仅仅是回应[26] - 尽管处于发展初期,但AI智能体有潜力彻底改变用户与数字系统的互动方式,应用领域包括客户支持、员工培训、研究、日程安排及内部运营等[26] - 企业正积极引领这一变革,进行试验、广泛部署、投资框架并构建生态系统[26] AI驱动的资本支出与基础设施投资 - 数据中心是AI资本支出的主要受益者[29] - 2014年至2024年,美国六大科技公司的资本支出年均增长率为21%[30][31] 同期,全球数据生成量年均增长28%[31] - 全球超大规模云计算公司(如亚马逊AWS、微软智能云、谷歌云等)的收入在2014年至2024年间年均增长37%[32][33] - AI模型的训练数据集大小在过去十五年间年均增长250%[34][35] - 美国数据中心的年度私人建设投资在过去两年里呈现加速增长,年均增长率达到49%[36][37] AI模型的经济学与成本变化 - 训练最强大的大语言模型已成为人类历史上最昂贵且资本密集的工作之一,成本已飙升至数十亿美元[40] - 打造最强大通用模型的竞争可能加速其商品化,并导致收益递减[40] - AI推理成本正在迅速下降,硬件进步是重要因素[40] 英伟达2024年发布的Blackwell GPU,处理一个token所消耗的能量仅为2014年Kepler GPU的十万分之一(即下降了105,000倍)[44][45] - 从2022年11月到2024年12月,AI推理的服务成本大幅下降,每百万个Token的推理价格已经降低了99.7%[46][47] - 对用户和开发者而言,强大AI的单次使用成本大幅降低,推动了新产品、服务的创生以及用户量的攀升[41] - 对于模型提供商而言,高昂的训练成本与低廉的服务成本并存,定价权下滑,商业模式面临挑战[41] 通用LLM的经济学在短期内看起来更像一个资本密集型的商品化业务[43] 技术资本支出的演进阶段 - 过去二十年技术资本支出经历了几个关键增长阶段[48] - 最早的资本支出集中在互联网基础设施的建设上,为云计算奠定了基础[48] - 第二波资本支出聚焦于为数据密集型的AI工作负载提供强劲的计算能力,这是云计算的自然进化[51] 超大规模公司的资本支出预算逐渐偏向于专业化芯片、液冷技术及前沿的数据中心设计[51] - 到2023年,AI已成为资本支出的重点项目,全球最大科技公司每年花费数百亿美元用于训练数据、推理并实现货币化[54]
“不用 Cursor和 ChatGPT、手写代码的开发者,怕不是疯了?”
36氪· 2025-06-03 16:53
AI编程工具的应用现状 - 大语言模型(LLM)已成为软件开发领域近30年来第二大技术突破,即使其发展停滞在当前水平也具备显著价值[2][11] - 智能体系统已能自主完成代码浏览、文件编写、工具运行、测试执行及迭代等全流程开发任务,远超早期Copilot等基础辅助工具[12] - Cloudflare工程师借助AI工具在几天内完成原本需数月的OAuth库开发,AI显著降低了复杂代码库的入门门槛[7] 开发者态度分歧 - 支持者认为拒绝使用AI辅助的开发者如同"精神病",2025年纯手工编码将变得不可理喻[4][5] - 反对者将AI狂热比作NFT泡沫,25年经验的开发者直言AI生成代码是"垃圾"且拒绝接触相关工具[1][8] - Hacker News相关讨论两小时内达700条(最终近1500条),创AI编程话题热度纪录[6] 技术实现细节 - Gemini 2.5凭借5-7万行代码的上下文窗口成为首选工具,虽需人工修改但大幅提升效率[17] - 编程领域的幻觉问题已通过智能体的编译检查、测试运行等机制基本解决[18] - 当前AI主要承担输入处理、搜索、测试用例生成等重复工作,人类仍掌控核心决策[19] 生产力变革 - AI工具使开发者效率呈数量级提升,团队内AI使用者与非使用者差距堪比互联网时代的上网能力差异[31] - AI能自动完成单元测试重构等琐碎工作,迫使开发者直面核心难题[15] - 平庸代码的自动化生产释放了开发者精力,使资源向高价值判断倾斜[23][25] 行业影响 - 编程领域抄袭争议存在双重标准,开发者文化本身具有强烈的反知识产权倾向[28][29] - AI可能大规模取代初级开发者岗位,延续30年来科技对就业的冲击趋势[27] - 技术保守派开发者开始承认变革必要性,认为AI重要性堪比2008年智能手机革命[32][34] 语言适配性 - Go语言因类型安全性和标准库优势与AI配合良好,Rust等语言存在适配挑战[21] - 编程语言选择需考虑与AI工具的兼容性,传统评判标准正在重构[21] - AI生成的重复性代码在稳定性上优于人类为追求优雅而制造的复杂表达[24]
重磅报告下载 | 2025生成式AI: 当DeepSeek颠覆行业, 近2万亿美元的市场有哪些机遇?
彭博Bloomberg· 2025-06-03 14:30
生成式AI市场前景 - 预计到2032年生成式AI市场将创造约1.8万亿美元收入 年复合增长率达30% [2][4] - 生成式AI占科技行业IT支出比例将从目前不足2%提升至14%-16% [4] - 个人和企业在生成式AI智能体方面的支出到2032年可能达到2140亿美元 [3] 技术发展趋势 - 推理支出超过训练支出的时间可能比此前预测提前三年 [2] - 大语言模型功能趋同 OpenAI GPT 谷歌Gemini Meta Llama等差距缩小 [2] - 模型应用从文本搜索扩展至图片 音频 视频分析 [2][3] - 大多数LLM公司致力于提高模型效率以实现大规模推理 [2][3] 应用场景拓展 - 现有用例包括合同审查和客服聊天机器人 [2] - 新兴应用包括编程助手 集成写作 文本/语音生成图像视频工具 [2][3] - 对话式AI产品和视觉AI产品需求将利好智能手机制造商和车企 [2] - 游戏公司可能利用AI加速开发并提升用户体验 [8] 硬件与基础设施 - 训练大语言模型的计算密集度可能推动高级RISC市场份额增长 [8] - HBM芯片采用率将因AI模型复杂度提升而进一步提高 [2] - 云业务有望超越服务器开发 [7] 细分市场影响 - 数字广告巨头或通过机器学习模型改善定向投放和转化率 [8] - 生成式AI广告支出到2032年将占数字广告总支出的13% [11] - 硬件领域可能成为增长最快的类别 [8] 市场表现与竞争 - 2024年彭博BAIAET指数回报率达29% 但2025年初累计下跌6% [11] - 中国和韩国市场AI概念股分别上涨21%和13% [11] - 微软 亚马逊 Meta等云服务巨头在市场中各显神通 [13]
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
机器之心· 2025-06-03 14:26
核心观点 - 浙江大学联合微软亚洲研究院、香港中文大学提出CoT-Bridge方法,通过检测和补全思维链中的逻辑跳跃,显著提升大语言模型在数学和逻辑任务中的推理准确率[1][10][11] - 思维跳跃(Thought Leap)是CoT推理链中因专家经验性省略导致的中间步骤缺失,造成模型训练效果降低27 83%和收敛速度变慢[5][14] - CoT-Bridge作为即插即用模块,在知识蒸馏和强化学习流程中分别带来+3 02%和+3 1%的准确率提升[19] 技术方法 - **Leap检测与步骤补全**:识别推理链中的逻辑跳跃并生成缺失的中间步骤,基于ScaleQM+数据集训练Qwen2 5-Math-7B模型实现自动补全[11][12][13] - **数据集构建**:通过有控制地删除ScaleQuestMath原始推理链中的步骤,构造含Thought Leap的训练样本[13] - **模型训练**:使用MetaMathQA(395K样本)和NuminaMath(859K样本)进行监督微调,最大性能增益达+5 87%[17][18] 实验结果 - **数学推理任务**:在GSM8K和MATH基准上,CoT-Bridge使Meta-Llama3 1-8B准确率提升+2 24%,Qwen2 5-Math-1 5B提升+0 58%[18] - **逻辑推理任务**:OOD场景下,模型在FOLIO等数据集平均准确率提升2 99%,无效输出比例下降[21] - **蒸馏增强**:对Qwen2 5-Instruct-72B生成的蒸馏数据补全后,准确率额外提升3 02%[19] 性能指标 | 模型/数据集 | 基础准确率 | CoT-Bridge增益 | 关键指标变化 [18] |---------------------|------------|----------------|--------------------- | Meta-Llama3 1-8B | 78 90% | +2 24% | MATH任务+2 03% | Qwen2 5-Math-1 5B | 81 01% | +0 58% | NuminaMath+5 87% | 蒸馏数据增强 | - | +3 02% | 知识蒸馏流程优化[19]