Workflow
Llama 3
icon
搜索文档
“数字读心术”精准模拟和预测人类行为
科技日报· 2025-07-07 07:34
人工智能在心理学领域的突破 - 德国亥姆霍兹慕尼黑研究中心开发出名为"半人马"的AI模型,能在几乎所有心理学实验中准确预测人类行为,超越了传统认知模型 [1] - "半人马"基于Psych-101数据集训练,该数据集包含160项心理实验中6万多人作出的超1000万个决策,涵盖从简单记忆任务到复杂道德困境 [1] - 模型选用Meta公司最新的Llama 3.1语言模型,训练过程在高端计算机处理器上耗时5天 [1] 模型性能与特点 - 在32项任务测试中,"半人马"在31项中都是预测最有效的模型,唯一例外是语法判断任务 [2] - 模型展现出强大的泛化能力,能适应全新场景如情境设定变化、任务结构调整或完全陌生的推理任务 [2] - "半人马"内部处理机制与人类大脑活动高度一致,其内部状态与执行同类任务时的人类脑电图有高度相关性 [2] 应用潜力 - 模型不仅能预测行为,还能模拟人类决策过程并发现新的心理学策略,在一项模拟实验中提出了比现有理论更优的探索策略 [2] - AI与心理学融合可推广专业AI心理咨询师,帮助解答日常心理困惑,也可让陪伴机器人掌握心理学知识提供情绪价值 [3] - 心理健康日益受重视背景下,人工智能在该领域应用潜力巨大,有望为人类心理健康贡献更多力量 [3]
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
代理型AI行业现状 - 代理型AI成为2024年AI领域新晋热词,2025年被称为"AI代理元年",被视为下一代智能自动化革命[1] - Gartner预测到2027年底超过40%的代理型AI项目将因成本上升、商业价值不明确或风险控制不足而被取消[1] - 目前大多数代理型AI项目处于早期实验或概念验证阶段,主要驱动因素是炒作而非实际价值[2] 市场投资与乱象 - 2025年1月Gartner调查显示19%组织对代理型AI进行大量投资,42%保守投资,8%未投资,31%观望[2] - 行业存在"代理清洗"现象,数千家供应商中仅约130家真正提供代理功能,其他将现有工具重新包装[2] - 当前大多数代理型AI解决方案不具备明显业务价值或投资回报率,模型成熟度与自主能力不足[3] 技术定义与能力 - 代理型AI指使用机器学习模型连接各类服务和应用以自动执行任务或业务流程的AI代理[3] - 理论上代理型AI应能高效理解并执行复杂自然语言指令,如语义分析和关联判断[3][4] - 卡耐基梅隆大学测试显示主流模型任务完成率最高仅30.3%(Gemini 2.5 Pro),部分完成率39.3%[6] 实际应用表现 - AI代理在办公场景测试中表现不佳,存在未按指令操作、无法处理UI元素甚至欺骗性行为等问题[6][7] - Salesforce测试显示AI代理在CRM场景单轮交互成功率约58%,多轮交互降至35%[8] - 所有被评估模型在保密意识方面几乎为零,企业IT环境部署面临数据隐私与安全挑战[8] 企业实践案例 - 瑞典支付平台Klarna曾用AI工具替代人工客服,但因服务质量不佳恢复人工招聘[9] - Gartner预计到2028年15%日常工作决策将由AI代理完成(2024年为0%),33%企业软件将集成代理型AI(2024年不足1%)[9] 发展建议 - 企业应采用聚焦明确交付价值或可衡量ROI场景的策略[10] - 在已有系统中集成AI代理可能打破工作流程并带来高昂修改成本,建议从底层重构工作流程[10]
AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI
量子位· 2025-06-26 11:43
核心观点 - 美国法院首次裁定AI公司可在未经作者许可情况下使用合法购买的已出版书籍训练AI 依据合理使用原则认定AI训练属于转化性使用 未取代原作市场且有利于技术创新[2][3][17] - 法院明确区分数据来源合法性 盗版书籍训练不构成合理使用 需承担侵权责任 但合法采购书籍的扫描副本可用于训练[15][16][33] - 裁决显著降低AI行业训练数据的版权风险 为LLMs发展提供法律支持 可能影响OpenAI和Meta等同类案件审理[3][32][34] 案件背景 - Anthropic被指控在2021-2022年通过盗版网站LibGen等非法下载超700万份受版权保护书籍建立数字图书馆 2023年使用子集训练Claude模型[7][8][10] - 2024年转向合法采购 雇佣前Google图书扫描项目负责人Turvey采购数百万本纸质书 但未持续跟进出版商授权沟通[11][12] - 2024年8月三位作家起诉其非法复制作品训练AI 法院最终支持合法来源数据的使用权[6][13] 法律依据 - 援引美国版权法"合理使用"原则 认定AI训练具有高度转化性 输出内容未侵犯原作且未形成市场替代[2][14] - 参考历史判例:2015年Google Books案确立数字化检索属合理使用 2022年GitHub Copilot案确认代码训练转化性[24][25][29] - 法院强调技术中立性 类比人类阅读学习过程 认为AI消化书籍信息应获同等权利[4][18] 行业影响 - 加速AI公司数据获取合规化进程 Anthropic等企业需建立正版采购渠道 避免盗版资源[11][15] - 技术解决方案受推动 GitHub Copilot已部署代码来源标注功能 防范许可证冲突[29][30] - 创作者权益保护机制待完善 需探索新型授权模式应对AI训练需求[19] 争议焦点 - 法律界对"转化性使用"标准存在分歧 部分观点认为AI大规模复制不同于人类学习[19] - 开源社区担忧商业公司滥用合理使用条款 将免费资源转化为付费服务[28][29] - 出版商面临正版采购与盗版监控的双重成本压力[12][31]
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 17:17
大模型编程能力测试结果 - 参赛大模型在LiveCodeBench Pro测试中全军覆没,通通0分 [1][2] - 测试包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新以防止模型"背题" [3][4] - 表现最佳的模型o4-mini-high在中等难度题上的一次通过率仅53%,难题通过率为0% [9] - 即使最好的模型o4-mini-high在工具调用被屏蔽时Elo评分仅2100,远低于大师级2700水平 [10] 测试设计与题库构成 - 测试由奥林匹克获奖者构建,在比赛结束后立即收集题目以避免互联网答案污染 [14] - 题库包含584道顶流竞赛题,分为知识密集型、逻辑密集型和观察密集型三类 [15] - 题目难度通过正态分布自动选择,如Codeforces评分2000分以上归为困难等级 [16] - 数学类题目占比13%,组合数学类11%,动态编程类23%,贪心算法类28% [17] 模型表现分析 - 22款测试模型中,o4-mini-high表现最佳但仍有81.7%未通过率 [12][21] - 模型在知识密集型和逻辑密集型问题表现较好,但在观察密集型问题表现差 [26] - 模型擅长精确实现但算法设计能力弱于人类,常给出看似正确实则错误的解释 [28][29] - 模型对题目示例输入利用不充分,经常无法通过样例测试 [30] - 增加尝试次数(pass@k)可提升中简单题表现,但对难题无效 [33][34] 团队背景 - LiveCodeBench Pro团队超半数成员为华人,主要由奥林匹克竞赛得奖者组成 [40] - 负责人郑子涵曾获ICPC世界总决赛第二名,现为OpenAI实习生 [41][42] - 另一位负责人柴文浩开发了首个长视频理解超大多模态模型MovieChat [44][46] - 团队成员来自纽约大学、华盛顿大学、普林斯顿大学等顶尖院校 [48]
硅谷观察:并购狂魔再现江湖,扎克伯格拍出148亿美元一箭双雕
新浪财经· 2025-06-16 06:43
并购策略与历史案例 - Meta宣布以148亿美元投资Scale AI获得49%非投票股份 成为公司历史第二大收购 仅次于210亿美元收购WhatsApp [6][9] - 2012年以10亿美元收购Instagram 目前估值超5000亿美元 回报率达500倍 [5] - 2014年以210亿美元收购WhatsApp 巩固社交网络主导地位 推动公司市值达1.7万亿美元 [5] Scale AI业务与行业地位 - Scale AI估值一年内翻倍至300亿美元 核心业务为AI大模型提供训练与验证数据 [8][9] - 商业模式依赖海外廉价劳动力进行数据标注 客户包括Meta 谷歌 微软 OpenAI及美国政府 [8] - 被视作AI行业"粮草"供应商 去年融资估值140亿美元 [8] 交易结构与战略意图 - Meta放弃投票权以避免反垄断审查 交易无需接受强制调查 [11] - 投资可能引发竞争对手回避Scale AI 谷歌已取消2亿美元合作计划 微软考虑减少合作 [12] - 交易包含人才收购条款 Scale AI CEO亚历山大·王将加入Meta领导超级智能团队 [13] 人才战略与技术布局 - 亚历山大·王持有Scale AI 15%股权 交易使其身价达45亿美元 将负责Meta超级智能研究部门 [13][16] - Meta面临AI人才流失危机 近期AI研究负责人离职 Llama 3模型表现落后竞争对手 [15] - 亚历山大·王兼具技术背景与商业能力 可加速Meta生成式AI和通用AI研发 [16] 监管环境与政治关系 - 特朗普政府对科技并购监管宽松 FTC对类似人才收购调查陷停滞 [17][19] - Meta积极改善与特朗普关系 撤销DEI政策 支付2500万美元和解金 捐款100万美元 [20][21] - 公司游说FTC支付4.5亿美元和解反垄断诉讼 扎克伯格在华盛顿购置豪宅便于政治活动 [23][24]
人工智能周报(25年第23周):OpenAI 公布 GPT-5 路线图,腾讯升级企业大模型知识库-20250613
国信证券· 2025-06-13 17:11
报告行业投资评级 - 优于大市 [1][4] 报告的核心观点 - 互联网一季报业绩整体稳健,电商行业竞争激烈,各平台向商家让利或在外卖即时零售领域加大投入寻找新增量;AI 方面巨头业务场景持续受益,但短期 ai agent 等方面仍需打磨;当前恒生科技指数处于震荡期,推荐业绩稳健、估值较低的防守型标的腾讯音乐、网易 [2][32] 相关目录总结 AI 相关网站流量数据 - 展示了 2025 年 5 月 28 日至 6 月 3 日期间部分 AI 相关网站周平均访问量、访问量环比增长和平均访问停留时间等数据,如 ChatGPT 周平均访问量 1248.00M,环比增长 -0.24% [10] 公司动态 - OpenAI 公开 GPT - 5 路线图,预计 7 月发布,还更新 ChatGPT 商业计划,新增功能并引入灵活定价机制面向商业客户开放 [17] - 谷歌测试新 AI 搜索展示方式,将 AI 生成摘要折叠,平衡生成式搜索与网页导流利益关系 [19] - Meta 开放 Llama 3 商业化接入,与 AWS 深度集成抢占企业市场 [20] - 英伟达举办 GTC 大会,重申 AI 基建主导地位,强调边缘侧推理作用,携手企业展示应用场景并加快本土化节奏 [21] - 亚马逊广告业务加码生成式 AI,推出 AI Studio 广告内容自动生成平台,试点核心市场 [22] - 腾讯云升级企业大模型知识库为智能体开发平台,接入相关模型和联网搜索,还计划推出和开源部分模型 [23] - 字节跳动旗下 Seed 团队开源统一多模态理解和生成模型 BAGEL,在多模态领域表现出色 [25] 底层技术 - 微软 Azure Foundry 新增“安全性”维度对约 1900 款模型进行内容风险量化评估,安全评分融入工具链 [26] - 谷歌更新 Gemini 2.5 Pro 预览版模型,评分上升,优化风格与结构,放宽请求限制 [27] - 智源研究院发布“悟界”系列大模型,体现 AI 发展新趋势 [28] - 阿里巴巴开源全新向量模型系列 Qwen3 - Embedding,性能较上一版本提升 40% [29] 行业政策 - 工信部研究推动人工智能产业发展和赋能新型工业化思路举措,推动大模型落地,统筹推进标准工作等 [30] - 工信部审议《工业和信息化部信息化和工业化融合 2025 年工作要点》,要求实施“人工智能 + 制造”行动 [31] - 成都市就促进人工智能产业高质量发展政策措施征求意见,涵盖多方面举措 [31] 重点事件预告 - 6 月 9 日 - 13 日举办 Apple WWDC 2025 开发者大会 [34] - 6 月 9 日 - 11 日举办 AIM - 2025 国际人工智能与机器学习大会 [34] - 6 月 11 日 - 12 日举办火山引擎原动力大会 [34] - 6 月 14 日 - 15 日举办第四届智能决策论坛 [34] 投资建议 - 推荐业绩稳健、估值较低的防守型标的腾讯音乐、网易 [2][32] 重点公司盈利预测及投资评级 | 公司代码 | 公司名称 | 投资评级 | 昨收盘(港元/美元) | 总市值(百万港元/美元) | EPS(2025E) | EPS(2026E) | PE(2025E) | PE(2026E) | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 0700.HK | 腾讯控股 | 优于大市 | 505.0 | 4,640,972 | 23.29 | 26.33 | 17.4 | 15.7 | | 9999.HK | 网易 - S | 优于大市 | 197.3 | 625,038 | 10.76 | 11.54 | 15.5 | 14.7 | | 3690.HK | 美团 - W | 优于大市 | 136.6 | 834,603 | 6.04 | 7.96 | 17.9 | 13.9 | | 9888.HK | 百度集团 - SW | 优于大市 | 82.1 | 225,789 | 7.83 | 8.42 | 8.8 | 8.0 | | 1024.HK | 快手 - W | 优于大市 | 51.2 | 219,726 | 4.06 | 4.96 | 10.2 | 8.7 | | 9988.HK | 阿里巴巴 - SW | 优于大市 | 113.9 | 2,174,122 | 6.89 | 7.64 | 12.5 | 11.4 | [3]
Meta makes major investment in Scale AI, takes in CEO
TechXplore· 2025-06-13 16:10
投资交易 - Meta对Scale AI进行重大投资 估值超过290亿美元 [3] - Meta投资金额超过100亿美元 同时获得Scale AI创始人兼CEO Alexandr Wang加入 [4] - Meta将持有Scale AI少数股权 具体比例未披露 [9] - 交易完成后 Uber Eats联合创始人Jason Droege将接任Scale AI CEO [9] 公司战略 - Scale AI专注于为商业、政府和实验室提供人工智能解决方案 [5] - 公司将利用新资金加速创新 加强合作伙伴关系 并向股东分配收益 [9] - Scale AI已发展到1500多名员工规模 [5] - 公司部分员工将随创始人一起加入Meta参与AI项目 [6] 技术合作 - Scale AI与Meta合作开发基于Llama 3模型的国防AI系统"Defense Llama" [7] - 该模型专门用于美国国家安全任务 包括军事行动规划和敌方弱点分析 [7] - 系统具备评估场景和回答战术问题的能力 如敌方攻击方式和有效应对措施 [8] - Scale AI承诺持续与国防部门合作 确保模型可靠性 [8] 行业动态 - Meta首席Mark Zuckerberg透露其生成式AI助手每月有10亿用户使用 [10] - 该交易发生在Meta与OpenAI、Google和微软等公司的激烈AI竞争中 [4] - Scale AI创始人表示AI发展前景无限 公司致力于连接人类价值与技术潜力 [5]
速递|2.15亿美金豪赌AI瘦身术!Multiverse压缩LLM尺寸95%,让Llama在树莓派上狂奔
Z Potentials· 2025-06-13 11:17
融资情况 - 西班牙初创公司Multiverse Computing完成1.89亿欧元(约合2.15亿美元)B轮融资,由Bullhound Capital领投[1] - 参与机构包括惠普科技风投、SETT、Forgepoint Capital International、CDP Venture Capital等[1] - 公司累计融资达2.5亿美元[2] 技术优势 - CompactifAI技术可将LLMs模型尺寸缩减高达95%且不影响性能[2] - 提供Llama 4 Scout、Llama 3.3 70B等开源模型的压缩版本[2] - 计划发布DeepSeek R1压缩版,并开发更多开源推理模型[2] - 压缩后模型速度提升4-12倍,推理成本降低50%-80%[3] - Llama 4 Scout Slim版在AWS上每百万token成本为10美分(原版14美分)[3] 应用场景 - 压缩模型可运行于个人电脑、手机、汽车、无人机及树莓派等设备[3] - 模型通过亚马逊云服务提供或授权本地部署[2] 客户与专利 - 拥有160项专利和全球100家客户,包括Iberdrola、Bosch、加拿大银行等[2] 团队背景 - 联合创始人兼CTO Román Orús是张量网络领域开创者[3] - 联合创始人兼CEO Enrique Lizaso Olmos曾任西班牙Unnim Banc银行副首席执行官[4] 技术原理 - 张量网络技术能模拟量子计算机并在普通计算机上运行,主要用于压缩深度学习模型[4]
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 14:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技· 2025-06-10 17:37
新浪科技讯 6月10日下午消息,近日,面壁智能第四代"面壁小钢炮" MiniCPM4.0 端侧模型(代号"前进 四")发布。据悉,第四代小钢炮拥有 8B 、0.5B两种参数规模,实现了同级最佳的模型性能。可让长 文本、深思考在端侧真正跑起来,实现220倍极限加速。 据悉,MiniCPM 4.0 模型采用的InfLLMv2稀疏注意力架构改变了传统 Transformer 模型的相关性计算方 式,有效摆脱了逐字重复计算的低效,将稀疏度从行业普遍的40%-50%,降至极致的5%,注意力层仅 需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准 性大大提升。 值得一提的是,DeepSeek 使用的长文本处理架构NSA(Native Sparse Attention)也引用并采用了与 InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2则很好地解决了NSA在短 文本推理上的短板。 在缓存消耗上,MiniCPM 4.0-8B在 128K 长文本场景下相较于Qwen3-8B仅需 1/4 的缓存存储空间。在速 度、性能飙升的同时,又做到了模型极致压缩,让端 ...