Workflow
数据质量
icon
搜索文档
喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好
机器之心· 2025-10-21 11:43
文章核心观点 - 研究表明,大语言模型长期接触低质量的网络内容会导致认知能力持续下降,类似人类的“脑腐”现象[4][6][7] - 即使后续用高质量数据重新训练,模型的认知损伤也无法完全修复,出现永久性变化[6][7][29] - 数据质量是LLM能力衰退的因果驱动因素,需要重新定义训练阶段的数据筛选为安全问题[17] 研究动机 - “脑腐”概念描述低质量内容对人类认知的钝化作用,同样适用于从互联网信息源学习的LLM[9] - 研究LLM的“脑腐”将数据策展重新定义为人工智能的“认知卫生”,指导训练语料库的获取、过滤和维护[10] - 与以往关注训练数据质量的工作不同,该研究提供关于数据质量的新视角,关注社交媒体内容的琐碎性和易消费性[10] 实验方法 - 提出“LLM脑腐病假设”,通过受控实验验证持续接触垃圾网络文本会导致认知能力持续下降[12] - 采用两个正交操作化方法构建垃圾数据集:M1(参与度-帖子受欢迎程度和简短程度)和M2(语义质量-文本耸人听闻或肤浅程度)[13] - 实验使用真实的Twitter/X语料库,保持一致的token规模和训练操作,包括后续相同的指令微调[15] 研究结果 - 垃圾数据预训练导致推理能力下降23%,长期记忆下降30%[14] - 人格测试显示自恋和心理病态水平上升[14] - 在4个LLM上观察到推理、长时记忆理解、安全性及“黑暗特质”方面显著下降(Hedges' g > 0.3)[15] - 垃圾数据比例从0%上升到100%时,ARC-Challenge得分从74.9下降到57.2,RULER-CWE得分从84.4下降到52.3[16] 关键发现 - 思维跳跃是主要病变:模型频繁截断或跳过推理链,解释大部分错误增长[23] - 部分但不完全恢复:扩大指令调优和干净数据预训练能改善认知衰退,但无法恢复到基准水平[23][29] - 受欢迎度是更好指示器:推文受欢迎程度比长度更能反映大脑腐化效应[23] - M1干预对推理和长上下文能力的影响比M2干预更显著和渐进[25]
穿越市场不确定性:晨星,让投资一路畅行
Morningstar晨星· 2025-10-16 09:05
公司创立背景与使命 - 公司于1984年由股票分析师Joe Mansueto创立,旨在弥合普通投资者与专业机构之间的信息鸿沟 [2] - 公司的核心使命是赋能投资者成功,并将专业的投研信息和工具带给每一位投资者 [2][14] 核心业务与数据能力 - 公司构建了全球最大、质量最高的投资数据库之一,覆盖约80万种投资产品 [3] - 通过收购PitchBook等举措,公司打通了公募与私募市场的壁垒,连接价值孤岛 [3] - 公司提供独有的分析工具,如奖牌评级、晨星分类和可持续评级,以缩短从数据到决策的距离 [3] 服务于资产管理者与机构投资者 - 公司致力于以严谨的数据质量为专业机构筑牢投资护城河,数据质量直接影响策略成败 [3][4] - 通过晨星投资风格箱、星级评级和图表报告等直观设计,将复杂金融理念清晰传达给客户 [5] - 公司分析师坚持独立观点和审慎态度,为投资顾问在市场噪音中引导客户坚持长期主义提供依据 [6] 携手公募基金与银行理财 - 公司为公募FOF、银行理财等机构提供独立、客观的管理人研究与基金研究支持 [10] - 公司提供宏观与策略层面的研究支持,助力机构构建更稳健、符合长期目标的投资组合 [12] - 公司分享全球产品创新趋势洞察,为机构开发具备前瞻性的金融产品提供思路与工具 [13] 公司规模与全球业务 - 公司是全球最主要的投资研究机构之一,业务遍及北美、欧洲、澳洲及亚洲等33个市场 [17][20] - 截至2025年6月30日,公司所管理及给予投资建议的资产约为3520亿美元 [20]
How the government shutdown complicates the Fed's rate cut options
Youtube· 2025-10-10 05:44
as the government shutdown kind of persists and as Ben was just kind of indicating there feels like tensions are actually only getting kind of worse here what that really does mean for our central bankers for the Fed h how that complicates things for them if they if they don't have the hard data they need Michael they're not getting the government jobs data they're not getting the inflation data what does it mean for them what does it mean for this next meeting sure yeah good to be here so there's a lot to ...
让大湾区成为数据安全使用典范
南方都市报· 2025-09-16 07:10
数据质量 - 数据质量是大模型训练中最重要的一环 需通过无监督机器学习发现异常数据或有监督方法通过专家标签识别低质量数据 [2][4] - 数据量不足会直接影响数据质量 联合实验室需整合大湾区高校资源构建大数据平台 推动工业界合作项目积累高质量数据 [4] - 实验室可推出数据测试平台供各类大模型测试性能并改进不足 [4] 数据关联与应用 - 智能体落地需解决数据互联问题 当前技术难题在于智能体间缺乏协同与数据串通 应聚焦垂直行业具体应用场景 [6] - 大模型在产业应用具高价值 例如保险业可通过大模型文件处理能力提升理赔案效率 [5] - 数据驱动需实现良性循环 通过实际应用让用户体会便利性而非贪大求全 [6] 数据安全 - 数据安全涉及技术手段如同态加密和隐私计算 需在数据共享与安全间平衡 例如医疗数据隐藏姓名后仍可能通过其他信息映射身份 [5] - 需建立政策与制度层面的数据保护机制 包括数据共享协议和保密协议 引导正确使用数据 [5][8] - 大模型训练涉及商业与个人隐私 需设计保护机制防止敏感问题错误回答 警惕数据投毒等网络攻击风险 [9] 平台与联盟建设 - 联合实验室可整合大湾区高校研究力量 通过联盟协议推动数据安全使用 实现参与者共赢 [8] - 实验室应发挥枢纽作用 推动安全数据积累与开放共享 使大湾区成为数据安全使用典范 [8][10] - 实验室需建设大数据平台和数据测试平台 助力大模型性能测试与改进 [4][10]
AI下半场哨声吹响:数据质量成胜负手——业界首个企业应用AI成熟度模型重磅发布
21世纪经济报道· 2025-09-12 21:00
文章核心观点 - AI竞争进入下半场 模型参数不再是唯一壁垒 数据质量成为企业应用AI的胜负手 [2][3] - 企业应用AI成熟度模型(AIM)发布 提供六维评估体系指导企业AI转型 [1][5][6] - 不同行业呈现差异化AI应用路径 金融/汽车/健康/零售各有侧重 [6][7] 行业应用实践 - 金融行业:中国太保构建"数字劳动力"实现从保险赔付到风险减量的服务跃迁 [3] 兴业银行聚焦业务价值场景构建数百个智能体 [6] - 汽车行业:零跑汽车坚持ROI导向 通过全域自研战略打造软硬一体平台 [6] - 健康行业:蚂蚁集团通过AI健康管家AQ连接支付宝亿级流量/千余家医院/百万级医生 实现线上线下闭环服务 [5][7] - 零售行业:欧莱雅中国将AI融入美妆全旅程 虚拟试妆和销量预测推动创新 [5] 乐刻运动AI客服基础问题解决率超85% AI督导员提升门店巡检效率 [5] 成熟度模型框架 - AIM模型设立战略/组织/数据/技术/应用/商业六个关键维度 [6] - 五级成熟度等级(L1-L5)勾勒从"+AI"到"AI+"的进阶之路 [9] - 战略是指令舱 组织是推进器 数据是燃料 技术是飞控系统 应用是航行轨道 商业价值是目标星球 [9] 行业调研发现 - 金融行业数据基础强大但商业价值需提升 [6] - 汽车行业战略组织突出但数据基础薄弱 [6] - 零售行业整体处于追赶阶段 商业价值实现面临挑战 [6] - 健康行业发展最为均衡 [6] 转型路径方向 - 金融行业从辅助决策迈向自主金融智能体 [6] - 汽车行业从产品智能先行到产品智能与企业智能双轮驱动 [6] - 健康行业走向极致个性化的全周期主动健康服务创新 [7] - 零售行业升级为以消费者为中心的体验跃迁 [7]
特朗普提名经济学家安东尼担任美国劳工统计局局长 后者曾建议暂停发布月度就业报告
智通财经网· 2025-08-13 06:23
提名背景与争议 - 美国总统特朗普提名经济学家E·J·安东尼担任美国劳工统计局(BLS)下一任局长 该提名因安东尼曾公开建议暂停发布月度就业报告而引发关注[1] - 安东尼认为月度就业报告数据"不够可靠且常被高估" 建议改为发布更准确的季度数据[1] - 特朗普政府仍计划按月发布就业报告 白宫表示目标是让美国民众信任月度数据[1] 数据质量争议 - 美国劳工统计局7月就业报告显示就业增长疲软 并对5月和6月数据进行了罕见大幅下调 修正幅度分别高达12万和13.3万个岗位[1][2] - 历史平均修正幅度为5.1万个岗位 今年修正幅度显著高于历史均值[2] - 安东尼认为数据偏差与新冠疫情以来数据收集方法面临挑战有关 否认存在政治操纵[1] 机构面临的挑战 - 美国劳工统计局面临统计方法挑战 月度就业调查回收率从2020年初的60%降至2023年4月的不足43%[2] - 机构还面临经费削减和公众信任下降问题 部分经济学家呼吁国会增加预算并推动统计体系现代化[2] - 白宫表示提名安东尼旨在解决BLS数据质量下降问题 直面数据可靠性和质量长期被诟病的问题[2] 经济学界分歧 - PNC金融服务集团首席经济学家Augustine Faucher认为即使存在修正 月度就业数据仍是衡量经济动向的重要工具[2] - 经济学界对数据处理方法意见不一 部分专家主张提升数据质量而非停止发布[2]
美联储9月降息悬念陡增 沪金陷入宽幅震荡
金投网· 2025-08-12 13:44
黄金期货行情 - 黄金期货短线交投于778 58元/克附近 暂报777 34元/克 跌幅0 95% 最高触及778 78元/克 最低下探775 62元/克 呈现震荡走势 [1] - 沪金期货关键阻力位区间为788元/克至847元/克 重要支撑位区间位于770元/克至820元/克 [3] 美国通胀数据与政策预期 - 7月核心CPI预估同比增幅达3 0% 较6月的2 9%有所攀升 但市场预期美联储9月开启政策宽松周期的趋势不会改变 [2] - 温和上扬的通胀态势尚未扭转降息趋势 主因需求端增长乏力与全球贸易环境充满变数的双重压力 [2] - 数据质量存在潜在隐患 包括采集环节临时中断和政治因素不当介入 可能加剧市场对美联储决策的敏感反应 [2] 经济统计体系与市场影响 - 美国经济统计体系面临结构性缺陷 数据质量问题已跃升为核心关注点 可能引发潜在市场震荡 [2] - 美联储基于7月CPI数据的后续举措将牵动全球金融市场神经 该报告是研判经济风向和政策权衡的重要契机 [2]
bootstrap 到十亿美元 ARR:Surge AI 这匹黑马如何颠覆 Scale 霸权 ?
海外独角兽· 2025-07-25 17:52
核心观点 - Surge AI 是一家专注于高质量数据标注的公司,2024年ARR突破10亿美元,超越行业巨头Scale AI的8.7亿美元收入[3] - 公司定位为AI模型提供高质量数据标注服务,尤其在NLP、对抗性训练和RLHF领域构建技术壁垒[3] - 客户覆盖Google、OpenAI、Anthropic等顶级科技公司,强调"数据质量决定野心的上限"[3] - Meta以140亿美元投资Scale AI后,公司启动首次外部融资计划募集10亿美元,目标估值超150亿美元[4] - 公司认为高质量数据是AGI竞赛的关键纽带,语义理解与人类洞察力融合是突破瓶颈的核心[4] 01 数据标注市场 - 行业分化为两类:BPO"人力中介"(如Genpact)和AI-native"加工厂"(如Scale AI、Surge AI)[11] - BPO模式依赖人力规模化但难以保证质量,AI-native模式通过技术实现10倍效率提升[11][12] - 客户核心关注点:数据质量、处理效率、成本、可扩展性、合规性等7大维度[12] - 合成数据被高估,实际应用中易出现"狭窄场景崩溃",人工数据在敏感领域仍具不可替代性[14][17] - 垂类数据(医疗、金融)成为增长点,通用领域需求趋缓[20][23] 02 创立Surge的初衷 - 创始人Edwin Chen因在Twitter遭遇数据标注低效问题(10,000条数据交付周期数月)而创立公司[24] - 公司组建由哲学家、工程师等构成的精英标注团队,开发任务分配软件提升效率[24] - 采用Bootstrap模式,成立一个月即盈利,拒绝硅谷"先融资后创业"的传统路径[25] - 核心竞争力源于"质量大于一切"原则,客户反馈"没有你就做不到这一点"成为行业口碑[25] 03 高质量交付背后的底层技术 - 通过母语级标注团队捕捉语言nuance(如反讽"Yay, cold McDonald's"),降低误标风险[28][29] - 设计人机协同工具链:AI预筛高风险样本→人工交叉验证(如"how dare you"语气修正)[30] - 引入红队测试机制模拟攻击场景,帮助客户识别模型安全漏洞[31] - 动态偏见管控:初期高比例审核(覆盖敏感群体)→后期降至2%,平衡偏见利弊[32][33] - 交付速度形成护城河,API支持新任务即时启动,质量审核周期领先同行[34] 04 客户案例1:OpenAI GSM8K数据集 - 为OpenAI构建8500道小学数学题数据集,要求每题包含2-8步推理且答案为整数[36][38] - 标注员需STEM背景,提交试写题目并通过审核,采用"双人独立解题"歧义检测机制[36][39] - 通过句子嵌入+余弦相似度过滤重复场景,最终数据集成为LLM推理能力评估标杆[40] 05 客户案例2:Anthropic训练Claude - 解决Anthropic三大痛点:高质量RLHF数据获取难、质控体系搭建难、工具开发资源占用[43][45] - 提供科学家团队设计的专有质控技术、领域专家标注团队和快速实验接口(1-2周评估)[46][48] - Anthropic联合创始人评价Surge为"绝佳合作伙伴",支撑AI对齐研究[51] 06 创始人团队 - Edwin Chen:MIT复合学科背景,前Google/Facebook工程师,发现GoEmotions数据集30%标签错误[56] - Andrew Mauboussin:哈佛毕业,前Twitter工程师,主导实时API和多语言数据收集[59][60] - Bradley Webb:Facebook前数据运营负责人,将合规性打造为公司核心壁垒[35][62]
鲍威尔直面数据危纸白银攻防白热化
金投网· 2025-06-26 14:05
纸白银市场行情 - 纸白银当前价格8 368元/克 较开盘价8 301元/克上涨0 77% 最高触及8 381元/克 最低下探8 298元/克 短线走势偏向看涨 [1] - 关键支撑区间位于8 131-8 200元/克 若失守可能面临进一步下行压力 动态支撑关注8 210元/克水平 [3] - 上行阻力带集中于8 410-8 490元/克区间 突破后可能测试8 500元/克关键位置 [3] 美联储数据质量担忧 - 美联储主席鲍威尔对劳工统计局经济数据质量下滑表示忧虑 指出调查范围缩减可能影响决策准确性 [2] - 5月CPI数据中约30%为估算值 达历史平均水平三倍 可能导致通胀数据呈现"虚假繁荣" [2] - 5月非农新增就业13 9万个岗位 但分析认为实际数字可能下修至10万左右 [2]
鲍威尔:我不会说对当前数据的质量感到忧心忡忡。我担心的是,数据质量的走向。继续提供更好的数据衡量方式是一种聪明的投资。
快讯· 2025-06-24 22:50
数据质量与投资 - 当前数据质量未引起过度担忧 但需关注其未来发展趋势 [1] - 持续改进数据衡量方式是具有战略意义的投资方向 [1]