AI模型训练
搜索文档
七年后,才发现误会了老实人李彦宏
搜狐财经· 2025-09-18 22:34
Anthropic隐私政策变动 - 估值超过1800亿美金的AI公司Anthropic宣布禁止中国公司控制的实体及其海外分支机构使用Claude系列AI服务[2] - 公司修改用户隐私政策,从9月28日起个人用户与AI的对话、编码等互动数据将被默认授权用于模型训练,除非用户手动点击"不同意"[2] - 选择"同意"的用户数据保留5年,选择"不同意"的数据保留30天,此政策涵盖Claude所有免费和付费的个人用户[2] - 企业客户、政府机构客户、学术机构客户以及通过谷歌、亚马逊等API接口调用的商业用户不受此政策变动影响[2] AI行业数据使用标准 - OpenAI在2023年确立行业主流态度:付费或明确拒绝的用户数据不用于训练,低付费和免费用户若不主动拒绝则默认数据可用于训练[5] - Anthropic原本是行业异类,旧政策明确规定默认不使用用户数据训练模型,近期调低隐私标准与主流厂商看齐[6] - 中国2024年2月颁布的《生成式人工智能服务安全基本要求》规定使用用户输入信息作语料时需有使用者授权记录[8] - 中国法规要求为使用者提供便捷的关闭数据用于训练的方式,从主界面到达选项不超过4次点击[9] 国产大模型合规现状 - 国产大模型基本在用户协议的隐私政策部分完成授权合规,要求用户授权使用数据[9] - 豆包、通义千问在App客户端界面提供语音信息的便捷关闭功能,但不涵盖非语音输入数据[10] - 腾讯元宝和DeepSeek在"用户设置-数据管理-优化体验"中提供用户对话内容的完全授权撤回功能[10] - 多数国产大模型撤回授权需通过联系客服或发送邮件,不符合法规要求的"不超过4步点击"便捷标准[9] 数据安全与泄露事件 - 2025年夏季发生多起用户隐私泄露事故,包括恋爱辅助AI应用"撩骚AI"16万张用户聊天截图被公开[14] - OpenAI因产品设计失误导致逾7万用户对话记录出现在谷歌搜索结果中[14] - xAI旗下Grok因类似设计失误泄露超37万条用户对话记录,包含敏感个人隐私和危险操作内容[15] - 泄露内容包含生成恐怖袭击图像、破解加密钱包、编写恶意软件等危险信息,甚至出现"暗杀马斯克的详细计划"[15] 训练数据质量挑战 - 公开网页爬虫遭遇抵制,部分网站因AI厂商密集爬取导致服务器崩溃关站[17] - 联合研究发现GPT中文训练数据集超23%词元被非法广告污染,GPT-4o对日本成人片女星姓名的熟悉度是中文问候语"你好"的2.6倍[18] - 中国国产大模型的中文语料污染程度显著低于海外大模型,GPT-4o被污染数为773,而千问系列为48、GLM4为19、Deepseek为17、MiniCPM为6[20] - 中文语料污染主要来自非法网站在正常网页内容中插入的成人和赌博广告[18] 真人数据的重要性 - 2023年6月研究提出用AI合成数据训练会导致"模型崩溃"现象,AI会越学越错[22] - 《自然》杂志2024年7月封面论文证实,使用上代AI生成数据训练会使模型逐步丧失对真实数据分布的认识,9次迭代后模型完全崩溃[22] - Meta公司研究发现即使合成数据只占训练集的1%,仍可能导致模型崩溃[24] - 真人创造的数据被比喻为"洁净的空气与饮水",是生成式AI必须依赖的维生补给[24]
美股异动丨巨额订单遭多家投行质疑,甲骨文收跌超6%
格隆汇APP· 2025-09-12 09:26
股价表现 - 甲骨文股价在暴涨36%后单日收跌超6%至307.86美元 [1] 财务与业务预期 - 公司预计2026财年云基础设施营收大增77%至180亿美元 超华尔街预期 [1] - 未来四年云营收预计攀升至320亿美元、730亿美元、1140亿美元及1440亿美元 [1] - 未实现履约义务达4550亿美元 同比激增359% [1] 大额订单与客户集中度风险 - OpenAI签署五年期价值3000亿美元算力采购协议 为史上最大云服务合同之一 [1] - 分析师指出积压订单几乎全部来自OpenAI 未来增长高度依赖单一客户 [1][2] - 客户集中度上升带来单一依赖性风险 新增订单主要集中于AI巨头 [1][2] 收入确认与盈利性担忧 - 4550亿美元未实现履约义务中仅约10%将在未来12个月内确认为收入 [2] - 新增订单多与AI模型训练相关 该类业务利润率相对较低 [2] - 公司是否有足够资金支撑天文数字级基础设施建设存疑 [2]
大模型下半场:谁在掘金数据标注?
36氪· 2025-09-02 16:25
Meta收购Scale AI交易分析 - Meta以约150亿美元收购Scale AI 49%股份 交易后Scale AI估值达290亿美元[1] - Scale AI创始人兼CEO汪滔将卸任并加入Meta组建超级智能小组 同时保留Scale董事会席位[1] - 收购反映Meta对高质量训练数据的迫切需求 因其Llama4Behemoth模型30%语料来自低质量社交媒体内容 导致多模态理解等核心指标落后GPT-4.5约12%[2] 数据标注行业概况 - 全球数据标注行业市场规模约20亿美元 其中美国市场占8.38亿美元份额达40%[5] - 行业主要分为三类玩家:纯人力型公司(低成本劳动力标准化任务)、互联网大厂众包平台(自有业务需求+外部劳动力池)、智能型服务商(自主研发平台+算法能力+定制化解决方案)[3] - 头部智能型企业多从人力公司进化而来 Scale AI前身为"ScaleAPI" 通过"人力API"模式积累数据后逐步采用AI替代人力[4] Scale AI业务模式演变 - 公司最初通过"人力API"模式为开发者提供远程劳动力团队服务 客户包括丰田本田等企业[4] - 2018年起构建"机器预标注+人工复核"混合工作流 用算法完成预标注后由人工专家审核修正[4] - ChatGPT平均标注成本低于0.003美元 比传统众包平台便宜20倍 GPT-4标注准确率达88.4%超过人类标注员的86.2%[4] 全球市场竞争格局 - 美国企业凭借全球化分工将基础任务外包至菲律宾肯尼亚等低成本地区 Scale AI通过Remotasks平台拥有超24万注册工人[6] - 中美技术存在明显差距:中国云测数据自动标注主要应用于智能驾驶领域 海天瑞声智能化水平有限仍高度依赖人工[6] - 美国形成完整产业生态 除Scale外还有SurgeAI(微调服务)、Turing、Lionbridge(文本语音)等专业公司[8] 行业技术发展趋势 - AI标注目前仅适用于交通图像人脸识别等标准化任务 规则制定和质量把关仍需人工介入[8] - 大模型训练重心从预训练转向强化学习 对医疗影像法律文本等专业化数据需求增加[9] - 标注员需具备专业知识与跨学科能力 任务涉及推理链条和多模态对齐等复杂场景[10] 代表性企业对比 - Surge AI专注于高质量数据生成(如编程代码数据) 2024年营收达10亿美元超越Scale AI的8.7亿美元[10] - 合成数据作为替代路径存在局限性:现实场景变化时有效性不足 数据安全风险限制大规模应用[10] - 数据标注行业正向更高质量和更强专业化方向演进 技术壁垒不断拔高[11]
微软发布Mu模型:支持Windows智能体,小参数跑出10倍性能;研究称美国30%代码已由AI生成,年创百亿美元价值 | 全球科技早参
每日经济新闻· 2025-06-24 07:50
微软发布Mu模型 - 微软发布创新小参数模型Mu,参数仅3.3亿,性能比肩Phi-3.5-mini但体量为其十分之一 [2] - Mu在离线NPU笔记本设备上可实现每秒超过100 tokens的响应速度,在小参数模型中表现罕见 [2] - Mu支持在Windows中设置智能体,可将自然语言指令实时转化为系统操作 [2] AI编程在美国的应用 - 研究显示2024年美国开发者提交的Python代码中30.1%由AI生成 [3] - AI辅助编程每年为美国创造96亿至144亿美元的经济价值 [3] - 数据基于2018-2024年GitHub上8000万条代码记录的分析 [3] 谷歌使用YouTube视频训练AI - 谷歌正使用200亿条YouTube视频资源库训练新一代AI工具 [4] - 公司强调仅使用部分内容并遵守与创作者及媒体公司的协议 [4] - YouTube表示已投入开发保护机制以保障创作者权益 [4] 关于AI监管的争议 - 微软首席科学家警告特朗普政府禁止州级AI监管的提议将阻碍技术发展 [5] - 该提议计划禁止各州在未来十年内制定任何限制AI的法律或法规 [5] - 专家认为禁止监管与科学进步目标背道而驰 [5] Perplexity推出AI浏览器 - Perplexity计划向Windows用户推出搭载"搜索智能体"的Comet浏览器 [6] - Windows版本已完成并开始小范围测试,Android版本也在快速推进 [6] - 浏览器内置AI助理支持购物折扣检查、邮件提醒和虚拟试衣等功能 [6][7]