七年后，才发现误会了老实人李彦宏

Anthropic隐私政策变动 - 估值超过1800亿美金的AI公司Anthropic宣布禁止中国公司控制的实体及其海外分支机构使用Claude系列AI服务[2] - 公司修改用户隐私政策，从9月28日起个人用户与AI的对话、编码等互动数据将被默认授权用于模型训练，除非用户手动点击"不同意"[2] - 选择"同意"的用户数据保留5年，选择"不同意"的数据保留30天，此政策涵盖Claude所有免费和付费的个人用户[2] - 企业客户、政府机构客户、学术机构客户以及通过谷歌、亚马逊等API接口调用的商业用户不受此政策变动影响[2] AI行业数据使用标准 - OpenAI在2023年确立行业主流态度：付费或明确拒绝的用户数据不用于训练，低付费和免费用户若不主动拒绝则默认数据可用于训练[5] - Anthropic原本是行业异类，旧政策明确规定默认不使用用户数据训练模型，近期调低隐私标准与主流厂商看齐[6] - 中国2024年2月颁布的《生成式人工智能服务安全基本要求》规定使用用户输入信息作语料时需有使用者授权记录[8] - 中国法规要求为使用者提供便捷的关闭数据用于训练的方式，从主界面到达选项不超过4次点击[9] 国产大模型合规现状 - 国产大模型基本在用户协议的隐私政策部分完成授权合规，要求用户授权使用数据[9] - 豆包、通义千问在App客户端界面提供语音信息的便捷关闭功能，但不涵盖非语音输入数据[10] - 腾讯元宝和DeepSeek在"用户设置-数据管理-优化体验"中提供用户对话内容的完全授权撤回功能[10] - 多数国产大模型撤回授权需通过联系客服或发送邮件，不符合法规要求的"不超过4步点击"便捷标准[9] 数据安全与泄露事件 - 2025年夏季发生多起用户隐私泄露事故，包括恋爱辅助AI应用"撩骚AI"16万张用户聊天截图被公开[14] - OpenAI因产品设计失误导致逾7万用户对话记录出现在谷歌搜索结果中[14] - xAI旗下Grok因类似设计失误泄露超37万条用户对话记录，包含敏感个人隐私和危险操作内容[15] - 泄露内容包含生成恐怖袭击图像、破解加密钱包、编写恶意软件等危险信息，甚至出现"暗杀马斯克的详细计划"[15] 训练数据质量挑战 - 公开网页爬虫遭遇抵制，部分网站因AI厂商密集爬取导致服务器崩溃关站[17] - 联合研究发现GPT中文训练数据集超23%词元被非法广告污染，GPT-4o对日本成人片女星姓名的熟悉度是中文问候语"你好"的2.6倍[18] - 中国国产大模型的中文语料污染程度显著低于海外大模型，GPT-4o被污染数为773，而千问系列为48、GLM4为19、Deepseek为17、MiniCPM为6[20] - 中文语料污染主要来自非法网站在正常网页内容中插入的成人和赌博广告[18] 真人数据的重要性 - 2023年6月研究提出用AI合成数据训练会导致"模型崩溃"现象，AI会越学越错[22] - 《自然》杂志2024年7月封面论文证实，使用上代AI生成数据训练会使模型逐步丧失对真实数据分布的认识，9次迭代后模型完全崩溃[22] - Meta公司研究发现即使合成数据只占训练集的1%，仍可能导致模型崩溃[24] - 真人创造的数据被比喻为"洁净的空气与饮水"，是生成式AI必须依赖的维生补给[24]