Workflow
Data Transparency
icon
搜索文档
European Firms Seek Sovereign Clouds for Compliance, Resilience
Businesswire· 2026-01-09 17:00
文章核心观点 - 欧洲公司正采用主权云来应对更严格的法规、地缘政治风险以及日益增长的数据透明度需求 [1] 行业趋势与驱动因素 - 欧洲公司采用主权云的主要驱动力包括更严格的监管规定、地缘政治风险以及市场对数据透明度的需求增长 [1]
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集
AI前线· 2025-09-17 14:17
数据集发布 - Hugging Face正式发布全球最大的纯PDF公开语料库FinePDFs 涵盖1733种语言的4.75亿份文档 总计约3万亿个Token 规模达3.65TB [2] - 英语内容占比最高 超过1.1万亿个Token 西班牙语 德语 法语 俄语和日语各自贡献超过1000亿个Token 978种语言贡献超过100万个Token [3] 技术优势 - PDF文档相比HTML源具有独特优势 记录更高质量特定领域内容 尤其在法律 学术和技术写作领域 [2] - 采用混合技术处理文本提取 GPU驱动OCR 去重 语言识别和PII匿名化 实现大规模处理并保证提取质量 [2] 性能验证 - 基于数据集子集训练1.67B参数模型 表现与最先进HTML数据集SmolLM-3 Web相当 [3] - 在基准测试中 PDF与HTML数据集结合显著提升性能 证明PDF可带来互补知识 [3] 行业影响 - 数据集具备推进长上下文训练潜力 PDF文档通常比网页长得多 [4] - 被视为数据透明度里程碑 不仅发布数据集 还完整记录从OCR检测到去重的处理流程 [4] - 遵循开放数据共享署名许可 可免费用于研究和开发 通过Hugging Face Hub及配套工具库访问 [4]