2023-06-20发表2023-06-24更新 Azyka 9 分钟读完 (大约1380个字)

【论文导读】The RefinedWeb Dataset for Falcon LLM

介绍

为了最大程度在规模扩张时提高模型性能，根据Chinchilla scaling law缩放定律（2022年由Deepmind提出），模型大小和数据集大小应该同时增加。而早期的KM scaling law，则认为应该首先关注模型大小，减少数据集的增大。

scaling law：以模型大小、数据规模和总计算量作为决定模型性能的关键要素，计算资源有限时三种要素的分配方式使得模型预期性能最大化。

根据Deepmind团队的描述，理想情况下训练一个175B模型需要至少35000亿token的文本。这种规模是目前最大预训练数据集的2倍，最大公开英文数据集的10倍。

为了满足这种需求，大部分数据都是通过网络爬取的方式获得，这种数据通常被认为质量低于人工审核的数据。该文章关注了数据质量对模型训练效果的影响，做出了以下贡献：

2023.6.19时的OpenLLMLeaderboard截图，可以看到falcon的排名很高，超越了LLaMA的同时，还有使用了更小的数据集

简而言之，在目前所有开源模型中，Falcon有最好的表现和相对较低GPU内存占用。

对于常规的任务部署来说，Falcon-40B-Instruct是最优选择。

文中提出了MDR（MacroData Refinement），这是一个用于大规模过滤和消除CommonCrawl中web数据重复的管道。

MDR设计准则

Scale first. 规模优先。为了能够训练40-200B的模型，优先满足数据集规模达到万亿级别的需要。数据来源于CommonCrawl来避免领域知识单一
Strict deduplication. 严格去重。结合精准和模糊去重，实现一个严格的去重流水线
Neutral filtering. 中立过滤。为了避免在模型引入歧视信息，文中没有使用机器学习来过滤数据，而是使用规则和启发式方法，且仅用URL过滤成人内容

每一步过滤后剩余的数据量：

数据读取

CommonCrawl 提供两种形式WET文件（从网页中提取得到的纯文本）和WARC文件（原始HTML响应），由于WET文件通常存在保留了无关文本的问题，因此处理从WARC文件开始。
URL过滤

使用URL对成人网站（色情、暴力、赌博等）进行过滤，使用2个判断标准：
- 包含460万个域名的过滤列表
- 基于敏感词出现频率和权重计算的URL得分
Text extraction 文本提取

使用trafilatura库和正则表达式，实现保留HTML响应中主要的文字内容，去除无关的导航栏、广告等内容。
Language identification 语言识别

使用fastText语言分类器CCNet对语言分类，只保留英文占比高于0.65的文档。

Repetition removal 去除高重复内容

由于爬虫错误和低质量源，许多文件包含重复序列。文中采用2019由Rae等人提出的启发式方法去除了任何行、段或n-gram重复过多的文档。

具体实现：
- 对行和段落，分别计算它们在整个文档重复所占比例，以及重复部分中的每个字符重复出现的比例
- 对 $n\in{2,3,4}$，计算出现频率最高的n-gram的占比
- 对 $n\in{5,…,10}$，计算每一个发生重复的n-gram总占比
过滤所有比例大于门槛的文档。
Document-wise filtering 文档过滤

去除垃圾邮件、特殊字符序列等内容。
Line-wise corrections 行矫正

文档中的行有时会与不需要的内容交错，如（social media counters 3 likes, navigation buttons），文中使用行矫正过滤器，针对这些内容进行移除，如果移除内容超过文档的5%，则删除整个文档。

由于爬虫可能多次访问同一页面或页面抄袭，不同文档间的内容仍然存在重复。

【论文导读】The RefinedWeb Dataset for Falcon LLM

Azyka

2023-06-20

2023-06-24