Hugging Face公司推出了名为FinePDFs的数据集,这是目前全球最大的纯PDF格式的公开语料库。该数据集包含1733种不同语言的4.75亿份文档,总计约3万亿个Token,数据量达到3.65TB。FinePDFs的发布标志着开放训练数据集进入了一个新时代,使得之前因处理复杂和成本高昂而难以利用的资源变得可访问,为自然语言处理和人工智能研究提供了前所未有的机会。
客服热线请拨打
400-998-8033