代码拉取完成,页面将自动刷新
language | size_categories | task_categories | dataset_info | configs | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
|
|
|
Common Crawl 是一個非營利組織,負責抓取網路並向公眾免費提供其檔案和資料集。Common Crawl 的網路檔案包含自 2008 年以來收集的 PB 級資料。它一般每月完成一次抓取。
Common Crawl 的爬蟲程式遵守 nofollow 和 robots.txt 政策。用於處理 Common Crawl 資料集的開源程式碼是公開可用的。
這個繁中的數據來是來自 Common Crawl 2023-14 的 data archive 下載并進行清理 。
這是 jed351 準備的版本,託管在這個位址:
C4主要用於預訓練語言模型(pretrain language model)。
一個樣本的範例:
{
'url': 'http://www.bilingtong.com/cpzx/96.html',
'timestamp': '2023-03-21 02:12:48',
'content_language': 'zho',
'content_type': 'text/plain',
'text': '新風系統是通過系統設計送風和排風使室內空氣存在一空氣 。無需開窗全天持續不斷有組.....'
}
資料有幾個欄位:
url
: 來源 urltimestamp
: 時間戳content_language
: 內容包含的語言種類content_type
: 內容類型,也稱為 MIME 或媒體類型,是 Web 伺服器回應標頭中的聲明text
:網頁清理後的文字內容請參考在 Github 上的專案 c4-dataset-script 來了解數據下載與清理的相關邏輯與程式碼。
主要的步驟有:
請尊循 Common Craw terms of use 的條款。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。