1 Star 0 Fork 0

Hugging Face 数据集镜像/c4-chinese-zhtw

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
languagesize_categoriestask_categoriesdataset_infoconfigs
zh
1M<n<10M
text-generationfill-mask
featuressplitsdownload_sizedataset_size
namedtype
urlstring
namedtype
timestampstring
namedtype
content_languagestring
namedtype
content_typestring
namedtype
textstring
namenum_bytesnum_examples
train124806031482967556
865942540412480603148
config_namedata_files
default
splitpath
traindata/train-*

Dataset Card for "c4-chinese-zhtw"

內容

Common Crawl 是一個非營利組織,負責抓取網路並向公眾免費提供其檔案和資料集。Common Crawl 的網路檔案包含自 2008 年以來收集的 PB 級資料。它一般每月完成一次抓取。

Common Crawl 的爬蟲程式遵守 nofollow 和 robots.txt 政策。用於處理 Common Crawl 資料集的開源程式碼是公開可用的。

這個繁中的數據來是來自 Common Crawl 2023-14 的 data archive 下載并進行清理 。

這是 jed351 準備的版本,託管在這個位址:

支援的任務

C4主要用於預訓練語言模型(pretrain language model)。

範例

一個樣本的範例:

{
  'url': 'http://www.bilingtong.com/cpzx/96.html',
  'timestamp': '2023-03-21 02:12:48',
  'content_language': 'zho',
  'content_type': 'text/plain',
  'text': '新風系統是通過系統設計送風和排風使室內空氣存在一空氣 。無需開窗全天持續不斷有組.....'
}

資料欄位

資料有幾個欄位:

  • url: 來源 url
  • timestamp: 時間戳
  • content_language: 內容包含的語言種類
  • content_type: 內容類型,也稱為 MIME 或媒體類型,是 Web 伺服器回應標頭中的聲明
  • text:網頁清理後的文字內容

數據清理

請參考在 Github 上的專案 c4-dataset-script 來了解數據下載與清理的相關邏輯與程式碼。

主要的步驟有:

  1. Download the WET crawl archive index file
  2. Run download and Chinese screening script on Spark
  3. Filter out non-sentence lines and toxic document
  4. Remove duplicated text
  5. Remove documents that are over self-repeating - Repetition Removal in DeepMind MassiveText

許可資訊

請尊循 Common Craw terms of use 的條款。

空文件

简介

Mirror of https://huggingface.co/datasets/erhwenkuo/c4-chinese-zhtw 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/hf-datasets/c4-chinese-zhtw.git
git@gitee.com:hf-datasets/c4-chinese-zhtw.git
hf-datasets
c4-chinese-zhtw
c4-chinese-zhtw
main

搜索帮助