diff --git a/README.md b/README.md index 02a937318938746567d571fa3b38f34702813338..a1b0cf3a1d3d7544fba51facb134a929f957b0b0 100644 --- a/README.md +++ b/README.md @@ -1,10 +1,10 @@ -# Crawl Packages According to CSV File +# 根据 CSV 文件爬取制品 -## Description +## 描述 -根据 CSV 文件中的制品 GAV(Group, Artifact, Version)同步上游源的制品。 +该工具用于根据 CSV 文件中提供的制品 GAV(Group, Artifact, Version)信息,从上游源同步对应的制品。 -## Usage +## 使用方法 ```shell usage: crawler.py [-h] -f FILE -t TYPE [-s SEP] [--no-header] [-o LOG_DIR] @@ -14,12 +14,39 @@ Sync packages according to csv file optional arguments: -h, --help show this help message and exit - -f FILE, --file FILE specify the csv file which contains package info to sync - -t TYPE, --type TYPE specify the type of packages ready to sync - -s SEP, --sep SEP specify the sep of csv file (default: " ") - --no-header whether the csv file has header + -f FILE, --file FILE 指定包含要同步的制品信息的 CSV 文件 + -t TYPE, --type TYPE 指定要同步的制品类型 + -s SEP, --sep SEP 指定 CSV 文件的分隔符(默认为 " ") + --no-header 指定 CSV 文件是否无表头 -o LOG_DIR, --log-dir LOG_DIR - specify log directory (default: /tmp) + 指定日志目录(默认为 /tmp) --last-sync LAST_SYNC - specify last sync package -``` \ No newline at end of file + 指定上次同步的制品 +``` + +## 目录结构 + +- `crawler/`:主程序目录 + - `crawler.py`:主程序入口,包含 `Crawler` 类 + - `download/`:下载相关模块 + - `fetcher.py`:定义 `Fetcher` 类,用于获取不同类型的制品发布信息 + - `package_download.py`:定义 `PackageDonwloader` 类,用于下载制品 + - `struct.py`:定义格式相关的类 + - `log/`:日志模块 + - `logger.py`:定义 `Logger` 类,用于记录日志 + - `parse/`:解析模块 + - `parser.py`:定义 `Parser` 类,用于解析 CSV 文件 + +## 依赖 + +请查看 `crawler/requirements.txt` 文件以获取所需的依赖包列表。 + +## 示例 + +```shell +python crawler.py -f packages.csv -t maven -s "," --log-dir /var/log/crawler --last-sync "com.example:example:1.0.0" +``` + +## 许可证 + +请查看项目根目录下的许可证文件以了解该项目所使用的许可协议。 \ No newline at end of file