# BaiduPinyinCrawler **Repository Path**: jack2583/BaiduPinyinCrawler ## Basic Information - **Project Name**: BaiduPinyinCrawler - **Description**: No description available - **Primary Language**: Unknown - **License**: GPL-3.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-10-30 - **Last Updated**: 2021-10-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 百度汉语字典爬虫 利用爬虫从百度抓取所有汉字的词组,然后整理有效的词组在mysql数据库中。 基于 [百度汉语数据](https://hanyu.baidu.com/)(共抓取35W词组拼音数据) 。 ## 使用方法 安装 ```bash $ git clone https://github.com/SivanLaai/exact-pinyin-mark.git $ cd exact-pinyin-mark $ pip install -r requirements.txt ``` 安装mysql 创建表格 ```sql CREATE TABLE `single_character` ( `pinyin` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NOT NULL, `word` varchar(255) NOT NULL, `plainPinyin` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NOT NULL, `definition` varchar(4096) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci DEFAULT NULL, `pronunciation` varchar(255) DEFAULT NULL, `wordID` int DEFAULT NULL, PRIMARY KEY (`word`,`pinyin`) USING BTREE ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci; ``` 配置setting ```bash [LOG] LEVEL = INFO //日志等级 LOG_PATH = ./FundCrawler/logs //日志目录 [MYSQL] host = 127.0.0.1 //MYSQL服务器ip PORT = 20137 //MYSQL服务器端口 USERNAME = username PASSWORD = password DATA_BASE_NAME = Fund ``` 运行爬虫 ```bash # 会开始抓取百度下所有的词组和拼音以及常见的含义。 python PinyinDataCrawler.py ``` #### 注意事项 - 因为数据量过大,爬虫的抓取时间可能需要1到2天,需要保证程序的正常运行。 - 先配置好mysql。