# redas_html_to_pos_urls **Repository Path**: redas/redas_html_to_pos_urls ## Basic Information - **Project Name**: redas_html_to_pos_urls - **Description**: 从职位列表HTML转换为职位详情URL - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-10-19 - **Last Updated**: 2022-06-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # redas_html_to_pos_urls 将得到的html进行数据清洗,取出职位的URL ## Getting Start 运行该项目,需要先安装python3以上的版本 1. 首先,执行以下命令安装需要的库,pip命令可能因为版本的不同而不同,如python3.6,pip可能为pip3.6或pip3。 ``` pip install -r requirements.txt ``` 2.消息队列配置文件,在config/mq_config.ini.sample,将其修改为config/mq_config.ini,其中配置默认情况如下: ``` # mq_config(UTF-8) [mq_positions_url_html] host=192.168.0.4:9092 group=positions_url_html topic=positions_url_html ``` 根据kafka地址的不同修改host参数,group和topic分别为kafka配置中的groupId和topicId。 3.API接口,处理数据完成后,需要调用的接口,在config/api_config.ini.sample,将其修改为config/api_config.ini, 若本项目(redas_html_to_pos_urls)和redas_api_core在同一台服务器上,默认配置如下: ``` # api_config(UTF-8) [api_url_config] send_url=http://127.0.0.1:8080/position/addUrl ``` 若不在同一台服务器上,需要对send_url进行配置,将127.0.0.1配置成redas_api_core所在服务器地址 4.日志相关配置文件,在config/log.ini.sample,将其修改为config/log.ini,默认配置: ``` [loggers] keys = root [formatters] keys = defaultFormatter [formatter_defaultFormatter] format = %(asctime)s %(process)s [%(levelname)s] %(message)s datefmt = %Y-%m-%d %H:%M:%S class = logging.Formatter [handlers] keys = defaultHandler, fileHandler [handler_defaultHandler] class = StreamHandler level = DEBUG formatter = defaultFormatter args = (sys.stdout,) [handler_fileHandler] class = logging.handlers.RotatingFileHandler level = DEBUG formatter = defaultFormatter args = ('error.log', 'a', 100000000, 3, 'utf-8', False) [logger_root] level = DEBUG handlers = defaultHandler, fileHandler qualname = root ``` 5.sppm_env配置,在.sppm_env.sample,将其修改为.sppm_env,如果同一台服务器上运行了使用sppm库的程序,请将默认配置进行修改,否则会出现严重bug,默认配置: ``` pid=/tmp/example.pid child_pid=/tmp/example_child.pid lock=/tmp/example.lock log=/tmp/example.log timeout=5 ``` 6.运行 ``` python3 positions_url_html_consumer.py --start ``` 7.关于运行、停止、sppm日志等级设置,请阅读`sppm`(`https://github.com/geekcampchina/SamplePythonProcessManager`)文档。 ``` usage: examples/example.py --no-daemon -d -v -l [--start|--stop|--reload|--shutdown|--restart|--status] 简化进程管理的命令行工具 optional arguments: -h, --help show this help message and exit --no-daemon 不使用进程管理模式 -l {0,1,2,3,4,5}, --log-level {0,1,2,3,4,5} 日志级别,CRITICAL|ERROR|WARNING|INFO|DEBUG|TRACE,默认等级3(INFO) --start 启动子进程 --stop 等待子进程正常退出 --reload 等待子进程正常退出,并启动新的子进程 --shutdown 强制杀掉子进程 --restart 强制杀掉子进程,并启动新的子进程 --status 显示子进程状态 -v, --version 显示版本信息 ```