# xjtu_2023Summer_IntelligentInvestmentAdvisoryPlatform_ProjectDesign **Repository Path**: dls_w_j/iiap ## Basic Information - **Project Name**: xjtu_2023Summer_IntelligentInvestmentAdvisoryPlatform_ProjectDesign - **Description**: course design. - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-06-29 - **Last Updated**: 2023-07-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 2023年6月30日20点34分 文档说明 ## About 项目地址 [DL/iiaq](https://gitee.com/dls_w_j/iiap) 程序主要使用 python 语言 requests BeautifulSoup 库进行爬虫操作, 爬取了 A 股市场总计 5480 支个股的 20181001-20230630 期间的股票数据。 从 CSMAR 数据库中获取 20230428 日的 A 股市场股票基本信息,见 ./cn_stocks.csv 文件。 向 https://q.stock.sohu.com/hisHq 网站发送 HTML get 请求,参数包含股票代码、开始时间、结束时间即 code start end, 获取某支个股某段时间的日期、开盘价、最高价、最低价、收盘价、涨跌额、涨跌幅、成交量、换手率等数据, 然后再将各时段数据拼接起来,获取到总目标时段即 20181001-20230630 的数据,存入 pandas DataFrame 数据结构,再 保存到 ./rlt/{time_stamp}/{code}.csv 文件(time_stamp code 分别表示程序开始运行的时间、股票代码)。 ## Features + 利用 python loguru 库记录程序运行状况,并保存为 ./rlt/{time_stamp}/.log 日志文件 + requests 库发送 get 请求添加了 user-agent referer authority 等请求头,以及随机休眠措施,作为反反爬虫措施 + 部分个股部分时段数据缺失,程序记录缺失数据的股票代码,最后将缺失数据的股票代码保存为 ./rlt/{time_stamp}/{code}.csv 文件 ## Built With + Ubuntu 20.04.3 LTS + python 3.10.6 + beautifulsoup4 4.12.2 + loguru 0.7.0 + numpy 1.25.0 + pandas 2.0.3 + requests 2.31.0 ## Usage ```python python3 stockDataCrawler/main.py # 爬取股票数据 ``` ## TODO + 优化代码结构:此程序逻辑难以处理缺失数据,只能记录有缺失的股票代码,无法记录具体缺失的数据内容 + 基金爬虫程序 ## Contributing 程序改写自吴纪辉学长的代码