# task **Repository Path**: zyt_0505/task ## Basic Information - **Project Name**: task - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-22 - **Last Updated**: 2025-11-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 新浪财经历史分红数据爬取与预处理 ## 项目介绍 本项目旨在帮助用户从新浪财经网站获取历史分红数据,并对数据进行预处理,为投资者和研究者的后续分析提供便利。项目包含两个主要Python文件,分别实现数据爬取和数据预处理功能。 ## 项目目标 1. 掌握网络爬虫技术,从新浪财经网站获取历史分红数据 2. 学习数据预处理方法,包括数据清洗、格式转换、重复值检查和数据归一化等 3. 为投资者的投资决策提供数据支持 ## 目录结构 ``` c:\Users\YEDX\task\ ├── README.md # 项目说明文档 ├── 第三章作业\ # 作业文件夹 │ ├── ai\ # AI相关文件 │ │ ├── 提示词.txt # 任务提示词 │ │ └── 第三章原始需求.png # 原始需求图片 │ ├── data_crawler.py # 数据爬取脚本 │ └── data_preprocessor.py # 数据预处理脚本 ``` ## 环境要求 - Python 3.8+ - 所需库:requests, beautifulsoup4, pandas, numpy, openpyxl ## 安装依赖 ```bash pip install requests beautifulsoup4 pandas numpy openpyxl ``` ## 使用说明 ### 1. 数据爬取 运行`data_crawler.py`文件,程序会自动爬取新浪财经网站历史分红数据第1-100页的内容,并将数据保存为"新浪财经历史分红数据.xlsx"文件。 ```bash python 第三章作业\data_crawler.py ``` ### 2. 数据预处理 运行`data_preprocessor.py`文件,程序会读取"新浪财经历史分红数据.xlsx"文件,进行数据预处理,并将处理后的数据保存为"新浪财经历史分红数据_预处理.xlsx"文件。 ```bash python 第三章作业\data_preprocessor.py ``` ## 功能说明 ### 数据爬取功能 - 自动爬取新浪财经网站历史分红数据第1-100页 - 提取股票代码、名称、详细信息、上市日期、累计股息、年均股息、分红次数、融资总额等信息 - 数据保存为Excel文件格式 ### 数据预处理功能 - 检查数据形状 - 检查"代码"、"名称"、"详细"字段的重复值 - 展示数据前5行并进行必要的调整 - 处理"上市日期",提取年、月、日变量 - 对数值型变量进行数据归一化处理 - 将预处理后的数据与原数据横向合并 - 保存处理后的数据 ## 注意事项 1. 爬取数据时,请确保网络连接稳定 2. 爬取过程中可能会遇到网站限流,程序已添加适当的延时机制 3. 数据预处理结果可能因原始数据的不同而有所差异 4. 如遇特殊情况,请查看程序输出的错误信息