# task

**Repository Path**: zyt_0505/task

## Basic Information

- **Project Name**: task
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-22
- **Last Updated**: 2025-11-03

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 新浪财经历史分红数据爬取与预处理

## 项目介绍

本项目旨在帮助用户从新浪财经网站获取历史分红数据，并对数据进行预处理，为投资者和研究者的后续分析提供便利。项目包含两个主要Python文件，分别实现数据爬取和数据预处理功能。

## 项目目标

1. 掌握网络爬虫技术，从新浪财经网站获取历史分红数据
2. 学习数据预处理方法，包括数据清洗、格式转换、重复值检查和数据归一化等
3. 为投资者的投资决策提供数据支持

## 目录结构

```
c:\Users\YEDX\task\
├── README.md               # 项目说明文档
├── 第三章作业\              # 作业文件夹
│   ├── ai\                 # AI相关文件
│   │   ├── 提示词.txt       # 任务提示词
│   │   └── 第三章原始需求.png # 原始需求图片
│   ├── data_crawler.py     # 数据爬取脚本
│   └── data_preprocessor.py # 数据预处理脚本
```

## 环境要求

- Python 3.8+ 
- 所需库：requests, beautifulsoup4, pandas, numpy, openpyxl

## 安装依赖

```bash
pip install requests beautifulsoup4 pandas numpy openpyxl
```

## 使用说明

### 1. 数据爬取

运行`data_crawler.py`文件，程序会自动爬取新浪财经网站历史分红数据第1-100页的内容，并将数据保存为"新浪财经历史分红数据.xlsx"文件。

```bash
python 第三章作业\data_crawler.py
```

### 2. 数据预处理

运行`data_preprocessor.py`文件，程序会读取"新浪财经历史分红数据.xlsx"文件，进行数据预处理，并将处理后的数据保存为"新浪财经历史分红数据_预处理.xlsx"文件。

```bash
python 第三章作业\data_preprocessor.py
```

## 功能说明

### 数据爬取功能
- 自动爬取新浪财经网站历史分红数据第1-100页
- 提取股票代码、名称、详细信息、上市日期、累计股息、年均股息、分红次数、融资总额等信息
- 数据保存为Excel文件格式

### 数据预处理功能
- 检查数据形状
- 检查"代码"、"名称"、"详细"字段的重复值
- 展示数据前5行并进行必要的调整
- 处理"上市日期"，提取年、月、日变量
- 对数值型变量进行数据归一化处理
- 将预处理后的数据与原数据横向合并
- 保存处理后的数据

## 注意事项

1. 爬取数据时，请确保网络连接稳定
2. 爬取过程中可能会遇到网站限流，程序已添加适当的延时机制
3. 数据预处理结果可能因原始数据的不同而有所差异
4. 如遇特殊情况，请查看程序输出的错误信息