# 数据采集练习 **Repository Path**: chuna233/data-collection-practice ## Basic Information - **Project Name**: 数据采集练习 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-01 - **Last Updated**: 2025-12-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 存储数据分析展示实践 ## 实践 ### 确保安装依赖包 ```bash pip install openpyxl xlrd pandas requests BeautifulSoup4 ``` ### prerocessing.py 1. 计算提供数据的起点薪资 xzdyq 平均值 ```python # 计算'xzdyq'列的平均值 average_xzdyq = df_csv['xzdyq'].mean() ``` 2. 计算提供数据的最高薪资 xzdyz 平均值 3. 获取起点薪资 xzdyq 最大值与最小值 4. 获取最高薪资 xzdyz 最大值与最小值 ## 扩展 ### prerocessing.py - 可否加载json数据 ```python # 打开JSON文件并加载数据 with open('data.json', 'r', encoding='utf-8') as file: data = json.load(file) ``` - 是否可以使用导入的json数据,替换实践的csv数据完成实践 - 能否绘制公司名称-公司起点薪资的折线图 1. 安装绘制包 ```bash pip install matplotlib ``` 2. 绘制折线图 ```python import matplotlib.pyplot as plt import matplotlib # 设置matplotlib的字体为支持中文的字体 matplotlib.rcParams['font.sans-serif'] = ['SimHei'] # 'SimHei'是黑体的字体名 matplotlib.rcParams['axes.unicode_minus'] = False # 解决负号'-'显示为方块的问题 # 获取CSV文件中 企业名称与薪资两列:'Company'和'Salary' companies = df_csv['dwmc'] salaries = df_csv['xzdyq'] # 绘制折线图 plt.plot(companies, salaries, marker='o') # 设置图表标题和标签 plt.title('企业起点薪资') plt.xlabel('企业') plt.ylabel('起点薪资') # 旋转x轴标签 plt.xticks(rotation=45) # 显示网格 plt.grid(True) # 显示图例 plt.legend(['Salaries']) # 显示图表 plt.show() ``` ![](./折线图.png)