# douban250

**Repository Path**: superbol/douban250

## Basic Information

- **Project Name**: douban250
- **Description**: 基于flask 豆瓣电影250部数据可视化
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 3
- **Forks**: 0
- **Created**: 2021-06-07
- **Last Updated**: 2025-10-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

视频路径:https://www.bilibili.com/video/BV12E411A7ZQ?from=search&seid=13125463768609555306

1  项目意义
    随着如今电影越来越多,各种各样的烂片和捞钱的商业片也层出不穷,而有意义的电影慢慢的变的很少。在这种情况下豆瓣通过大数据整合了网友心中的TOP250部电影,而豆瓣的页面充斥着太多与电影无关的信息,于是我们做一个电影250的整合,数据取至豆瓣。爬取每部电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接存到excel表和数据库,然后把数据做可视化处理,分析250部电影中的评分。能够更好的从数据可视化界面中查看感兴趣的电影

2  项目内容
此项目数据来源https://movie.douban.com/top250及子页面。
通过观察页面标签的规律,使用request库爬取页面,用Beautiful Soup配合re正则表达式解析标签,拿到电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接,分别用openpyxl写入excel表,和用pymysql写入数据库,配合Flask轻量级web框架,搭建网页读取数据库数据把每部电影的信息放入表格,Echars实现数据可视化,配合wordCloud词云库根据250部电影的一句话描述，提炼出词云树
2.1实现的功能（实际应用）
1. 爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Excel
2. 爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Mysql
3. 通过网页的形式呈现出数据库里的电影数据
4. 通过对大众评分进行排比,使用Echars生成柱状图实现数据可视化
2.2对技术方法的总结
在此项目中使用到技术和工具：
1.	使用编译器：Pycharm
2.	数据库工具: SQLyog
3.	使用Python模块：
BeautifulSoup:分析标签
RE：正则表达式
Requests:爬虫
Pymysql:操作Mysql库
Openpyxl:操作Excel库
Flask:轻量级Web框架
PyInstaller:打包工具
4.额外知识:SQL,HTML,CSS


3项目准备经验总结
3.1资源调研
1. 网络资源：豆瓣TOP250网站
2. 图书论文资源：CSDN


此次项目实践遇到的问题:
1.	在数据清洗上不够细心花了很多时间,在爬取的过程中带出了很多不必要的标签 主要是对正则表达式的不熟悉
2.	SQL语句不扎实,在写入mysql中,一直报错,后来发现是语句拼写错误导致
3.	对库的不熟悉,在使用不同的函数中,老是报莫名其妙的错误,原因是没传参
4.	运行问题,在项目完成时,考虑到别的环境下部署要安装Python环境和库，非常麻烦。最后使用PyInstraller打包成exe执行文件,在别的环境也可以直接运行
5.	PyInstraller也是踩了很多坑,打包后运行程序报错,提示找不到URL, 查阅资料发现没有把模板和静态资源带上