# douban250 **Repository Path**: superbol/douban250 ## Basic Information - **Project Name**: douban250 - **Description**: 基于flask 豆瓣电影250部数据可视化 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 0 - **Created**: 2021-06-07 - **Last Updated**: 2025-10-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 视频路径:https://www.bilibili.com/video/BV12E411A7ZQ?from=search&seid=13125463768609555306 1 项目意义 随着如今电影越来越多,各种各样的烂片和捞钱的商业片也层出不穷,而有意义的电影慢慢的变的很少。在这种情况下豆瓣通过大数据整合了网友心中的TOP250部电影,而豆瓣的页面充斥着太多与电影无关的信息,于是我们做一个电影250的整合,数据取至豆瓣。爬取每部电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接存到excel表和数据库,然后把数据做可视化处理,分析250部电影中的评分。能够更好的从数据可视化界面中查看感兴趣的电影 2 项目内容 此项目数据来源https://movie.douban.com/top250及子页面。 通过观察页面标签的规律,使用request库爬取页面,用Beautiful Soup配合re正则表达式解析标签,拿到电影的片名,制作人员,评分,和评分人数,对电影的评价,还有影片链接,分别用openpyxl写入excel表,和用pymysql写入数据库,配合Flask轻量级web框架,搭建网页读取数据库数据把每部电影的信息放入表格,Echars实现数据可视化,配合wordCloud词云库根据250部电影的一句话描述,提炼出词云树 2.1实现的功能(实际应用) 1. 爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Excel 2. 爬取电影的片名,制作人员,评分,和评分人数,对电影的评价写入Mysql 3. 通过网页的形式呈现出数据库里的电影数据 4. 通过对大众评分进行排比,使用Echars生成柱状图实现数据可视化 2.2对技术方法的总结 在此项目中使用到技术和工具: 1. 使用编译器:Pycharm 2. 数据库工具: SQLyog 3. 使用Python模块: BeautifulSoup:分析标签 RE:正则表达式 Requests:爬虫 Pymysql:操作Mysql库 Openpyxl:操作Excel库 Flask:轻量级Web框架 PyInstaller:打包工具 4.额外知识:SQL,HTML,CSS 3项目准备经验总结 3.1资源调研 1. 网络资源:豆瓣TOP250网站 2. 图书论文资源:CSDN 此次项目实践遇到的问题: 1. 在数据清洗上不够细心花了很多时间,在爬取的过程中带出了很多不必要的标签 主要是对正则表达式的不熟悉 2. SQL语句不扎实,在写入mysql中,一直报错,后来发现是语句拼写错误导致 3. 对库的不熟悉,在使用不同的函数中,老是报莫名其妙的错误,原因是没传参 4. 运行问题,在项目完成时,考虑到别的环境下部署要安装Python环境和库,非常麻烦。最后使用PyInstraller打包成exe执行文件,在别的环境也可以直接运行 5. PyInstraller也是踩了很多坑,打包后运行程序报错,提示找不到URL, 查阅资料发现没有把模板和静态资源带上