1 Star 0 Fork 0

Bomy / hxblog

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

hxblog

#对和讯博客的数据分析源码

源码分为两个文件: 1、hxanalyze.py主要是对博客数据进行分析,生成直方图,散点图,词云图 2、hxspider.py主要负责数据的爬取,为了方便,直接使用urllib实现,可直接运行 3、运行完整源码请直接运行根目录的main.py文件,根据提示输入相关设置后会自动爬取数据并运行分析程序 4、根据多次调整,将博客点击量的阈值设为[0,5000],评论数阈值设为[0,400] 5、如果爬取数据效率太慢,可以直接下载我提供的sql文件(链接: https://pan.baidu.com/s/1pLdwqqZ 密码: wx9e),新建名为hexun的数据库(create database hexun;)然后在终端中输入命令:mysqldump -u root -p hexun<hxblog.sql 后回车然后输入密码回车即可,(由于sql文件过大,请不要使用可视化工具导入) 6、运行main.py可以使用命令:python main.py(如果是多个版本的python请使用:python3 main.py)

空文件

简介

对和讯博客的数据分析源码 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/Bomy/hxblog.git
git@gitee.com:Bomy/hxblog.git
Bomy
hxblog
hxblog
master

搜索帮助