# Big data technology final project **Repository Path**: jawide/big-data-technology-final-project ## Basic Information - **Project Name**: Big data technology final project - **Description**: 大数据技术期末大作业 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-12-07 - **Last Updated**: 2021-11-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README B18041616张玉广 3.题目:信息爬取**字数统计**及可视化。内容及要求:利用**爬虫**技术爬取**任一门户**网站**新闻栏目一定时间段**内的新闻信息,配置Hadoop平台,编程完成字数统计,利用Echarts或其他可视化平台制作出现频率前10、前20、前50的中文词汇可视化效果网页。项目完成后,根据模板完成项目研制报告,同时提交项目源代码。 > 1. 使用request爬取新浪新闻专栏中的所有文章,并使用BeautifulSoup分析文章的时间,选取特定时间段的文章进行保存-完成 > 2. 下载并测试java的中文分词库 > 3. 将文件存放在hbase中 > 4. 使用javaAPI进行数据读取,字数统计,最后将结果以合适的格式保存到本地文件系统 > 5. 使用Echarts的js版本,从本地读取数据,并展示在浏览器中 说明: 1.三个题目难度依次递增,请大家根据自身情况选择合适题目,鼓励选择第2、3题,会有不同加分。 2.第2、3题需要用到中文分词工具。 3.鼓励采用编程方式完成作业各部分功能,各功能是否采用代码实现是评定成绩得重要指标。 4.三个题目都需要完成大作业报告,均要求按模板正确排版。 ![img](https://mooc1-1.chaoxing.com/js/editor20150812/dialogs/attachment_new/fileTypeImages/icon_default.gif)[大数据技术期末大作业(设计)模板(新).doc](https://mooc1-1.chaoxing.com/ueditorupload/read?objectId=60e35886af46882ce9cf3d6882f50ea8&fileOriName=大数据技术期末大作业(设计)模板(新).doc) 5.项目所有文件存放在以本人学号姓名全拼命名的文件夹下,项目以本人学号姓名全拼命名,主类以本人姓名全拼命名。 6.所有同学的报告均要提交到指定网站进行展示,同学间要相互打分,会进行反抄袭检测,也会邀请其他老师及校外公司专家打分点评,因此要求大家认真对待,切勿抄袭。 7.研制报告以【学号姓名+期末大作业】命名,请提交doc和pdf两个版本,加上项目源代码和其他文档(如程序处理的文档),采用压缩文件打包(【学号姓名+期末大作业】命名)后以附件方式提交。 ![img](https://mooc1-1.chaoxing.com/js/editor20150812/dialogs/attachment_new/fileTypeImages/icon_default.gif)[大数据技术期末大作业(设计)模板(新).doc](https://mooc1-1.chaoxing.com/ueditorupload/read?objectId=60e35886af46882ce9cf3d6882f50ea8&fileOriName=大数据技术期末大作业(设计)模板(新).doc)