当前仓库属于暂停状态,部分功能使用受限,详情请查阅 仓库状态说明
2 Star 0 Fork 0

Tony_幽城 / py-spark-cdh
暂停

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

CDH平台

主要功能

  • 实验机器传感器数据、磨损数据上传hdfs
  • 集群机器将原始数据存入MySQL数据库
  • 界面上传zip,导入数据到MySQL(新增)
  • 提交SQL导出原始数据csv
  • 应用特征提取函数,提取体征
  • 上传处理后特征到hdfs
  • 训练模型的界面
  • 训练模型
  • 预测新数据的界面
  • 预测数据的标签
  • 下载预测结果(含特征和预测的标签)

前置必做

修改hosts文件

同node01/node02/node03,修改hosts文件到C:\Windows\System32\drivers\etc\hosts

linux平台同理

依赖安装

纯python依赖:

pip install -r requirements.txt

有C依赖,mysqlclient。Linux安装mysql/MariaDB的dev和python版本的dev; windows找到对应版本下载 https://www.lfd.uci.edu/~gohlke/pythonlibs/#mysqlclient

pip install xx.whl

目录说明

  • doc: 文档、操作手册
  • mysite: django project,网页界面相关功能
  • feature:特征提取模块
  • fs:操作hdfs的外围模块
  • ml:机器学习pyspark代码
  • model:存储训练好的模型
  • dataset:存储训练集和测试集

使用说明

运行

必须cd到py-spark-cdh\mysite目录下,终端窗口执行./start.sh

网页界面

swagger接口文档: http://node01:8000/cdh/swagger/

功能首页: http://node01:8000/cdh/

新版功能入口(文件检索): http://node01:8000/cdh/ui#/fileSearch

开发笔记

DRF 和 swagger 使用

https://zoejoyuliao.medium.com/%E8%87%AA%E5%AE%9A%E7%BE%A9-drf-yasg-%E7%9A%84-swagger-%E6%96%87%E6%AA%94-%E4%BB%A5-get-post-%E6%AA%94%E6%A1%88%E4%B8%8A%E5%82%B3%E7%82%BA%E4%BE%8B-eeecd922059b

windows安装hadoop

主要参考自己的笔记

次要参考别人的教程

hadoop3.x在hdfs-site.xml中加入:

<property>gv6
  <name>dfs.permissions.enabled</name>
  <value>false</value>
</property>

单机的集群,使用python的hdfs模块upload函数不能 n_threads=-1,因为速度太快,开发用机器会集群异常。可以设为n_threads=2

windows安装spark(一定要spark-3.1.2-bin-hadoop3.2,不要3.2.0版本): https://phoenixnap.com/kb/install-spark-on-windows-10

django migration

python manage.py makemigrations cdh
#python manage.py sqlmigrate cdh 0002
python manage.py migrate

如果没有生成新表:

  1. 删除该app名字下的migrations文件。
  2. 进入数据库,找到django_migrations的表,删除该app名字的所有记录。 delete from django_migrations;
  3. python manage.py migrate cdh

django admin 模块

python manage.py createsuperuser

设计稿

https://3emgk3.axshare.com/#g=1&p=%E6%95%B0%E6%8D%AE%E5%BA%93%E7%95%8C%E9%9D%A2

流程图: https://www.processon.com/diagraming/5eca41171e08530a9b198440

Angular前后端分离部署说明

  1. 将ng build打包后解压到本地某一目录
  2. 修改django settings配置STATICFILES_DIRS
  3. 将ng build生成的html文件放到django的templates目录下
  4. 手动将第10行script的src加上/static/cdh/

info

node01: 202.118.199.11 277439732 Haichao888

node02: 202.118.199.12 703720614 pq211ju1 haichao123.

node03: 202.118.199.13 893058426 070923

内网windows: 846448280 465632

机器规格

node01-03: cpu: 40C mem: 256G hdd: 8T ssd: 512G

node01: NVIDIA GeForce RTX 3080

node02: NVIDIA GeForce RTX 3090 NVIDIA GeForce RTX 3090

node03: NVIDIA GeForce RTX 3080 NVIDIA GeForce RTX 3080

二次安装笔记

数据库版本: 5.5.68-MariaDB 数据库账号密码: root/123 metastore: hive/hive amon: amon/amon scm: scm/scm

数据库账号密码,cdh用 com.cloudera.cmf.db.type=mysql com.cloudera.cmf.db.host=localhost com.cloudera.cmf.db.name=scm com.cloudera.cmf.db.user=scm com.cloudera.cmf.db.setupType=EXTERNAL com.cloudera.cmf.db.password=scm

安装教程参考

https://xiaoma.cool/2021/05/22/%E8%B8%A9%E5%9D%91%E4%B9%8B%E8%B7%AF(%E4%B8%83)_CDH6.3.2%E6%90%AD%E5%BB%BA(%E4%B8%8A)/

CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; GRANT ALL ON scm.* TO 'scm'@'%' IDENTIFIED BY 'scm'; CREATE DATABASE metastore DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; GRANT ALL ON metastore.* TO 'hive'@'%' IDENTIFIED BY 'hive'; CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; GRANT ALL ON amon.* TO 'amon'@'%' IDENTIFIED BY 'amon'; CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; GRANT ALL ON oozie.* TO 'oozie'@'%' IDENTIFIED BY 'oozie'; CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; GRANT ALL ON hue.* TO 'hue'@'%' IDENTIFIED BY 'hue';

sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm scm scm sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql metastore hive hive sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql amon amon amon sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql hue hue hue sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql oozie oozie oozie

server_host: /etc/cloudera-scm-agent/config.ini

解决agent状态不良

rm -f /var/lib/cloudera-scm-agent/cm_guid systemctl restart cloudera-scm-agent

查看日志

tail -f /var/log/cloudera-scm-agent/cloudera-scm-agent.log

tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

rm -rf /data/dfs

需求更新

解析csv,按列头取值,30列内,你们提供列头

空文件

简介

3节点cdh集群,pyspark,web界面 展开 收起
取消

发行版 (4)

全部

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/Tony36051/py-spark-cdh.git
git@gitee.com:Tony36051/py-spark-cdh.git
Tony36051
py-spark-cdh
py-spark-cdh
master

搜索帮助