1 Star 0 Fork 340

生死悲乐人生无常 / PiFlow

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
PiFlow_V0.7_Componets.md 94.81 KB
一键复制 编辑 原始数据 按行查看 历史
zhuxiaojie 提交于 2020-06-01 10:47 . rename doc file

1. Common

1.11AddUUIDStop

增加UUID列

1.1.1 port

Inport:默认端口

outport:默认端口

1.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
column Column “uuid” 你想要添加的uuid的列名 uuid

1.2 ConvertSchema

更换字段名称

1.2.1 Port

inport:默认端口

outport:默认端口

1.2.2 Properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
schema Schema “” 需要修改的字段名称,多个列名之间用逗号隔开 id->uuid, name-> authorname(箭头之前是旧字段,箭头之后是新字段)

1.3 Distinct

基于指定的列名或所有列名去重

1.3.1 Port

Inport:默认端口

outport:默认端口

1.3.2 Properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columnNames ColumnNames “” 填写要去重的列名,多个列名之间用逗号分隔,否则将删除所有列 id,name

1.4 DropField

删除一列或多列

1.4.1 port

Inport:默认端口

outport:默认端口

1.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columnNames ColumnNames “” 填写要删除的列,多个列名之间用逗号分隔 id,name

1.5 ExecuteSQLStop

创建临时视图表以执行sql

1.5.1 port

Inport:默认端口

outport:默认端口

1.5.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
sql Sql “” 执行的sql语句 Select * from temp
Viewname ViewName “temp” 临时视图表的名称 temp

1.7 Filter

通过条件过滤

1.7.1 port

Inport:默认端口

outport:默认端口

1.7.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
condition Condition “” 想要过滤的条件 name==’zhangsan’ (name是过滤的条件字段,zhangsan是过滤的条件)

1.8 Fork

将数据分流给不同的stop

1.8.1 port

Inport:默认端口

outport:任意端口

1.8.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
outports OutPorts “” 输出端口,多端口用逗号分隔 out1,out2,...

1.9 Join

表连接包括完全连接、左连接、右连接和内部连接

1.9.1 port

Inport:左端口,右端口

DefaultPort:默认端口

1.9.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
joinMode JoinMode “” 对于表关联,可以选择inner,left,right,full left
correlationField CorrelationField “” 与表关联的列(如果多个列用逗号分隔) id,name(表之间相关联的列的名称)

1.10 Merge

将数据合并到一个stop

1.10.1 port

Inport:任何端口

DefaultPort:默认端口

1.10.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
inports Inports “” 输入端口,多端口用逗号分隔 in1,in2,...

1.11 MockData

模拟测试数据

1.11.1 Port

Inport:默认端口

outport:默认端口

1.11.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
schema Schema “” 模拟数据的schema,schema的格式为column:columnType:isNullable。columnType可以是String/Int/Long/Float/Double/Boolean。isNullable可以为空,默认值为false name:String,age:Int,isStudent:Boolean
count Count “” 测试数据的数量 10

1.12 Route

按自定义属性路由数据,键是端口,值是筛选器

1.12.1 port

Inport:默认端口

RoutePort:路由端口

1.12.2 properties

名称 展示名称 默认值 允许值 是否必填 描述

1.13 SelectField

选择需要的数据列

1.13.1 port

Inport:默认端口

outport:默认端口

1.13.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columnNames ColumnNames “” 选择所需的列,多个列用逗号分隔 id,name

1.14 Subtract

去除两表重复项

1.14.1 port

Inport:左端口,右端口

outport:默认端口

 

1.14.2 properties

名称 展示名称 默认值 允许值 是否必填 描述

2. Data Clean

2.1 EmailClean

邮箱号清洗

2.1.1 port

Inport:默认端口

outport:默认端口

2.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columName Column Name “” 需要清洗的字段名,多列以逗号分隔 email

2.2 IdentityNumberClean

身份证号清洗

2.2.1 port

Inport:默认端口

outport:默认端口

2.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columName Column Name “” 需要清洗的字段名,多列以逗号分隔 IdCard

2.3 PhoneNumberClean

手机号清洗

2.3.1 port

Inport:默认端口

outport:默认端口

2.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columName COLUM_NAME “” 需要清洗的字段名 phoneNumber

2.4 TitleClean

标题清洗

2.4.1 port

Inport:默认端口

outport:默认端口

2.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columName Column Name “” 需要清洗的字段名,多列以逗号分隔 Title

2.4 ProvinceClean

省份清洗

2.4.1 port

Inport:默认端口

outport:默认端口

2.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
columName Column Name “” 需要清洗的字段名,多列以逗号分隔 province

3. CSV

3.1 CsvParser

解析csv文件或文件夹

3.1.1port

inport:默认端口

outport:默认端口

3.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
csvPath CsvPath “” 文件地址 hdfs://master:9000/test/
header Header “” 是否包含文件头信息 true(表示有头信息,false表示没有头信息)
delimiter Delimiter “” 文件分割符号 “,”
schame Schame “” 字段描述信息 Id,name,...

3.2 CsvSave

保存到csv文件

3.2.1port

inport:默认端口

outport:默认端口

3.2.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
csvSavePath CsvSavePath “” 文件保存路径 hdfs://master:9000/test/
header Header “” 是否包含文件头信息 true(表示有头信息,false表示没有头信息)
delimiter Delimiter “” 文件分割符号 “,”
saveMode saveMode “append” 保存csv文件的模式 append:追加 overwrite:覆盖 Ignore:如果存在则忽略 ErrorIfExists:如果已经存在数据,则将引发异常。

3.3 CsvStringParser

解析csv字符串

3.3.1port

inport:默认端口

outport:默认端口

3.3.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
str String “” Csv字符串 1,zs 2,ls ...
schema Schema “” 字段描述信息 Id,name
delimiter Delimiter “” 文件分割符号 “,”

4.ElasticSearch

4.1 PutElasticSearch

写入 ElasticSearch

4.1.1 Port

inport:默认端口

outport:默认端口

4.1.2 properties

4.2 QueryElasticSearch

从ElasticSearch 查询数据

4.2.1 Port

inport:默认端口

outport:默认端口

4.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
es_nodes Es_Nodes “” Es的ip,多个用逗号分隔 127.0.0.1
es_port Es_Port 9200 端口号 9200
es_index Es_Index “” 索引 testdb(类比关系型数据库里的DB)
es_type Es_Type “” 类型 user(类比关系数据库里的Table)
jsonDSL JsonDSL “” 查询语句 {"query":{"match_all":{}}}

5.File

5.1 GetFile

从hdfs获取文件到本地

5.1.1 port

Inport:默认端口

outport:默认端口

5.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
ip IP “” 本地文件所在的服务器IP master
user User 本地文件所在的服务器用户 root
passWord PassWord 本地文件所在服务器的密码 123456
hdfsFile HdfsFile hdfs上的文件路径 /work/test.csv
localPath LocalPath 本地路径 /opt/

5.2 PutFile

上传本地文件到hdfs

5.2.1 port

Inport:默认端口

outport:默认端口

5.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
ip IP “” 本地文件所在的服务器IP master
user User 本地文件所在的服务器用户 root
PassWord PassWord 本地文件所在服务器的密码 123456
hdfsFile HdfsFile hdfs上的文件路径 /work/test.csv
localPath LocalPath 本地路径 /opt/

5.3 RegexTextProcess

用正则表达式替换或者过滤指定列的每一个值

5.3.1 port

Inport:默认端口

outport:默认端口

5.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
regex Regex “” 正则表达式 0001
columnName Column_Name 需要处理的字段名 id
replaceStr Replace_Str 替换字符串 1111

6. ftp

6.1 loadFromFtpUrl

下载ftp服务器文件保存到 hdfs 上

6.1.1 Port

inport:默认端口

outport:默认端口

6.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
ftp_url Ftp_Url ftp的IP地址 128.136.0.1
port Port ftp的端口
username UserName 用户名
password Password 密码
ftpFile FtpFile ftp文件路径
HDFSUrl HDFSUrl Hdfs的url地址
HDFSPath HDFSPath / 文件保存路径
isFile IsFile 是否是单个文件,如果为true,则仅下载由路径指定的单个文件。如果为false,则递归下载文件夹中的所有文件
filterByName FilterByName 如果选择下载整个目录,则可以使用此参数筛选需要下载的文件。 这里需要填写一个标准的Java正则表达式。例如,您需要下载以/A/目录结尾的所有文件,您可以在这里填写.*.gz。如果有多个过滤器,它们需要用逗号分隔

6.2 UpLoadToFtp

向ftp服务器上上传文件

6.2.1 Port

inport:默认端口

outport:默认端口

6.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
url_str Url_Str ftp的ip地址
port Port ftp的端口
username UserName 用户名
password Password 密码
ftpFile FtpFile ftp文件路径
localPath LocalPath / 本地文件路径

7. HBase

7.1 GetHbase

从Hbase读取数据

7.2 PutHbase

将数据写入 hbase

8. Hdfs

8.1 PutHdfs

将dataFrame的数据写入 hdfs

8.1.1 Port

inport:默认端口

outport:默认端口

8.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl Hdfs的Url地址 hdfs://master:8020
hdfsPath HdfsPath / Hdfs的路径 /work/test/
partition Partition 3 分区,写成几个文件 2
types Types csv json,scv,parquet 保存文件类型:Json,csv,parquet csv

8.2 GetHdfs

获取hdfs的数据

8.2.1 Port

inport:默认端口

outport:默认端口

8.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl Hdfs的Url地址 hdfs://master:8020
hdfsPath HdfsPath Hdfs的路径 /work/test/
types Types csv json,scv,parquet,txt 下载的文件类型 csv

8.3 ListHdfs

从hdfs检索文件列表

8.3.1 Port

inport:默认端口

outport:默认端口

8.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl Hdfs的Url地址 hdfs://master:8020
hdfsPath HdfsPath Hdfs的路径 /work/

8.4 DeleteHdfs

删除hdfs指定文件或者文件夹

8.4.1 Port

inport:默认端口

outport:默认端口

8.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl Hdfs的Url地址 hdfs://master:8020
hdfsPath hdfsPath Hdfs的路径 /work/test/
isCustomize IsCustomize true 是否自定义压缩文件路径,如果为true,则必须指定压缩文件所在的路径。如果为false,则从上游端口自动查找文件路径数据 true

8.5 SelectFileByName

根据名字选择文件

8.5.1 Port

inport:默认端口

outport:默认端口

8.5.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl Hdfs的Url地址 hdfs://master:8020
Hdfspath Hdfspath Hdfs的路径 /work/
SelectionConditions SelectionConditions 要选择条件,需要用java填充正则表达式 .*.csv

8.6 UnzipFilesOnHDFS

解压文件

8.6.1 Port

inport:默认端口

outport:默认端口

7.6.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl “” Hdfs的Url地址 hdfs://master:8020
savePath SavePath “” 此参数可以指定解压文件的位置,可以选择不填写,程序默认将解压文件保存在源文件所在的文件夹中。如果填写,可以指定文件夹 /work/test/
isCustomize IsCustomize 是否自定义压缩文件路径,如果为true,则必须指定压缩文件所在的路径。如果为false,它将自动从上游端口找到文件路径数据 true
filePath FilePath Hdfs的文件路径 /work/test/test.tar.gz

8.7FileDownHdfs

将数据从url下载到HDFS

8.6.1 Port

inport:默认端口

outport:默认端口

8.6.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl “” Hdfs的Url地址 hdfs://master:8020
hdfsPath HdfsPath “” hdfs路径 /work/dblp/dblp.xml.gz
url_str Url_Str “” 文件的网络地址 https://dblp.dagstuhl.de/xml/dblp.xml.gz

8.8 SaveToHdfs

将数据放到HDFS

8.8.1 Port

inport:默认端口

outport:默认端口

8.8.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hdfsUrl HdfsUrl “” Hdfs的Url地址 hdfs://master:8020
hdfsDirPath HdfsDirPath “” hdfs路径 /work/test/
fileName FileName “” 文件的网络地址 test.csv
types Types csv 想要写入的格式有json,csv,parquet csv
delimiter Delimiter “,” 设置csv文件类型的分隔符 “,”
header Header true Csv文件是否带表头 true

9. Hive

9.1 PutHiveQL

执行hiveQL文件

9.1.1port

inport:默认端口

outport: 默认端口

9.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
HiveQL_Path HiveQL_Path “” Hiveql文件路径 hdfs://master:8020/test/Puthive.hql
Database Database ““ hiveQL将在其上执行的数据库名称 test

9.2 PutHiveStreaming

写数据到Hive表

9.2.1 port

inport:默认端口

outport:默认端口

9.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
Database Database ““ 数据库名称 test
Table Table ““ 数据库表名 user

9.3 PutHiveMode

保存数据到hive的模式

9.3.1 port

inport: 默认端口

outport: 默认端口

9.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
Database Database ““ 数据库名称 test
Table Table ““ 数据库表名 user
saveMode SaveMode “append” 保存数据的模式 append:追加 overwrite:覆盖 Ignore:如果存在则忽略 ErrorIfExists:如果已经存在数据,则将引发异常。

9.4 SelectHiveQL

执行Hive的select语句

9.4.1 port

inport: 默认端口

outport: 默认端口

9.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
HiveQL HiveQL ““ Hive语句 Select * from test.user

9.5 SelectHiveQLByJDBC

某些hive只能通过jdbc实现,此stop是为此而设计的

9.5.1 port

inport: 默认端口

outport: 默认端口

9.5.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hiveUser HiveUser ““ 连接Hive的用户 root
hivePassword HivePassword “” 连接Hive的用户密码 123456
jdbcUrl JdbcUrl “” 通过JDBC连接hive的Url jdbc:hive2://master:10000
sql Sql “” Sql查询语句 Select * from test.user

10. Http

10.3 GetUrl

Get请求方式获取url的数据,写入dataframe

10.3.1 Port

inport:默认端口

outport:默认端口

10.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” HTTP请求的url 地址 https://api.elsevier.com/content/search/scopus?query=TITLE('title')&apiKey=555637gxd
httpAcceptTypes HttpAcceptTypes “json” Json,xml 接收的url 数据类型 json
label label “” Xml 必填 要解析的xml标签 id,name
schema Schema “” Xml 必填 保存的schema类型 pid,authorname

10.4 PostUrl

Post请求方式发送数据到 url

10.4.1 Port

inport:默认端口

outport:默认端口

10.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” HTTP请求的url 地址 http://10.0.86.98:8002/flow/start
jsonPath JsonPath 发送的json数据hdfs路径 hdfs://master:9000/yg/flow.json

11.Neo4J

11.1 HiveToNeo4

写入数据到neo4j

11.1.1 port

Inport:默认端口

outport:默认端口

11.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
hiveQL HiveQL “” Hive保存到neo4j的sql语句 Select * from test.user
hdfsDirPath HdfsDirPath “” 保存到hdfs 的路径 /test/
hdfsUrl HdfsUrl “” Hdfs的url hdfs://master:8020
fileName FileName “” 保存到hdfs的文件名 user.csv
delimiter Delimiter “” Csv文件的分隔符 “,”
header Header “true” Csv文件的表头 true
neo4j_Url Neo4j_Url “” Neo4J的url地址 bolt://192.168.3.141:7687
userName UserName “” Neo4j的用户名 Neo4j
password Password “” Neo4j的密码 123456
cypher Cypher “” “” 导入csv文件的cypher语句 LOAD CSV WITH HEADERS FROM 'http://master:50070//test/user.csv?op=OPEN' AS line FIELDTERMINATOR ',' CREATE (n:user{userid:line.id,username:line.name,userscore:line.score,userschool:line.school,userclass:line.class})

11.2 PutNeo4

写入数据到neo4j

11.2.1 port

Inport:默认端口

outport:无

11.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
Url Url “” Neo4j地址
userName userName “” 用户名
password password “” 密码
labelName labelName “” 表名

11.3 RunCypher

执行Cypher语句

11.3.1 port

Inport:默认端口

outport:无

11.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
Url Url “” Neo4j的url地址 bolt://192.168.3.141:7687
userName UserName “” 用户名 Neo4j
password Password “” 密码 123456
cql Cql “” Cql语句 match(n:user) where n.userid ='11' set n.userclass =null

12.InternetWorm

12.1 Spider

爬取网络数据

12.1.1port

inport:

outport:默认端口

12.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述
rootUrl rootUrl “” 网站域名地址
fistUrl fistUrl “” 爬取开始的页面
makeupField makeupField “” 数据标记字段名称(key)
jumpDependence jumpDependence “” 页面跳转的依赖标签
fileMap fileMap “” 字段名称,及对应的标签路径
downPath downPath “” 文件下载路径

13.JDBC

13.1 MysqlRead

Jdbc读取mysql数据

13.1.1port

inport:默认端口

outport:默认端口

13.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” 连接mysql的Url地址 jdbc:mysql://192.168.3.141:3306/test_db
user User “” 连接mysql的用户 root
password Password “” 连接mysql的用户密码 123456
sql Sql “” 查询的sql语句 Select * from user

13.2 MysqlReadIncremental

Jdbc读取mysql数据

13.2.1port

inport:默认端口

outport:默认端口

13.2.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” 连接mysql的Url地址 jdbc:mysql://192.168.3.141:3306/test_db
user User “” 连接mysql的用户 root
password Password “” 连接mysql的用户密码 123456
sql Sql “” 查询的sql语句 Select * from user
incrementalField IncrementalField “” 增加的列的名字 update_date
incrementalStart IncrementalStart “” 增加的列起始值 2020-04-08

13.3 jdbcReadFromOracle

读取oracle数据

13.3.1port

inport:

outport:默认端口

13.3.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url url “” 连接地址
user user “” 用户
password password “” 密码
sql sql “” 查询的sql语句
schame schame “” 查询结果的字段描述信息

13.4 MysqlWrite

Jdbc写入mysql数据库

13.4.1 port

inport:默认端口

outport:默认端口

13.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” 连接mysql的Url地址 jdbc:mysql://192.168.3.141:3306/test_db
user User “” 连接mysql的用户 root
password Password “” 连接mysql的用户密码 123456
table Table “” 表名 test

13.5 OracleRead

从oracle中读取数据

13.5.1port

inport:默认端口

outport:默认端口

13.5.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” 连接oracle的Url地址 jdbc:oracle:thin:@(DESCRIPTION =(ADDRESS_LIST =(ADDRESS=(PROTOCOL=TCP)(HOST=192.168.2.237)(PORT=1521)))(CONNECT_DATA=(SERVICE_NAME=RACDB_STANDBY)))
user User “” 连接oracle的用户 oracle
password Password “” 连接oracle的用户密码 123456
sql Sql “” sql查询语句 Select * from test

13.6 OracleReadByPartition

从oracle中分区读取数据

13.6.1port

inport:默认端口

outport:默认端口

13.6.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” 连接oracle的Url地址 jdbc:oracle:thin:@(DESCRIPTION =(ADDRESS_LIST =(ADDRESS=(PROTOCOL=TCP)(HOST=192.168.2.237)(PORT=1521)))(CONNECT_DATA=(SERVICE_NAME=RACDB_STANDBY)))
user User “” 连接oracle的用户 oracle
password Password “” 连接oracle的用户密码 123456
sql Sql “” Sql查询语句 Select * from test
partitionColumn PartitionColumn “” 分区的列 id
lowerBound LowerBound “” 分区列的下限 1
upperBound UpperBound “” 分区列的上限 100
numPartitions NumPartitions “” 分区的数量 20

13.7 OracleWrite

写入数据到oracle数据库

13.7.1port

inport:默认端口

outport:默认端口

13.7.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” 连接oracle的Url地址 jdbc:oracle:thin:@(DESCRIPTION =(ADDRESS_LIST =(ADDRESS=(PROTOCOL=TCP)(HOST=192.168.2.237)(PORT=1521)))(CONNECT_DATA=(SERVICE_NAME=RACDB_STANDBY)))
user User “” 连接oracle的用户 oracle
password Password “” 连接oracle的用户密码 123456
table Table “” 表名 test

13.8 SelectImpala

查询impala数据

13.8.1port

inport:

outport:默认端口

13.8.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
url Url “” Impala连接路径
user User “” Impala用户
password Password “” 用户密码
sql Sql “” 查询的sql语句
schameString SchameString “” 查询结果的字段描述信息

14.Json

14.1 jsonParser

Json文件解析

14.1.1 port

inport:默认端口

outport:默认端口

14.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
jsonPath JsonPath “” Json文件地址 hdfs://master:8020/work/json/test/example.json
tag Tag “” 需要解析的标签,多个以逗号分隔 name,province_name

14.3 FolderJsonPath

Json文件夹解析

14.3.1 port

inport:默认端口

outport:默认端口

14.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
folderPath FolderPath “” 文件夹地址 hdfs://master:8020/work/json/test/
tag Tag “” 需要解析的标签 name,province_name,如果要打开数组字段,必须这样写:links_name(MasterField_ChildField)

14.4 JsonStringParser

Json字符串解析

14.4.1 port

inport:默认端口

outport:默认端口

14.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
jsonString JsonString “” Json字符串 {\"id\":\"13\",\"name\":\"13\",\"score\":\"13\",\"school\":\"13\",\"class\":\"13\"}

14.5 JsonSave

保存为Json文件

14.5.1 port

inport:默认端口

outport:默认端口

14.5.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
jsonSavePath JsonSavePath “” Json文件保存地址 hdfs://master:8020/work/testJson/test/

15.Message Queue

15.1 ReadFromKafka

从kafka读数据

15.1.1 port

Inport:NonePort

outport:默认端口

15.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
kafka_host KAFKA_STR “” Kafka地址
topic TOPIC 读取主题
schema SCHEMA 生成DataFrame的schema

15.2 WriteToKafka

向kafka写数据

15.2.1 port

Inport:默认端口

outport:NonePort

15.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
kafka_host KAFKA_STR “” Kafka地址
topic TOPIC 写入主题

16.Memcache

16.1 PutMemcache

写入memcache

16.1.1port

inport:默认端口

outport:

16.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述
servers servers “” Memcache的服务地址
keyFile keyFile “” 作为key字段的名称
weights weights “”
maxIdle maxIdle “” 最大处理时间
maintSleep maintSleep “” 主线程睡眠时间
nagle nagle “” TCP参数
socketTO socketTO “” 连接超时时间
socketConnectTO socketConnectTO “” 连接次数

16.2 GetMemcache

读取memcache

16.2.1port

inport:默认端口

outport:默认端口

16.2.2properties

名称 展示名称 默认值 允许值 是否必填 描述
servers servers “” Memcache的服务地址
keyFile keyFile “” 作为key字段的名称
weights weights “”
maxIdle maxIdle “” 最大处理时间
maintSleep maintSleep “” 主线程睡眠时间
nagle nagle “” TCP参数
socketTO socketTO “” 连接超时时间
socketConnectTO socketConnectTO “” 连接次数
schame schame “” 字段描述细信息

16.3 ComplementByMemcache

读取memcache,补充原表

16.3.1port

inport:默认端口

outport:默认端口

16.3.2properties

名称 展示名称 默认值 允许值 是否必填 描述
servers servers “” Memcache的服务地址
keyFile keyFile “” 作为key字段的名称
weights weights “”
maxIdle maxIdle “” 最大处理时间
maintSleep maintSleep “” 主线程睡眠时间
nagle nagle “” TCP参数
socketTO socketTO “” 连接超时时间
socketConnectTO socketConnectTO “” 连接次数
replaceField replaceField “” 你希望补充的字段

17.Microorganism

17.1 BioprojectData

解析Bioproject数据

17.1.1 Port

inport:默认端口

outport:默认端口

17.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.2 BioSample

解析biosample数据

17.2.1 Port

inport:默认端口

outport:默认端口

17.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.3 EmblData

解析embl数据

17.3.1 Port

inport:默认端口

outport:默认端口

17.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.4 Ensembl

解析Ensembl_gff3数据

17.4.1 Port

inport:默认端口

outport:默认端口

17.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.5 GenbankData

解析genbank数据

17.5.1 Port

inport:默认端口

outport:默认端口

17.5.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.6 Gene

解析gene数据

17.6.1 Port

inport:默认端口

outport:默认端口

17.6.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.7 GoData

解析go数据

17.7.1 Port

inport:默认端口

outport:默认端口

17.7.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.8 GoldData

解析golddata数据

17.8.1 Port

inport:默认端口

outport:默认端口

17.8.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.9 InterproData

解析interpro数据

17.9.1 Port

inport:默认端口

outport:默认端口

17.9.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.10. MicrobeGEnomeData

解析 MicrobeGEnome数据

17.10.1 Port

inport:默认端口

outport:默认端口

17.10.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.11 PDBData

解析 pdb数据

17.11.1 Port

inport:默认端口

outport:默认端口

17.11.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.12 PfamData

解析 pfam数据

17.12.1 Port

inport:默认端口

outport:默认端口

17.12.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.13 RefseqData

解析 refSeq数据

17.13.1 Port

inport:默认端口

outport:默认端口

17.13.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.14 SwissprotData

解析 swiss数据

17.14.1 Port

inport:默认端口

outport:默认端口

17.14.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.15 TaxonomyData

解析 TaxonomyParse数据

17.15.1 Port

inport:默认端口

outport:默认端口

17.15.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.16 Pathway

解析 KeggPathwayParse数据

17.16.1 Port

inport:默认端口

outport:默认端口

17.16.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

17.17 MedlineData

解析 TaxonomyParse数据

17.17.1 Port

inport:默认端口

outport:默认端口

17.17.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
cachePath cachePath “” 缓存路径

10.MechineLearning Classification

18.1DecisionTreeTraining

决策树分类模型训练

18.1.1 port

Inport:NonePort

outport:默认端口

18.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxBins MAX_BINS 连续属性分裂最大数目
maxDepth MAX_DEPTH 树的最大深度
minInfoGain MIN_INFO_GAIN 能作为分裂属性的最小信息增益
minInstancePerNode MIN_INSTANCE_PER_NODE 每个节点的最小节点数目
impurity IMPURITY 分裂准则,如信息增益或者基尼系数

18.2 DecisionTreePrediction

决策树分类预测

18.2.1 port

Inport:默认端口

outport:NonePort

18.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

18.3 GBTTraining

GBT模型训练

18.3.1 port

Inport:NonePort

outport:默认端口

18.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxBins MAX_BINS 连续属性分裂最大数目
maxDepth MAX_DEPTH 树的最大深度
minInfoGain MIN_INFO_GAIN 能作为分裂属性的最小信息增益
minInstancePerNode MIN_INSTANCE_PER_NODE 每个节点的最小节点数目
impurity IMPURITY 分裂准则,如信息增益或者基尼系数
subSamplingRate SUB_SAMPLING_RATE 每棵子树的数据采样率
lossType LOSS_TYPE 损失函数
stepSize STEP_SIZE 步长(学习率)

18.4 GBTPrediction

GBT预测

18.4.1 port

Inport:默认端口

outport:NonePort

18.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

18.5LogisticRegressionTraining

LogisticRegression模型训练

18.5.1 port

Inport:NonePort

outport:默认端口

18.5.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxIter MAX_ITER 最大迭代次数
minTol MIN_TOL 迭代收敛容差
regParam REG_PARAM 正则化
elasticNetParam ELASTIC_NET_PARAM
threshold THRESHOLD 分类
family FAMILY

18.6 LogisticRegressionPrediction

LogisticRegression分类预测

18.6.1 port

Inport:默认端口

outport:NonePort

18.6.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

18.7MultilayerPerceptronTraining

多层神经网络模型训练

18.7.1 port

Inport:NonePort

outport:默认端口

18.7.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxIter MAX_ITER 最大迭代次数
minTol MIN_TOL 迭代收敛容差
layers LAYERS 输出层和输入层层数
threshold THRESHOLD 分类概率数组
stepSize STEP_SIZE 步长(学习率)

18.8 MultilayerPerceptronPrediction

多层神经网络分类预测

18.8.1 port

Inport:默认端口

outport:NonePort

18.8.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

18.9NavieBayesTraining

朴素贝叶斯模型训练

18.9.1 port

Inport:NonePort

outport:默认端口

18.9.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
smooth_value SMOOTH_VALUE 平滑因子

18.10 NavieBayesPrediction

决策树分类预测

18.10.1 port

Inport:默认端口

outport:NonePort

18.10.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

18.11RandomForestTraining

随机森林分类模型训练

18.11.1 port

Inport:NonePort

outport:默认端口

18.11.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxBins MAX_BINS 连续属性分裂最大数目
maxDepth MAX_DEPTH 树的最大深度
minInfoGain MIN_INFO_GAIN 能作为分裂属性的最小信息增益
minInstancePerNode MIN_INSTANCE_PER_NODE 每个节点的最小节点数目
impurity IMPURITY 分裂准则,如信息增益或者基尼系数
subSamplingRate SUB_SAMPLING_RATE 每棵子树的数据采样率
featureSubsetStrategy FEATURE_SUBSET_STRATEGY 属性选择策略
numTrees NUM_TREES 训练子树数目

18.12 RandomForestPrediction

随机森林分类预测

18.12.1 port

Inport:默认端口

outport:NonePort

18.12.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

11.MechineLearning Clustering

19.1BisetingKmeansTraining

BisetingKmeans模型训练

19.1.1 port

Inport:NonePort

outport:默认端口

19.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxIters MAX_ITERS 最大迭代次数
k K 聚类簇数目

19.2 BisetingKmeansPrediction

BisetingKmeans预测

19.2.1 port

Inport:默认端口

outport:NonePort

19.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

19.3GaussianMixtureTraining

混合高斯模型训练

19.3.1 port

Inport:NonePort

outport:默认端口

19.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxIters MAX_ITERS 最大迭代次数
k K 聚类簇数目
tol TOL 迭代收敛误差

19.4 GaussianMixturePrediction

混合高斯预测

19.4.1 port

Inport:默认端口

outport:NonePort

19.4.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

19.5KmeansTraining

Kmeans模型训练

19.5.1 port

Inport:NonePort

outport:默认端口

19.5.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxIters MAX_ITERS 最大迭代次数
k K 聚类簇数目
minTol MIN_TOL 迭代收敛误差

19.6 KmeansPrediction

Kmeans聚类预测

19.6.1 port

Inport:默认端口

outport:NonePort

19.6.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

19.7LDATraining

LDA主题模型训练

19.7.1 port

Inport:NonePort

outport:默认端口

19.7.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
training_data_path TRAINING_DATA_PATH “” 训练数据路径
model_save_path MODEL_SAVE_PATH 模型保存路径
maxIters MAX_ITERS 最大迭代次数
k K 聚类簇数目
docConcertration DOC_CONCERTRATION
topiccConcertration TOPIC_CCONCERTRATION
checkpointInterval CHECKPOINT_INTERVAL
optimizer OPTIMIZER

19.8 LDAPrediction

LDA聚类预测

19.8.1 port

Inport:默认端口

outport:NonePort

19.8.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
test_data_path TEST_DATA_PATH “” 测试数据路径
model_path MODEL_PATH 模型加载路径

12.MechineLearning Feature

20.1 WordToVec

WordToVec文本向量生成

20.1.1 port

Inport:默认

outport:默认端口

20.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
colName COL_NAME “” 要处理的字段名
outputCol OUTPUT_COL 输出DataFrame文本向量字段名
maxIter MAX_ITER 最大迭代次数
maxSentenceLength MAX_SENTENCE_LENGTH 单个句子的最大长度
minCount MIN_COUNT 最小词频
numPartitions NUM_PARTITIONS
stepSize STEP_SIZE 步长(学习率)
vectorSize VECTOR_SIZE 文本向量纬度数目

13.MongoDB

21.1 GetMomgo

读取mongo

21.1.1port

inport:

outport:默认端口

21.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述
addresses addresses “” Mongo地址
credentials credentials “” 连接池信息
dataBase dataBase “” 数据库
collection collection “” 表名
sql sql “” 查询的sql语句

21.2 PutMomgo

写入mongo

21.2.1port

inport:默认端口

outport:

21.2.2properties

名称 展示名称 默认值 允许值 是否必填 描述
addresses addresses “” Mongo地址
credentials credentials “” 连接池信息
dataBase dataBase “” 数据库
collection collection “” 表名

14.RDF

22.1 RDF2DF

将数据分流

22.1.1 port

inport:默认端口

outport:任意端口

22.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
fileName file name default File containing all arguments, used as an alternative to supplying all arguments on the command line directly.Each argument can be on a separate line or multiple arguments per line separated by space.Arguments containing spaces needs to be quoted.Supplying other arguments in addition to this file argument is not supported.
storeDir store directory /data/neo4j-db/database/graph.db Database directory to import into. Must not contain existing database.

22.2 CsvToNeo4J

this stop use linux shell & neo4j-import command to lead CSV file data create/into a database**. T**he neo4j version is 3.0+"

22.2.1 port

inport:无端口

outport:无端口

22.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
filePath inputHDFSFilePath “” The path of the input rdf file
filePath isFromFront FALSE true,false identify the file path source(should have same schema)
propertyRegex property regex <(?http:\/\/[^>]+\/)(?[^\/][-A-Za-z0-9.#$%^&*!@~]+)> <(?http:\\/\\/[^>]+\\/)(?[^\\/][-A-Za-z0-9.#$%^&*!@~]+)> "(?.+)" \. define the propertyRegex to parse the n3 file's property line "this regex string should be fully named and regula "you need to SPECIFIC five value's name "1.prefix 2.id 3.pprefix 4.name 5.value" +
relationshipRegex relationship regex <(?http:\/\/[^>]+\/)(?[^\/][-A-Za-z0-9.#$%^&*!@~]+)> <(?http:\\/\\/[^>]+\\/)(?[^\\/][-A-Za-z0-9.#$%^&!@~]+)(?<!#type)> <(?http:\/\/[^>]+\/)(?[^\/][-A-Za-z0-9._#$%^&!@~]+)> \\. "the form should be like this : "(?...?... ?...? ?... "check the default value carefully to knowledge the right structure
entityRegex entity regex (<(?http:\\/\\/[^>]+\\/)(?[^\\/][-A-Za-z0-9.#$%^&*!@~]+)> <(?:http:\/\/[^>]+\/)(?:[^\/][-A-Za-z0-9.#$%^&!@~]+)(?:#type)> <(?http:\\/\\/[^>]+\\/)(?[^\\/][-A-Za-z0-9._#$%^&!@~]+)> \. "the form should be like this : "(?...?... ?...? ?...? "check the default value carefully to knowledge the right structure
relationshipSchema relationship's schema ENTITY_ID:START_ID,role,ENTITY_ID:END_ID,RELATION_TYPE:TYPE "the form should be like this : "(?...?... ... ?...? "check the default value carefully to knowledge the right structure
entityIdName entity's id ENTITY_ID:ID define the id of entity, as a user, "you should ponder the style like 'id' + :I "make sure your schema looks like the default value
entityLabelName entity's label ENTITY_TYPE:LABEL define the label of entity, as a user, "you should ponder the style like 'label' + :LABE "make sure your schema looks like the default value

15.Redis

23.1 ReadFromRedis

从Redis读数据

23.1.1 port

Inport:默认端口

outport:默认端口

23.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
redis_host Redis_Host “” Redis地址 master
Port Port 连接redis的端口号 7000
password Password 连接redis的密码 123456
schema Schema 要基于key从redis获取的字段 age
Column_name Column_Name 此列是从redis获取数据的key id

23.2 WriteToRedis

向redis写数据

23.2.1 port

Inport:默认端口

outport:默认端口

23.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
redis_host Redis_Host “” Redis地址 master
port Port 连接reids的端口号 7000
password Password Redis的密码 123456
Column_Name Column_Name Schema中用作key的字段,必须唯一 id

16.Script

24.1 ExecutorShell

执行shell脚本

24.1.1port

inport: 默认端口

outport:默认端口

24.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
IP IP “” 本地文件所在的服务器IP 127.0.0.1
User User “” 本地文件所在的服务器用户 root
PassWord PassWord “” 本地文件所在的服务器密码 123456
shellString ShellString “” Shell脚本,多个脚本以###分隔 mkdir /work/###cp /opt/1.29.3.tar.gz /work/

24.2 DataFrameRowParser

根据schema构造DataFrame

24.1.1port

inport: 默认端口

outport:默认端口

24.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述
Schema Schema “” 数据的结构
Separator Separator “” Schema的分隔符

17.Solr

25.1 GetSolr

读取solr数据

25.1.1 port

inport:默认端口

outport:默认端口

25.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
solrURL solrURL “” solr地址 http://mastet:8886/solr
SolrCollection SolrCollection “” Collection名称 test
q Q “” 查询字符串 :
start Qtart “” 结果返回的开始位置 1
rows Rows “” 返回的结果数 10
sortBy SortBy “” 排序的字段 id
DescentOrAscend DescentOrAscend “” 升序或降序 Ascend(升序) Descend(降序)
fl FL “” 指定返回字段 id,name
fq FQ “” 过滤条件 id:[1 To 40]
df DF “” 默认查询字段 name
indent Indent “” 是否缩进 true|on(此方式默认数据格式化,不填则显示数据在一行)

25.2 PutSolr

写入Solr

25.2.1 port

inport:默认端口

outport:默认端口

25.2.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
solrURL SolrURL “” solr地址 http://mastet:8886/solr
SolrCollection SolrCollection “” Collection名称 test

18.XML

26.1 XmlParser

解析xml文件

26.1.1 port

inport:默认端口

outport:默认端口

26.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
xmlpath Xmlpath “” Xml文件路径 hdfs://master:8020/work/test/xml.xml
rowTag RowTag “” 解析的xml文件标签 name

26.2 XmlParserColumns

解析上游数据中列中的xml数据,写入DateFrame

26.2.1port

inport:默认端口

outport:默认端口

26.2.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
xmlColumns XmlColumns “” 解析包含xml的列 test_xml

26.3 XmlParserFolder

解析xml文件夹

26.3.1 port

inport:默认端口

outport:默认端口

26.3.2 properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
xmlpath Xmlpath “” Xml文件夹路径 hdfs://master:8020/work/test/xml/
rowTag RowTag “” 解析xml文件的标签 id,name

26.4 XmlStringParser

解析xml字符串

26.4.1port

inport:默认端口

outport:默认端口

26.4.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
xmlString XmlString “” Xml字符串 <sites>\n <site>\n <name>菜鸟教程</name>\n <url>www.runoob.com</url>\n </site>\n <site>\n <name>Google</name>\n <url>www.google.com</url>\n </site>\n <site>\n <name>淘宝</name>\n <url>www.taobao.com</url>\n </site>\n</sites>
label Label “” 标签路径 sites,site
schema Schema “” 解析的标签名 name,url

26.5 XmlSave

保存xml文件

26.5.1port

inport:默认端口

outport:默认端口

26.5.2properties

名称 展示名称 默认值 允许值 是否必填 描述 例子
xmlSavePath XmlSavePath “” Xml文件保存路径 hdfs://master:8020/work/test/test.xm

19.Streaming

28.1 FlumeStream

获取flume的实时流数据

28.1.1port

inport:

outport:默认端口

28.1.2properties

名称 展示名称 默认值 允许值 是否必填 描述
hostname hostname “” Avro 主机host名
Port Port “” Avro主机端口
batchDuration batchDuration “” 获取数据的时间间隔

28.2 KafkaStream

获取kafka的实时流数据

28.2.1port

inport:

outport:默认端口

28.2.2properties

名称 展示名称 默认值 允许值 是否必填 描述
Brokers Brokers “” Kafka brokers,以逗号分隔
groupId Port “” Kafka consumer group
Topics Topics “” Kafka topic名,以逗号分割
batchDuration batchDuration “” 获取数据的时间间隔

28.3 SocketTextStream

获取sokcet的实时流数据

28.3.1port

inport:

outport:默认端口

28.3.2properties

名称 展示名称 默认值 允许值 是否必填 描述
hostname hostname “” socket 主机host名
Port Port “” socket主机端口
batchDuration batchDuration “” 获取数据的时间间隔

28.4 SocketTextStreamByWindow

获取sokcet的实时窗口流数据

28.3.1port

inport:

outport:默认端口

28.3.2properties

名称 展示名称 默认值 允许值 是否必填 描述
hostname hostname “” socket 主机host名
Port Port “” socket主机端口
batchDuration batchDuration “” 获取数据的时间间隔
windowDuration windowDuration “” 窗口时间
SlideDuration SlideDuration “” 滑动窗口

28.5 TextFileStream

获取text file的实时流数据

28.5.1port

inport:

outport:默认端口

28.5.2properties

名称 展示名称 默认值 允许值 是否必填 描述
Directory Directory “” 文件夹路径
batchDuration batchDuration “” 获取数据的时间间隔

28 Excel

28.1 excelParse

解析excel (xls ,xlsx)数据

28.1.1 port

inport:默认端口

outport:默认端口

28.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
CachePath CachePath Json 保存路径

28 graphx

28.1 LabelPropagation

计算子图

28.1.1 port

inport:默认端口

outport:默认端口

28.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
maxIter maxIter

28.2 LoadGraph

构建图

28.1.1 port

inport:默认端口

outport:默认端口

28.1.2 properties

名称 展示名称 默认值 允许值 是否必填 描述
dataPath dataPath
Scala
1
https://gitee.com/lsf2008/piflow.git
git@gitee.com:lsf2008/piflow.git
lsf2008
piflow
PiFlow
master

搜索帮助