# jstart **Repository Path**: conero/jstart ## Basic Information - **Project Name**: jstart - **Description**: scala入门级项目开发 scala/java-Java 代码学习; 利用jsoup 写一个简单的爬虫应用。 以及可采用命令窗口运行的Console小程序 - **Primary Language**: Scala - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2016-11-16 - **Last Updated**: 2022-05-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## Scala 语言学习实践第一个项目 Scala_start + 2016年10月21日 星期五 + Joshua Conero ## 项目介绍 + 目录结构 >> * ----- Start: object 项目入口文件 * ----- Crawler: class 爬虫处理库 * ----- About: class 关于项目信息-可迁移至配置文件 * ----- Helper: class 公共助手/类似其他函数额公共函数 * ----- Learn: class 语言学习以及其他操作-即插即用 >> * ----- 分支模块/branch * crawlerGui 爬虫图形化界面程序(独立小程序)
------------- crawlerGui/O * conero 公共函数提供库,从start项目内的 Helper对象分离出的
------------- 新增数据库连接包控制-> conero.DB/conero.sql._ 等。思想来自于TP5框架中的数据库操作模块 + 引用第三方库列表 >> * jsoup HTML解析 用于简单的web爬虫引用// jsoup-1.9.2.jar >> >> 2016年11月11日 星期五 + XML 文件转义符 < < 小于号 > > 大于号 & & 和 ' ' 单引号 " " 双引号 ## XML/Scala 解释器 1. p\"test" p的直接下级text 元素 2. p\\"test" p的所有下级text 元素 ## 命令化-处理
cmd.exe>-.exe -crawler.gzsggzyjyzx 文件名(xml)
cmd.exe>-.exe -crl.gzsggzyjyzx 文件名(xml)
cmd.exe>-.exe -crl 默认第一个/与文件相同 文件名(xml)
cmd.exe>-.exe -crl/header url 获取url网页的头部
cmd.exe>-.exe -env 文件名 输出计算机的系统环境变量
cmd.exe>-.exe -java 文件名 输出计算机的java相关信息
命令示例如:
cmd.exe>d:
cmd.exe>cd D:\Joshua\Active\Scala\app\Scala_start\out\artifacts\start_jar
cmd.exe>start.exe -env
命令测试语法:
new console(config).run(Array("-crl","d:/Joshua/Active/scala/app/scala_start/runtime/xlpu.xml")) ## scala 图形化程序框架 - swing
参考 1. [Hello, Scala Swing World!](http://www.tuicool.com/articles/FZJNjyZ) 2. [GUI Programming](http://www.artima.com/pins1ed/gui-programming.html) ## scala 问题 1. continue 的实现 ?? 2. 引用来自Java库循环时出现错误 -> Error:(24, 29) value foreach is not a member of java.util.Set[String] 解决方法// import scala.collection.JavaConversions._ [scala常见错误](http://blog.csdn.net/jiangshouzhuang/article/details/50528030) 3. 2016年11月21日 星期一 ![bug-exe4j 压缩的包无法引入sqlite包而出错](./runtim/bug20161121140951.png) ## 数据库使用 sqlite * 管理工具: (SQLite Expert Personal 4 - 64bit) * 项目的日志数据同步存储到数据库中 * sigar.jar java库获取当前计算机的基本信息 ## 更新日期 * 2016年11月28日 星期一
start项目新增子节点: 1. Coenro.jar 公共简介函数 2. CrawlerGUI 公共函数

--------------------------------------------------------------------------------------------( crawlerGui )----------------------------------------------------------------------------------- ## crawlerGui ### 项目架构/风格 * wing UI- 与核心/业务代码分离 使核心/业务代码可以运行与 console 程序调用- 具有框架风格 * 结构插件式服务 ### 项目计划/业务需求 * web 工具 - 基于爬虫技术
基本信息候获取 / 伪浏览器 1. 前端js/css 代码分析 - 得出文件列表 2. 加载数据以及http 响应/请求头部 3. 其他特性,加载时间,文件大小等 4. 通过域名(实际的网站) - IP 获取网站输出的位置以及IP相关信息 5. web视图展示浏览器效果 6. 其他: 链接/图片/视屏/meta的常见元素的统计
按需爬取数据 1. 根据解析XML 配置文件 - 爬取网站的内容 / XML 文件生成以及其他操作
本地工具 1. Java 运行环境 2. 收集安装的程序列表- 可导出
1. php代码项目管理以及分析 2. 通过构建项目 idea(XML) 配置文件 来分析项目 ### 模块新增
* 工具类 1. DirHelper 目录帮助工具 采用多线程实现多发