开源OA系统 - 码云GVP|Java开源oa|企业OA办公平台|企业OA|协同办公OA|流程平台OA|O2OA|OA,支持国产麒麟操作系统和国产数据库(达梦、人大金仓),政务OA,军工信息化OA
从0到1构建分布式秒杀系统,脱离案例讲架构都是耍流氓,交流群:933593697
开源OA系统 - 码云GVP|Java开源oa|企业OA办公平台|企业OA|协同办公OA|流程平台OA|O2OA|OA,支持国产麒麟操作系统和国产数据库(达梦、人大金仓),政务OA,军工信息化OA
en: A mobile page builder/editor, similar with amolink. zh: 类似易企秀的H5制作、建站工具,开源可视化搭建系统
D2Admin 是一个完全 开源免费 的企业中后台产品前端集成方案,使用最新的前端技术栈,已经做好大部分项目前期准备工作,并且带有大量示例代码,助力管理系统敏捷开发
1、程序包说明: machine_learn.algorithm - 算法实现类 |--FP_grow_tree - Fp_growth算法实现,git上下载的源码 |--apriori.py - apriori算法实现,自己理解过一遍 machine_learn.data - 数据集 |--超市数据集.xls machine_learn.test_algorithm - 算法测试程序 |--w8_李义_289730575.py - 对鸢尾花分类的实现程序 |--w9_李义_289730575.py - 超市数据关联分析实现程序 2、模型初步评估与筛选结果 Apriori与Fp_growth算法都是分析关联关系的算法,因为Fp_growth只有两个全数据扫描,较Apriori算法低,所以性能上较Apriori算法要好得多。
1、程序包说明: machine_learn.algorithm - 算法实现类 machine_learn.data - 鸢尾花数据 machine_learn.test_algorithm - 算法测试程序 |--algorithm_type.py - 可选算法(KNN, Bayes,在iris_class_caculate.py中使用) |--iris_class_caculate.py - 对鸢尾花分类的实现程序 2、模型初步评估与筛选结果 1)KNN算法,最高预测准确率 100%,20%的测试数据大概耗时2秒左右,效率比较高 2)Bayes算法,最高预测准确率 73%,20%的测试数据大概耗时4秒左右,效率相对低 总结: 个人感觉,如果测试数据较少,特征训练数量较少,那么KNN的对数据归一化和标准化处理后的分类结果令人满意。 Bayes算法模型可能是需要更多的训练数据来提高其准确性,并且经过测试发现数据归一化对Bayes的
第六周作业: 1-spider:和讯博客爬虫源码 2-data:爬取的数据导出后的EXCEL文件 3-dataAnalysis:以EXCEL为数据源进行数据分析的程
爬虫难度一般,只是博文的点击量和评论数以及作者信息为异步加载,需要使用其他的请求获取 此作业实现了两版: 第一版使用高效的请求方式进行博文以及点击量评论数的获取:高效,但是需要一次插入一次更新数据库 第二版使用了selenium延迟获取博文信息,等整体加载完成后,再获取网页数据:可以一次性拿到所有数据 引版本为第二版,执行命令: scrapy crawl spider_hexunblog 数据会存储到本地CSV文件中
伯乐在线网站博客爬虫 这次的程序和知乎不一样,难度上低了很多,所以这次的作业对自己来说,想实现两个目标: 1、进一步深刻理解scrapy框架,了解源码 2、实现mysql数据库连接池 pymysqlpool 这次使用了CrawlSpider进行爬虫实现: 1、使用rules对网页上的URL进行提取 2、使用process_links方法对网页上的URL进行过滤,使用了bloom过滤器 3、使用process_request在每一次请求前,对header进行修改,保证UA,HOST这些信息正确 4、在analyse方法里,对网页内容进行判断,如果是博文网页,则进行存储,如果不是,则不做其他操作,CrawlSpider会进一步扫描网页内容中的URL