# ML-master **Repository Path**: tiansir-wg/ML-master ## Basic Information - **Project Name**: ML-master - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-03-04 - **Last Updated**: 2024-03-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 学习路线图 * 入门只看: 步骤 1 => 2 => 3,你可以当大牛! > 补充 * 头条视频汇总: * 算法刷题: * 面试求职: * 机器学习实战: * NLP教学视频: ## 1.机器学习 - 基础 ### 基本介绍 * 资料来源: Machine Learning in Action(机器学习实战-个人笔记) * 视频网站: 优酷 /bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接) * -- 推荐 [红色石头](https://github.com/RedstoneWill): [台湾大学林轩田机器学习笔记](https://github.com/apachecn/ntu-hsuantienlin-ml) * -- 推荐 [机器学习笔记](https://feisky.xyz/machine-learning): https://feisky.xyz/machine-learning ### 学习文档
模块 章节 类型 负责人(GitHub) QQ
机器学习实战 第 1 章: 机器学习基础 介绍 @毛红动 1306014226
机器学习实战 第 2 章: KNN 近邻算法 分类 @尤永江 279393323
机器学习实战 第 3 章: 决策树 分类 @景涛 844300439
机器学习实战 第 4 章: 朴素贝叶斯 分类 @wnma3mz
@分析
1003324213
244970749
机器学习实战 第 5 章: Logistic回归 分类 @微光同尘 529925688
机器学习实战 第 6 章: SVM 支持向量机 分类 @王德红 934969547
网上组合内容 第 7 章: 集成方法(随机森林和 AdaBoost) 分类 @片刻 529815144
机器学习实战 第 8 章: 回归 回归 @微光同尘 529925688
机器学习实战 第 9 章: 树回归 回归 @微光同尘 529925688
机器学习实战 第 10 章: K-Means 聚类 聚类 @徐昭清 827106588
机器学习实战 第 11 章: 利用 Apriori 算法进行关联分析 频繁项集 @刘海飞 1049498972
机器学习实战 第 12 章: FP-growth 高效发现频繁项集 频繁项集 @程威 842725815
机器学习实战 第 13 章: 利用 PCA 来简化数据 工具 @廖立娟 835670618
机器学习实战 第 14 章: 利用 SVD 来简化数据 工具 @张俊皓 714974242
机器学习实战 第 15 章: 大数据与 MapReduce 工具 @wnma3mz 1003324213
Ml项目实战 第 16 章: 推荐系统(已迁移) 项目 推荐系统(迁移后地址)
第一期的总结 2019-04-08: 第一期的总结 总结 总结 529815144
### 网站视频 | 机器学习 | 深度学习 | | - | - | | [吴恩达机器学习](http://study.163.com/course/courseMain.htm?courseId=1004570029) | [神经网络和深度学习](http://mooc.study.163.com/course/2001281002?tid=2001392029) | ## 2.深度学习 ### 入门基础 1. [反向传递](/docs/dl/反向传递.md): https://www.cnblogs.com/charlotte77/p/5629865.html 2. [CNN原理](/docs/dl/CNN原理.md): http://www.cnblogs.com/charlotte77/p/7759802.html 3. [RNN原理](/docs/dl/RNN原理.md): https://blog.csdn.net/qq_39422642/article/details/78676567 4. [LSTM原理](/docs/dl/LSTM原理.md): https://blog.csdn.net/weixin_42111770/article/details/80900575 > 目录结构: * [安装指南](docs/TensorFlow2.x/安装指南.md) * [Kears 快速入门](docs/TensorFlow2.x/Keras快速入门.md) * [实战项目 1 电影情感分类](docs/TensorFlow2.x/实战项目_1_电影情感分类.md) * [实战项目 2 汽车燃油效率](docs/TensorFlow2.x/实战项目_2_汽车燃油效率.md) * [实战项目 3 优化 过拟合和欠拟合](docs/TensorFlow2.x/实战项目_3_优化_过拟合和欠拟合.md) * [实战项目 4 古诗词自动生成](docs/TensorFlow2.x/实战项目_4_古诗词自动生成.md) 词干提取(stemming)与词形还原(lemmatization) * https://www.biaodianfu.com/nltk.html/amp TensorFlow 2.0学习网址 * https://github.com/lyhue1991/eat_tensorflow2_in_30_days ## 3.自然语言处理 ![](http://data.apachecn.org/img/AiLearning/nlp/F94581F64C21A1094A473397DFA42F9C.jpg) * **【入门须知】必须了解**: * **【入门教程】强烈推荐: PyTorch 自然语言处理**: * Python 自然语言处理 第二版: * 推荐一个[liuhuanyong大佬](https://github.com/liuhuanyong)整理的nlp全面知识体系: * 开源 - 词向量库集合: * * * * * * * ### 1.使用场景 (百度公开课) > 第一部分 入门介绍 * 1.) [自然语言处理入门介绍](/docs/nlp/1.自然语言处理入门介绍.md) > 第二部分 机器翻译 * 2.) [机器翻译](/docs/nlp/2.机器翻译.md) > 第三部分 篇章分析 * 3.1.) [篇章分析-内容概述](/docs/nlp/3.1.篇章分析-内容概述.md) * 3.2.) [篇章分析-内容标签](/docs/nlp/3.2.篇章分析-内容标签.md) * 3.3.) [篇章分析-情感分析](/docs/nlp/3.3.篇章分析-情感分析.md) * 3.4.) [篇章分析-自动摘要](/docs/nlp/3.4.篇章分析-自动摘要.md) > 第四部分 UNIT-语言理解与交互技术 * 4.) [UNIT-语言理解与交互技术](/docs/nlp/4.UNIT-语言理解与交互技术.md) ### 应用领域 #### 中文分词: * 构建DAG图 * 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径 * 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题 #### 1.文本分类(Text Classification) 文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。 下面是一些很好的初学者文本分类数据集。 1. [路透社Newswire主题分类](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。[另见RCV1,RCV2和TRC2](http://trec.nist.gov/data/reuters/reuters.html)。 2. [IMDB电影评论情感分类(斯坦福)](http://ai.stanford.edu/~amaas/data/sentiment)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。 3. [新闻组电影评论情感分类(康奈尔)](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。 有关更多信息,请参阅帖子: [单标签文本分类的数据集](http://ana.cachopo.org/datasets-for-single-label-text-categorization)。 > 情感分析 比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial * 方案一(0.86): WordCount + 朴素 Bayes * 方案二(0.94): LDA + 分类模型(knn/决策树/逻辑回归/svm/xgboost/随机森林) * a) 决策树效果不是很好,这种连续特征不太适合的 * b) 通过参数调整 200 个topic,信息量保存效果较优(计算主题) * 方案三(0.72): word2vec + CNN **通过AUC 来评估模型的效果** #### 2.语言模型(Language Modeling) 语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。 它是语音识别和机器翻译等任务中的前置任务。 下面是一些很好的初学者语言建模数据集。 1. [古腾堡项目](https://www.gutenberg.org/),一系列免费书籍,可以用纯文本检索各种语言。 2. 还有更多正式的语料库得到了很好的研究; 例如: [布朗大学现代美国英语标准语料库](https://en.wikipedia.org/wiki/Brown_Corpus)。大量英语单词样本。 [谷歌10亿字语料库](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。 > 新词发现 * 中文分词新词发现 * python3利用互信息和左右信息熵的中文分词新词发现 * > 句子相似度识别 * 项目地址: https://www.kaggle.com/c/quora-question-pairs * 解决方案: word2vec + Bi-GRU > 文本纠错 * bi-gram + levenshtein #### 3.图像字幕(Image Captioning) mage字幕是为给定图像生成文本描述的任务。 下面是一些很好的初学者图像字幕数据集。 1. [上下文中的公共对象(COCO)](http://mscoco.org/dataset/#overview)。包含超过12万张带描述的图像的集合 2. [Flickr 8K](http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。从flickr.com获取的8千个描述图像的集合。 3. [Flickr 30K](http://shannon.cs.illinois.edu/DenotationGraph/)。从flickr.com获取的3万个描述图像的集合。 欲了解更多,请看帖子: [探索图像字幕数据集,2016年](http://sidgan.me/technical/2016/01/09/Exploring-Datasets) #### 4.机器翻译(Machine Translation) 机器翻译是将文本从一种语言翻译成另一种语言的任务。 下面是一些很好的初学者机器翻译数据集。 1. [加拿大第36届议会的协调国会议员](https://www.isi.edu/natural-language/download/hansard/)。成对的英语和法语句子。 2. [欧洲议会诉讼平行语料库1996-2011](http://www.statmt.org/europarl/)。句子对一套欧洲语言。 有大量标准数据集用于年度机器翻译挑战; 看到: [统计机器翻译](http://www.statmt.org/) > 机器翻译 * Encoder + Decoder(Attention) * 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html #### 5.问答系统(Question Answering) 问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。 下面是一些很好的初学者问题回答数据集。 1. [斯坦福问题回答数据集(SQuAD)](https://rajpurkar.github.io/SQuAD-explorer/)。回答有关维基百科文章的问题。 2. [Deepmind问题回答语料库](https://github.com/deepmind/rc-data)。从每日邮报回答有关新闻文章的问题。 3. [亚马逊问答数据](http://jmcauley.ucsd.edu/data/amazon/qa/)。回答有关亚马逊产品的问题。 有关更多信息,请参阅帖子: [数据集: 我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?](https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality) #### 6.语音识别(Speech Recognition) 语音识别是将口语的音频转换为人类可读文本的任务。 下面是一些很好的初学者语音识别数据集。 1. [TIMIT声学 - 语音连续语音语料库](https://catalog.ldc.upenn.edu/LDC93S1)。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。 2. [VoxForge](http://voxforge.org/)。用于构建用于语音识别的开源数据库的项目。 3. [LibriSpeech ASR语料库](http://www.openslr.org/12/)。从LibriVox收集的大量英语有声读物。 #### 7.自动文摘(Document Summarization) 文档摘要是创建较大文档的简短有意义描述的任务。 下面是一些很好的初学者文档摘要数据集。 1. [法律案例报告数据集](https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。收集了4000份法律案件及其摘要。 2. [TIPSTER文本摘要评估会议语料库](http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。收集了近200份文件及其摘要。 3. [英语新闻文本的AQUAINT语料库](https://catalog.ldc.upenn.edu/LDC2002T31)。不是免费的,而是广泛使用的。新闻文章的语料库。 欲了解更多信息: [文档理解会议(DUC)任务](http://www-nlpir.nist.gov/projects/duc/data.html)。 [在哪里可以找到用于文本摘要的良好数据集?](https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization) > 命名实体识别 * Bi-LSTM CRF * 参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html * CRF推荐文档: https://www.jianshu.com/p/55755fc649b1 > 文本摘要 * **抽取式** * word2vec + textrank * word2vec推荐文档: https://www.zhihu.com/question/44832436/answer/266068967 * textrank推荐文档: https://blog.csdn.net/BaiHuaXiu123/article/details/77847232 ## Graph图计算【慢慢更新】 * 数据集: [data/nlp/graph](data/nlp/graph) * 学习资料: spark graphX实战.pdf 【文件太大不方便提供,自己百度】 ## 知识图谱 * 知识图谱,我只认 [SimmerChan](https://www.zhihu.com/people/simmerchan): [【知识图谱-给AI装个大脑】](https://zhuanlan.zhihu.com/knowledgegraph) * 说实话,我是看这博主老哥写的博客长大的,写的真的是深入浅出。我很喜欢,所以就分享给大家,希望你们也喜欢。 ### 进一步阅读 如果您希望更深入,本节提供了其他数据集列表。 1. [维基百科研究中使用的文本数据集](https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data) 2. [数据集: 计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?](https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus) 3. [斯坦福统计自然语言处理语料库](https://nlp.stanford.edu/links/statnlp.html#Corpora) 4. [按字母顺序排列的NLP数据集列表](https://github.com/niderhoff/nlp-datasets) 5. [该机构NLTK](http://www.nltk.org/nltk_data/) 6. [在DL4J上打开深度学习数据](https://deeplearning4j.org/opendata) 7. [NLP数据集](https://github.com/caesar0301/awesome-public-datasets#natural-language) 8. 国内开放数据集: https://bosonnlp.com/dev/resource ## 资料来源: * 【比赛收集平台】: https://github.com/iphysresearch/DataSciComp * https://github.com/pbharrin/machinelearninginaction * https://machinelearningmastery.com/datasets-natural-language-processing * https://github.com/wangjianbing1998/ML-master ## 感谢信 最近无意收到群友推送的链接,发现得到大佬高度的认可,并在热心的推广 在此感谢: * [量子位](https://www.zhihu.com/org/liang-zi-wei-48): * 人工智能前沿讲习: * ApacheCN学习爱好者: