基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为baseline。
基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为baseline。
Built Logistic regression, SVM, Naive Bayes, RandomForest, KNN for text classification on scrapped news data. Built Text rank, LDA and K-means clustering for text summarization.
毕业论文代码 + 评论文本数据获取+数据清洗+文本数据向量化+将数据放进分类器(KNN+Naive Bayes+SVM)中训练+结果评估
对文本进行分词,去除停用词,LDA建模,利用贝叶斯算法进行新闻分类
Joint Source Channel Coding of Images With Feedback
GWR Estimate for Panel Data Model
最近一年贡献:0 次
最长连续贡献:0 日
最近连续贡献:0 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。