1 Star 2 Fork 1

Davion2018 / Word_frequency

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

Project description:

[数据+代码] 上市公司年报文本分词、关键词词频统计+数字化转型关键词表...可以根据“创新、数字化等关键词+Word2vec相似词扩充”计算词典的词频作为代理变量;

How to use:

1)根据1-3文件夹里面的数据将所需文件放在运行目录下面;
2)在Jupyter Notebook运行 Wordfreq_Davion.py 主程序;

Dataset description:

1)test.txt 文件存放上市公司文本数据,可以根据爬取的PDF文件转换为该纯文本格式;
2)stopwordlist.txt 文件为停用词词典;
3)add_word_list.txt 文件格式是"单词"+"空格"+"n",或者其他vn、a、nr等词性;针对词典可能存在的“专有名词、网络名词和歧义分割”等缺陷,定义用户词典,同时可以对词性进行过滤;该项目中存放了与上市公司数字化转型相关的关键词表;
4)synonym_list.xlsx 文件为同义词词典,需要用户自定义;第一列为'origin',第二列为'new',分别对应原始词语和替换后的词语;
5)synonym_list.txt 文件为同义词词典,需要用户自定义;每行为互为同义词的几个词语,空格隔开(公司 企业 集团),行首的词语为最终替换词语(最终全部合并为“公司”);
6)word_freq.xlsx 文件为不考虑同义词的词频结果;word_freq1.xlsx 文件为考虑同义词的词频结果;word_freq2.xlsx 文件为直接依据word_freq.xlsx 文件结果,进而考虑同义词的词频结果;

Contact me:

👋 Hi, I’m @DavionWu2018
👀 I’m interested in sustainable tourism, tourism firm management, text mining, and event study.
🌱 I’m currently learning tourism management.
💞️ I’m looking to collaborate on text mining of tourism big data.
📫 How to reach me: dwu@mail.nankai.edu.cn.

空文件

简介

[数据+代码] 上市公司年报文本分词、关键词词频统计+数字化转型关键词表 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/davion2018/Word_frequency.git
git@gitee.com:davion2018/Word_frequency.git
davion2018
Word_frequency
Word_frequency
main

搜索帮助

14c37bed 8189591 565d56ea 8189591