# Word_frequency **Repository Path**: fangyebing/Word_frequency ## Basic Information - **Project Name**: Word_frequency - **Description**: [数据+代码] 上市公司年报文本分词、关键词词频统计+数字化转型关键词表 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: main - **Homepage**: https://github.com/DavionWu2018/Word_frequency - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2024-03-01 - **Last Updated**: 2024-03-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Project description: [数据+代码] 上市公司年报文本分词、关键词词频统计+数字化转型关键词表...可以根据“创新、数字化等关键词+Word2vec相似词扩充”计算词典的词频作为代理变量; # How to use: 1)根据1-3文件夹里面的数据将所需文件放在运行目录下面; 2)在Jupyter Notebook运行 Wordfreq_Davion.py 主程序; # Dataset description: 1)test.txt 文件存放上市公司文本数据,可以根据爬取的PDF文件转换为该纯文本格式; 2)stopwordlist.txt 文件为停用词词典; 3)add_word_list.txt 文件格式是"单词"+"空格"+"n",或者其他vn、a、nr等词性;针对词典可能存在的“专有名词、网络名词和歧义分割”等缺陷,定义用户词典,同时可以对词性进行过滤;该项目中存放了与上市公司数字化转型相关的关键词表; 4)synonym_list.xlsx 文件为同义词词典,需要用户自定义;第一列为'origin',第二列为'new',分别对应原始词语和替换后的词语; 5)synonym_list.txt 文件为同义词词典,需要用户自定义;每行为互为同义词的几个词语,空格隔开(公司 企业 集团),行首的词语为最终替换词语(最终全部合并为“公司”); 6)word_freq.xlsx 文件为不考虑同义词的词频结果;word_freq1.xlsx 文件为考虑同义词的词频结果;word_freq2.xlsx 文件为直接依据word_freq.xlsx 文件结果,进而考虑同义词的词频结果; # Contact me: 👋 Hi, I’m @DavionWu2018 👀 I’m interested in sustainable tourism, tourism firm management, text mining, and event study. 🌱 I’m currently learning tourism management. 💞️ I’m looking to collaborate on text mining of tourism big data. 📫 How to reach me: dwu@mail.nankai.edu.cn.