# epub_vocab **Repository Path**: sessionbean/dict ## Basic Information - **Project Name**: epub_vocab - **Description**: 如何趴单词,epub,根据我自己的水平,把一本电子书中的生词列举出来,用于复习 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-30 - **Last Updated**: 2025-08-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 如何趴单词,epub,根据我自己的水平,把一本电子书中的生词列举出来,用于复习 避免出现报错:AttributeError: module 'ebooklib.epub' has no attribute 'ET_DOCUMENT',使用新的ebooklib api =0.18,以上 排除下列词汇: 高频词已经在data的xlsx文件里面,这里面的所有xslx文件的所有sheet的A列的词汇都排除掉 高频词中的相关出现复数、过去式、进行时等各种时态的变形要排除,还有比较级等,其它不再列举 下好了nltk_data,放在代码工程目录下 举例:doesn这类词,这个是doesn't ,这种情况要排除掉 特别强调不规则动词映射,在用nltk排除掉 分多个文件 ebook_vocab_extractor/ ├── config/ │ ├── __init__.py │ ├── settings.py # 配置参数 │ └── exceptions.py # 自定义异常 ├── core/ │ ├── __init__.py │ ├── book_parser.py # EPUB解析模块 │ ├── vocab_processor.py # 词汇处理模块 │ ├── parallel_processor.py #多线程 │ └── file_manager.py # 文件管理模块 ├── utils/ │ ├── __init__.py │ ├── logger.py # 日志工具 │ └── nltk_loader.py # NLTK资源加载 └── main.py # 主程序入口 注意可能有如下原因不能生成例句: 例句没有了,可能的问题点有几个: 1. **正则表达式的问题**:可能无法正确匹配到例句,导致所有例句都显示为“无上下文”。 2. **文本处理过程中的错误**:可能在清理文本或分词时,原始文本被修改,导致无法找到匹配的句子。 3. **词形还原后的单词与原词不一致**:例如,原词是“running”,但词形还原后变成“run”,而文本中只有“running”,导致匹配不到。 4. **多线程处理时的上下文丢失**:如果在多线程处理中,原始文本没有被正确传递,可能导致无法提取例句。 还有三个需求需要完善一下: 1、支持指定章节 2、输出词汇表文件名与epub文件同名,除了文件扩展名以外 3、速度太慢,能否多线程处理,反正每个章节互不相关 4、要保留例句