# epub_vocab

**Repository Path**: sessionbean/dict

## Basic Information

- **Project Name**: epub_vocab
- **Description**: 如何趴单词，epub，根据我自己的水平，把一本电子书中的生词列举出来，用于复习
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-30
- **Last Updated**: 2025-08-29

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

如何趴单词，epub，根据我自己的水平，把一本电子书中的生词列举出来，用于复习
避免出现报错：AttributeError: module 'ebooklib.epub' has no attribute 'ET_DOCUMENT'，使用新的ebooklib api  =0.18，以上

排除下列词汇：
高频词已经在data的xlsx文件里面，这里面的所有xslx文件的所有sheet的A列的词汇都排除掉
高频词中的相关出现复数、过去式、进行时等各种时态的变形要排除，还有比较级等，其它不再列举
下好了nltk_data，放在代码工程目录下


举例：doesn这类词，这个是doesn't ，这种情况要排除掉
特别强调不规则动词映射，在用nltk排除掉

分多个文件

ebook_vocab_extractor/
├── config/
│   ├── __init__.py
│   ├── settings.py      # 配置参数
│   └── exceptions.py    # 自定义异常
├── core/
│   ├── __init__.py
│   ├── book_parser.py   # EPUB解析模块
│   ├── vocab_processor.py # 词汇处理模块
│   ├── parallel_processor.py #多线程
│   └── file_manager.py  # 文件管理模块
├── utils/
│   ├── __init__.py
│   ├── logger.py        # 日志工具
│   └── nltk_loader.py   # NLTK资源加载
└── main.py              # 主程序入口


注意可能有如下原因不能生成例句：
例句没有了，可能的问题点有几个：

1. **正则表达式的问题**：可能无法正确匹配到例句，导致所有例句都显示为“无上下文”。
2. **文本处理过程中的错误**：可能在清理文本或分词时，原始文本被修改，导致无法找到匹配的句子。
3. **词形还原后的单词与原词不一致**：例如，原词是“running”，但词形还原后变成“run”，而文本中只有“running”，导致匹配不到。
4. **多线程处理时的上下文丢失**：如果在多线程处理中，原始文本没有被正确传递，可能导致无法提取例句。

还有三个需求需要完善一下：
1、支持指定章节
2、输出词汇表文件名与epub文件同名，除了文件扩展名以外
3、速度太慢，能否多线程处理，反正每个章节互不相关
4、要保留例句