# ParaCorpusPosTagger

**Repository Path**: englishcafeteria/paratagger

## Basic Information

- **Project Name**: ParaCorpusPosTagger
- **Description**: 本软件是傲飞平行语料检索（OFA ParaConc）系列软件中的一款，针对平行语料常见的双语上下对齐语料格式，采取奇偶行分行分引擎标注的方法对英汉、汉英平行语料文本文件进行单个或批量的分词与词性标注，生成标注文本文件。为减小打包软件尺寸，本软件分三个版本分别打包：JIEBA vs NLTK版，PKU vs NLTK版与PYNLPIR vs NLTK版。
- **Primary Language**: Python
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: https://gitee.com/englishcafeteria/paratagger.git
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2022-12-13
- **Last Updated**: 2025-01-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# OFA-ParaConc-Series

# 平行语料词性标注软件 V.1.0
## ParaCorpus PosTagger V.1.0

![](./cover.png) 

### 软件概况
### GENERAL INFO

本软件是傲飞平行语料检索（OFA ParaConc）系列软件中的一款，针对平行语料常见的双语上下对齐语料格式，采取奇偶行分行分引擎标注的方法对英汉、汉英平行语料文本文件进行单个或批量的分词与词性标注，生成标注文本文件。为减小打包软件尺寸，本软件分三个版本分别打包：JIEBA vs NLTK版，PKU vs NLTK版与PYNLPIR vs NLTK版。

本软件编写语言为python 3.8，UTF8编码，采用PySide 6.1.3设计界面，采用PyInstaller进行打包。本版本目前可在windows 7及windows 10窗口环境下运行(64位)。打包文件内含app_data文件夹，请勿擅自增删其内的目录或相关文件，以免影响软件的正常运行。

本软件为开源软件，遵循GNU协议。

---

### 基本功能
### FUNCTIONS

1. 文件加载
2. 双语标注
3. 自定义分词
4. 结果输出与查看
5. 操作提示

#### 文件加载
#### CORPUS FILES LOADING

分单独与批量两种方式加载双语对齐语料的文本文件。文本文件须采用utf-8编码方式，其内双语语料为上下段对齐、句对齐或段句对齐格式，奇、偶行数量高度一致。

使用方法：点击右上方的“打开文件”或“打开文件夹”按钮，在弹出的对话框中选择要打开的文件或文件夹即可。加载完成后，所选的单个或多个文件名将出现在上述按钮在侧的文字框内。

### 双语标注
### BILINGUAL POS-TAGGING

依据所选标注引擎分别对已加载的平行语料中的双语文本进行实时分词与词性标注。

使用方法：首先，在中部“标注选项”区域内分别为奇行与偶行的文本选择相应的标注引擎，当两者为同一引擎时，则不再进行语种区分，转而对全篇进行单语种标注；其次，按需选择修改各语种相应的标注分隔符，如不做修改，软件将使用默认的分隔符；最后，如想对中文使用自定义词典进行分词及词性标注，可点选“启用自定义词典”，软件将依据位于app_data/user_dicts/目录下的用户自定义词典进行中文分词及中文词性标注。英文标注暂不支持词典自定义功能。

#### 自定义分词
#### CUSTOMIZED TAGGING

本软件默认使用相应引擎自带的词典进行分词与词性标注，默认分别使用“/”与“_”做为中文与英文的词形与词性分隔符。与此同时，对于中文文本也可使用自编的自定义词典进行分词与词性标注。PKUSEG版还提供多种中文分词模型选择功能。

使用方法：详见上一条说明。若想更新自定义词典，可先用自己的词表替换掉“app_data/user_dicts”目录下相应的“user_dict.txt”文件中的词表，然后再启动软件，在点选“启用自定义词典”后开始分词。在修改词表时，要符合相应的辞条格式：（1）一行一辞条，（2）中文字词在前，词性在后，两者之间用一个tab键进行分隔；（3)尽量不要使用没有标淮词性的辞条，具体词性可参考“app_data/tagsets”目录下的相应词性标签说明文档；（4）尽量控制词典内辞条的总量，否则会大大减慢软件进行分词与标注的速度。

#### 结果输出与查看
#### OUTPUT and DISPLAY TAGGED CORPUS

将当前已完成分词与词性标注的双语文本结果转存到原文本文件所在目录下的“tagged_files”目录之下，并可实时定位该文件夹。

使用方法：标注完成后，点击软件界面右下方的“查看结果”，可弹出分词与词性标注后的双语文本所在文件夹界面，进而可通过点选该文件来打开与查看该文件内的所有内容；也可离开本软件，直接到相应文件夹中去打开及查看该文件。注意：所存文本文件的文件名是在原文件名基础上填加了“bi_tag”字样，重复分词操作将覆盖之前生成的相应文件。

#### 操作提示
#### PROCESS PROMPT

对软件界面中的各组件进行功能说明；对标注进程或结果进行实时提示。

使用方法：将鼠标放在目标组件上，软件将以悬浮框的方式展示相关组件的基本信息；在执行分词与词性标注过程中，界面左下方的进度条将实时展示本次分词与词性标注的整体进程；左下角状态栏内则将提供操作结果、错误提示、当前正在处理的文件编号数及待处理语言件总数等其它信息。如想中断某次分词与词性标注进程，可在标注开始后点击左下方的“中断进程”按钮，即可安全中断本次标注。

### 注意事项：
1. 本软件为exe文件，由PyInstaller压制，因此会被360杀毒软件误认为内含木马的恶意程序，请选择信任即可，请放心使用。
2. 为提高标注质量，建议在使用本软件进行标注之前对要标注的英文语料进行必要的语料清洁。
3. PKUSEG版中的训练模型生成办法可参考官网的模型训练方法；PYNLPIR版许可证若失效则需要在下载新的许可证后，进行重新打包。
4. 在使用本软件过程中，如有任何意见或建议，可通过联系软件维护人员：
   QQ: 42716403 E-Mail: 42716403@qq.com

### 搭建运行环境
### SET UP THE ENVIRONMENT

#### 第三方库列表
#### THIRD-PARTY PROGRAMS LIST
[requirements.txt](./requirements.txt) 

#### 打包软件安装与程序打包
#### INSTALL PACKING TOOL & PACKAGING
Step 1: 
> pip install pyinstaller
Step 2:
> python -m PyInstaller -F -w -i myIcon.ico main.py
Step 3: 
verify main.spec as follow:
> from PyInstaller.utils.hooks import collect_data_files
> from PyInstaller.utils.hooks import collect_submodules
> from PyInstaller.utils.hooks import copy_metadata
> datas = []
> datas += collect_data_files('jieba')或（'pkuseg'）或（'pynlpir'）
> datas += copy_metadata('jieba')或（'pkuseg'）或（'pynlpir'）
> hiddenimports = []
> hiddenimports += collect_submodules('jieba')或（'pkuseg'）或（'pynlpir'）
> a = Analysis(...
>    datas=datas, 
>    hiddenimports=hiddenimports, 
>    ...)
Step 4: 
> python -m PyInstaller main.spec
Step 5:
Copy the whole app_data to the dist directory.
---
### 软件图标
### MY ICON
![](./app_data/images/tool_icon.png)  
---