# 3121005823 **Repository Path**: limit-jun/3121005823 ## Basic Information - **Project Name**: 3121005823 - **Description**: 这是软工作业,内容是制作一个简易的论文查重程序 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-09-17 - **Last Updated**: 2023-09-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 3121005823 #### 介绍 这是软工作业,内容是制作一个简易的论文查重程序,干就完了!!! #### 软件架构 - remove_punctuation:用于移除文本中的标点符号。 - tokenize_and_remove_punctuation:用于对文本进行中文分词并移除标点符号。 - concatenate_words:将分词后的单词列表重新组合为字符串。 - calculate_similarity:计算两个文本文件的相似度。 在main函数中,程序通过命令行参数获取原始文件、抄袭文件和输出文件的路径,并调用calculate_similarity函数计算相似度。最后,将相似度结果写入输出文件中。 #### 安装教程 从requirement.txt中安装所需要的对应包 #### 使用说明 - 如果正常使用查重功能按照下面内容用 输入输出都采用文件输入输出,规范如下: 从命令行参数给出:论文原文的文件的绝对路径。 从命令行参数给出:抄袭版论文的文件的绝对路径。 从命令行参数给出:输出的答案文件的绝对路径。 - 如果想要进行测试: 注释掉主函数中的实际运行语句,取消掉单元测试的注释,就可以自动测试