第2次作业

#include <iostream>
#include <fstream>
#include <vector>
#include <map>
#include <cmath>
#include <cstdint>
#include <algorithm>

using namespace std;

// UTF-8字符结构体
struct UTF8Char {
	uint8_t byte1;
	uint8_t byte2;
	uint8_t byte3;
	uint8_t byte4;

bool operator<(const UTF8Char& other) const {
		if (byte1 != other.byte1) return byte1 < other.byte1;
		if (byte2 != other.byte2) return byte2 < other.byte2;
		if (byte3 != other.byte3) return byte3 < other.byte3;
		return byte4 < other.byte4;
	}

bool operator==(const UTF8Char& other) const {
		return byte1 == other.byte1 &&
			byte2 == other.byte2 &&
			byte3 == other.byte3 &&
			byte4 == other.byte4;
	}
};

// 数据存储结构体
struct FileData {
	vector<UTF8Char> bytes;
	int cnt;
	vector<vector<UTF8Char>> lines;
	vector<map<UTF8Char, int>> lineMaps;
};

// 读取单个UTF-8字符
UTF8Char read_utf8_char(ifstream& file) {
	UTF8Char utf8_char = { 0, 0, 0, 0 };
	char c;

if (!file.get(c)) return utf8_char;
	utf8_char.byte1 = static_cast<uint8_t>(c);

if ((utf8_char.byte1 & 0xE0) == 0xC0) {
		file.get(c); utf8_char.byte2 = static_cast<uint8_t>(c);
	}
	else if ((utf8_char.byte1 & 0xF0) == 0xE0) {
		file.get(c); utf8_char.byte2 = static_cast<uint8_t>(c);
		file.get(c); utf8_char.byte3 = static_cast<uint8_t>(c);
	}
	else if ((utf8_char.byte1 & 0xF8) == 0xF0) {
		file.get(c); utf8_char.byte2 = static_cast<uint8_t>(c);
		file.get(c); utf8_char.byte3 = static_cast<uint8_t>(c);
		file.get(c); utf8_char.byte4 = static_cast<uint8_t>(c);
	}

return utf8_char;
}

// 检查UTF8Char是否为换行符
bool is_newline(const UTF8Char& c) {
	return (c.byte1 == 0x0A && c.byte2 == 0 && c.byte3 == 0 && c.byte4 == 0);
}

//检查UTF8Char是否为回车符
bool is_newlines(const UTF8Char& c) {
	return (c.byte1 == 0x0D && c.byte2 == 0 && c.byte3 == 0 && c.byte4 == 0);
}

// 检查UTF8Char是否为空格或标点（可选优化）
bool is_whitespace_or_punctuation(const UTF8Char& c) {
	// 简单实现：只检查空格
	return (c.byte1 == 0x20 && c.byte2 == 0 && c.byte3 == 0 && c.byte4 == 0);
}

// 读取文件并存储到结构体
FileData read_file_data(const string& filename) {
	FileData data;
	data.cnt = 0;
	vector<UTF8Char> current_line;
	ifstream file(filename, ios::binary);

if (!file.is_open()) {
		return data;
	}

while (!file.eof()) {
		UTF8Char c = read_utf8_char(file);
		if (c.byte1 == 0) break;

data.bytes.push_back(c);
		current_line.push_back(c);

if (is_newline(c)) {
			data.lines.push_back(current_line);
			current_line.clear();
		}

data.cnt++;
	}

if (!current_line.empty()) {
		data.lines.push_back(current_line);
	}

file.close();
	return data;
}

// 字符统计函数
void countUTF8Characters(FileData& fileData) {
	fileData.lineMaps.clear();

for (const auto& line : fileData.lines) {
		map<UTF8Char, int> charCount;

for (const auto& ch : line) {
			if (!is_newline(ch)) {
				charCount[ch]++;
			}
		}

fileData.lineMaps.push_back(charCount);
	}
}

// 1. 字符统计余弦相似度计算
double calculateCosineSimilarity(const FileData& file1, const FileData& file2) {
	if (file1.lineMaps.empty() || file2.lineMaps.empty()) {
		return 0.0;
	}

size_t minLines = min(file1.lineMaps.size(), file2.lineMaps.size());
	vector<double> lineSimilarities;

for (size_t i = 0; i < minLines; i++) {
		const map<UTF8Char, int>& map1 = file1.lineMaps[i];
		const map<UTF8Char, int>& map2 = file2.lineMaps[i];

// 如果两个map都为空，相似度为1
		if (map1.empty() && map2.empty()) {
			lineSimilarities.push_back(1.0); // 两个空行视为相同
			continue;
		}
		else if (map1.empty() || map2.empty()) {//一个有，一个没，当成垂直，0.0
			lineSimilarities.push_back(0.0);
			continue;
		}

// 计算向量点积
		double dotProduct = 0.0;
		for (const auto& pair1 : map1) {
			auto it = map2.find(pair1.first);
			if (it != map2.end()) {
				dotProduct += pair1.second * it->second;
			}
		}

// 计算向量模长
		double norm1 = 0.0, norm2 = 0.0;
		for (const auto& pair : map1) {
			norm1 += pair.second * pair.second;
		}
		for (const auto& pair : map2) {
			norm2 += pair.second * pair.second;
		}

norm1 = sqrt(norm1);
		norm2 = sqrt(norm2);

// 计算余弦相似度
		if (norm1 == 0 || norm2 == 0) {//再次检测，防止出错
			lineSimilarities.push_back(0.0);
		}
		else {
			double similarity = dotProduct / (norm1 * norm2);
			lineSimilarities.push_back(similarity);
		}
	}

// 计算算术平均数
	if (lineSimilarities.empty()) {
		return 0.0;
	}

double sum = 0.0;
	for (double sim : lineSimilarities) {
		sum += sim;
	}

return sum / lineSimilarities.size();
}

// 2. 双指针区间匹配相似度计算
double calculateDoublePointerSimilarity(const FileData& file1, const FileData& file2) {
	if (file1.lines.empty() || file2.lines.empty()) {
		return 0.0;
	}

int minLines = min(file1.lines.size(), file2.lines.size());
	vector<double> lineRatios;

for (int i = 0; i < minLines; i++) {
		const vector<UTF8Char>& line1 = file1.lines[i];
		const vector<UTF8Char>& line2 = file2.lines[i];

// 过滤掉换行符的实际内容长度
		// 同时提取有效字符（过滤换行符）
		vector<UTF8Char> valid1, valid2;
		int len1 = 0, len2 = 0;
		for (const auto& ch : line1) {
			if (!is_newline(ch) || !is_newlines(ch)) {
				len1++;
				valid1.push_back(ch);
			}
		}
		for (const auto& ch : line2) {
			if (!is_newline(ch) || !is_newlines(ch)) {
				len2++;
				valid2.push_back(ch);
			}
		}

// 如果其中一个为空，比值为0
		if (len1 == 0 || len2 == 0) {
			lineRatios.push_back(0.0);
			continue;
		}

// 使用双指针算法找到最长公共子序列的长度
		vector<vector<int>> dp(len1 + 1, vector<int>(len2 + 1, 0));

// 动态规划计算最长公共子序列长度
		for (int i = 1; i <= len1; i++) {
			for (int j = 1; j <= len2; j++) {
				if (valid1[i - 1] == valid2[j - 1]) {
					dp[i][j] = dp[i - 1][j - 1] + 1;
				}
				else {
					dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]);
				}
			}
		}

int lcsLength = dp[len1][len2];
		int minLength = min(len1, len2);

double ratio = static_cast<double>(lcsLength) / minLength;
		lineRatios.push_back(ratio);
	}

// 计算算术平均数
	if (lineRatios.empty()) {
		return 0.0;
	}

double sum = 0.0;
	for (double ratio : lineRatios) {
		//cout << ratio << " ";
		sum += ratio;
	}

return sum / max(file1.lines.size(), file2.lines.size());//注意，要除以它们的最大值
}

// 3. 最终相似度融合
double calculateFinalSimilarity(const FileData& file1, const FileData& file2) {
	double cosineSim = calculateCosineSimilarity(file1, file2);
	double pointerSim = calculateDoublePointerSimilarity(file1, file2);

// 权重融合：字符统计相似度×15% + 双指针相似度×85%
	double finalSimilarity = cosineSim * 0.15 + pointerSim * 0.85;

return finalSimilarity;
}

int main(int argc, char* argv[]) {
	if (argc != 4) {
		cerr << "用法: " << argv[0] << " <原文文件> <抄袭版文件> <输出文件>" << endl;
		return 1;
	}

// 读取文件
	FileData originalFile = read_file_data(argv[1]);
	FileData plagiarizedFile = read_file_data(argv[2]);
	string outputFile = argv[3];

// 字符统计
	countUTF8Characters(originalFile);
	countUTF8Characters(plagiarizedFile);

// 计算相似度
	double cosineSimilarity = calculateCosineSimilarity(originalFile, plagiarizedFile);
	double pointerSimilarity = calculateDoublePointerSimilarity(originalFile, plagiarizedFile);
	double finalSimilarity = calculateFinalSimilarity(originalFile, plagiarizedFile);

// 输出到文件
	ofstream outFile(outputFile);
	if (outFile.is_open()) {
		outFile.precision(2);
		outFile << fixed << finalSimilarity;
		outFile.close();
	}
	else {
		return 1;
	}

// 控制台输出（调试信息）
	/*
	printf("字符统计余弦相似度: %.2f\n", cosineSimilarity);
	printf("双指针区间匹配相似度: %.2f\n", pointerSimilarity);
	printf("最终相似度: %.2f\n", finalSimilarity);
	*/
	return 0;
}
/*
C:\Users\THINKPAD\source\repos\Project1\Project1\main.cpp

C:\Users\THINKPAD\source\repos\Project1\Debug\Project1.exe
C:\Users\THINKPAD\source\repos\Project1\Project1\1.txt
C:\Users\THINKPAD\source\repos\Project1\Project1\2.txt
C:\Users\THINKPAD\source\repos\Project1\Project1\out.txt

C:\Users\THINKPAD\source\repos\Project1\Debug\Project1.exe C:\Users\THINKPAD\source\repos\Project1\Project1\1.txt C:\Users\THINKPAD\source\repos\Project1\Project1\2.txt C:\Users\THINKPAD\source\repos\Project1\Project1\out.txt
C:\Users\THINKPAD\source\repos\Project1\Debug\Project1.exe C:\Users\THINKPAD\Downloads\测试文本(1)\orig.txt C:\Users\THINKPAD\Downloads\测试文本(1)\orig_0.8_del.txt C:\Users\THINKPAD\source\repos\Project1\Project1\out.txt
C:\Users\THINKPAD\source\repos\Project1\Debug\Project1.exe C:\Users\THINKPAD\Downloads\测试文本(1)\orig.txt C:\Users\THINKPAD\Downloads\测试文本(1)\orig_0.8_add.txt C:\Users\THINKPAD\source\repos\Project1\Project1\out.txt
C:\Users\THINKPAD\source\repos\Project1\Debug\Project1.exe C:\Users\THINKPAD\Downloads\测试文本(1)\orig.txt C:\Users\THINKPAD\Downloads\测试文本(1)\orig_0.8_dis_1.txt C:\Users\THINKPAD\source\repos\Project1\Project1\out.txt
C:\Users\THINKPAD\source\repos\Project1\Debug\Project1.exe C:\Users\THINKPAD\Downloads\测试文本(1)\orig.txt C:\Users\THINKPAD\Downloads\测试文本(1)\orig_0.8_dis_10.txt C:\Users\THINKPAD\source\repos\Project1\Project1\out.txt
C:\Users\THINKPAD\source\repos\Project1\Debug\Project1.exe C:\Users\THINKPAD\Downloads\测试文本(1)\orig.txt C:\Users\THINKPAD\Downloads\测试文本(1)\orig_0.8_dis_15.txt C:\Users\THINKPAD\source\repos\Project1\Project1\out.txt

*/

NXX/3123003122

内容风险标识

评论 (0)

NXX/3123003122 .gitee-modal { width: 500px !important; }

内容风险标识

第2次作业

评论 (0)

搜索帮助

NXX/3123003122