绵阳城市学院某老师DeepAI查重系统v6.0分析

前言#

为了防止大家的论文之间出现互相抄袭、复制粘贴等情况，老师准备在收集完全部作业后，用一个指定的查重系统对 .docx 文件进行检测。也就是说，这个软件后面会直接参与期末论文的查重流程。

拿到程序以后，发现它是一个 Windows 下运行的 exe，原来的文件名是中文，放在终端里敲命令、解包、反编译都不太方便，所以我先把它重命名成了 123.exe。这个名字没有特殊含义，单纯就是为了后面操作省事。

这个程序界面上写着 Deep-AI 学术不端检测与多维语义张量分析系统 v6.0，看起来很高级：日志里有 CUDA、SVD、TF-IDF、Multi-Head Attention 之类的词，窗口里还有 3D 语义空间、拓扑网络这些展示。第一眼看上去像是用了某种深度学习模型。

不过真正拆开以后会发现，它并不是把 Python 编译成了原生程序，也没有看到真正的大模型推理。它本质上是一个用 PyInstaller 打包的 Python GUI 程序，核心查重逻辑主要是传统文本相似度算法：N-gram、SimHash，以及代码里写到的 TF-IDF 余弦相似度。

这篇文档记录的是整个分析过程：怎么判断它是 PyInstaller 打包、怎么把 .pyc 还原成源码、核心算法到底怎么算、以及怎么用同一批文档对比原程序和还原版的结果。

第一步：判断它到底是什么#

拿到一个 exe，第一件事不是急着反汇编，而是先搞清楚它的”体质”。

用十六进制编辑器打开，很快就看到了几个关键字符串：

PyInstaller
_MEIPASS
python38.dll
PYZ.pyz

看到这些就基本确定了——这不是用 C/C++ 编译出来的原生程序，而是一个 PyInstaller 打包的 Python 应用。

PyInstaller 的原理说白了就是：把 Python 解释器、所有依赖库、还有你的 Python 字节码（.pyc）一起塞进一个 exe 里。用户双击 exe 时，它先把这些东西解压到临时目录，启动内置的 Python 解释器，然后执行你的代码。

换句话说，这个 exe 本质上是个”自带 Python 运行环境的压缩包”。

这意味着什么？意味着我们不需要去啃 x86 汇编，真正要做的是把字节码从包里掏出来，然后反编译回 Python 源码。

第二步：解包#

确认了打包方式之后，下一步就是拆包。

这里用的是 pyinstxtractor.py，这是一个专门针对 PyInstaller 打包格式的解包工具。运行之后，exe 里的内容被释放到了 123.exe_extracted/ 目录下。

解包出来的东西不少，但我们真正关心的只有一个文件：

1
123.exe_extracted/check.pyc

这就是程序的主入口。.pyc 是 Python 的字节码文件，虽然不是人能直接读的源码，但它保留了完整的程序逻辑结构——变量名、类名、函数调用关系全都在里面。

第三步：反编译#

拿到 .pyc 之后，用 uncompyle6 进行反编译：

1
uncompyle6 123.exe_extracted/check.pyc > recovered_raw/check.py

反编译器跑完之后，确实生成了一份看起来像 Python 的源码。但事情没有那么顺利。

反编译器不是万能的#

uncompyle6 在处理 Python 3.8 字节码时，有几处明显还原错了。

比如，它把切片操作搞坏了：

1
# 反编译器给出的代码（错的）
2
text[i[:i + n]]
3

4
# 实际应该是
5
text[i:i + n]

还有生成器表达式被截断的情况：

1
# 反编译器给出的代码（缺参数）
2
self.raw_content = "\n".join((p.text for p in ))
3

4
# 实际应该是
5
self.raw_content = "\n".join(p.text for p in doc.paragraphs)

另外还有 for-else 结构被反编译器误还原成了 try-except-else 嵌套等问题。这些都需要对照字节码的操作序列，结合上下文逻辑手动修正。

反编译工具能帮你走完 90% 的路，但最后 10% 必须靠人来补。

修复完所有问题后，得到了最终的还原版源码：check_recovered.py。

第四步：搞懂这个程序在干什么#

还原出源码之后，终于可以从容地阅读代码了。

它的技术栈很清晰：

功能	用的什么
图形界面	Tkinter
读取 Word 文档	python-docx
数据可视化	matplotlib
结果存储	SQLite
数值计算	NumPy

整个工作流程大致是这样的：

用户选择一个论文目录
程序扫描目录下所有符合命名规则的 .docx 文件
逐篇读取文档内容，提取文本特征
对所有论文进行两两比较
计算综合重复率
在界面上展示结果，支持导出 HTML 报告

界面那些酷炫的东西是真的吗？#

先说结论：大部分不是。

程序界面上有很多看起来很”硬核”的元素：

实时跳动的 CPU、RAM、TENSOR OPS 指标
不断滚动的底层计算日志，提到了 CUDA、SVD、Multi-Head Attention、AST 等
3D 语义空间可视化、拓扑网络图

但翻看源码就会发现，这些指标都是随机数生成的，日志也是从预设文案池里随机抽取的。代码里甚至有一个类叫 DeepLogger，注释写的是——

“生成伪底层计算日志，增强专业压迫感”

所以这些视觉效果更像是”气氛组”，不是真的在跑 GPU 运算。实际的查重计算全部是 CPU 上的传统算法。

第五步：拆解核心查重算法#

剥掉界面和装饰性的东西之后，核心查重引擎其实就三个算法叠加在一起。

算法一：N-gram 多重集匹配#

这是权重最高的算法（占综合分的 60%）。

原理很直观：把一篇文章的中文文本按 8 个字一组，用滑动窗口切成一堆文本片段。然后比较两篇文章有多少片段是重复的。

举个例子，假设有一段文本：

1
网络爬虫技术与数据可视化

按 8 字切片后会得到：

1
网络爬虫技术与数
2
络爬虫技术与数据
3
爬虫技术与数据可
4
虫技术与数据可视
5
技术与数据可视化

程序里有一个值得注意的细节：它用的是 Python 的 Counter（多重集）来统计片段频次，而不是普通的 set。这意味着如果某个片段在一篇文章里出现了 3 次，在另一篇里也出现了 3 次，它会如实计算 3 次匹配，而不是只算 1 次。

这也是源码注释里提到的 “Multiset Counter Fix”——保证了同一篇文章和自己比较时，重复率一定是 100%。

算法二：SimHash 指纹比对#

SimHash 是一种局部敏感哈希算法（占综合分的 20%）。

简单来说，它给每篇文章生成一个 128 位的”指纹”。生成方式是：

把文本按 2 个字一组切开
对每组做 MD5 哈希
把所有哈希累加成一个 128 维的向量
正数位记为 1，负数位记为 0，得到最终指纹

两篇文章的 SimHash 差异用海明距离（有多少位不同）来衡量。距离越小，文章越相似。

算法三：TF-IDF 余弦相似度#

第三个算法是经典的 TF-IDF + 余弦相似度（也占 20%）。

不过在实际还原和测试中发现，由于 tfidf_vec 在程序运行流程中的回填时机问题，很多非完全相同的文章对，这个值实际算出来是 0.0。也就是说，余弦相似度在大多数情况下对综合分没有实质贡献。

综合分计算#

三个算法的结果按权重加在一起：

1
综合分 = 0.6 × N-gram + 0.2 × SimHash + 0.2 × Cosine

当综合分达到 50% 时，程序就会标记为”学术不端”。

如果两篇文章的原始文本完全相同，程序会直接短路判定：三项全部 100%，综合分 100%。

AIGC 检测是怎么回事？#

程序还有一个”AIGC 疑似率”的功能，看起来像是在检测文章是否由 AI 生成。

但实际上，它完全不涉及任何大模型或深度学习。它只是做了三个简单的启发式判断：

齐普夫定律拟合度：统计词频分布是否符合自然语言的齐普夫分布
句长方差：看句子长度的变化幅度大不大
词汇丰富度：统计用了多少不重复的字

然后根据这些指标打一个基础分，最后再加上 ±10 的随机浮动。

所以这个 AIGC 检测每次运行结果都不一样，不能作为严格的判断依据。

第六步：验证还原结果#

源码还原出来了，算法也看明白了，但有一个关键问题还没回答：还原版跑出来的结果和原程序一样吗？

语法检查#

首先确认还原的源码在语法层面没有问题：

1
python3 -c "compile(open('check_recovered.py', encoding='utf-8').read(), \
2
  'check_recovered.py', 'exec'); print('syntax ok')"

输出 syntax ok，通过。

核心算法冒烟测试#

写了一个不依赖 GUI 的测试脚本 test_recovered_core.py，它会：

临时生成 3 篇 .docx 测试文档（其中两篇内容完全相同）
用还原版的查重引擎跑一遍
断言完全相同的两篇文章重复率为 100%

1
python3 test_recovered_core.py

输出 smoke ok，通过。

和原程序对比#

最关键的验证是拿同一批论文，分别用原 exe 和还原版跑一遍，然后对比核心指标。

用 4 篇真实的课程论文作为测试样本，分别在两个环境下运行，导出 HTML 报告。

对比结果：

论文对	原程序 N-gram	还原版 N-gram	原程序 SimHash	还原版 SimHash	原程序综合分	还原版综合分
刘 vs 徐	100.0%	100.0%	100.0%	100.0%	80.0%	80.0%
刘 vs 李	100.0%	100.0%	100.0%	100.0%	80.0%	80.0%
刘 vs 黄	75.86%	75.86%	82.42%	82.42%	62.0%	62.0%
徐 vs 李	100.0%	100.0%	100.0%	100.0%	80.0%	80.0%
徐 vs 黄	75.86%	75.86%	82.42%	82.42%	62.0%	62.0%
李 vs 黄	75.86%	75.86%	82.42%	82.42%	62.0%	62.0%

六组对比，核心指标完全一致。

上图左侧是原 123.exe 在 Windows 上运行导出的 HTML 报告，右侧是还原版在 macOS 上生成的报告，底部是还原版的 GUI 界面。可以看到两边的查重数据完全吻合。

需要注意的是，AIGC 疑似率、3D 语义空间坐标、CPU/RAM 等系统指标这些包含随机数的字段不在对比范围内——它们每次运行都会变，本身就不是确定性的结果。

附录：还原后的完整源码#

以下是从 123.exe 中逆向还原并修复后的完整 Python 源码：

点击展开完整源码（约 800 行）

1
import os, re, json, time, math, random, hashlib, sqlite3, threading, logging, difflib, tkinter as tk
2
from tkinter import ttk, filedialog, messagebox, scrolledtext
3
from docx import Document
4
from collections import defaultdict, Counter
5
from typing import List, Dict, Tuple, Optional, Set, Any
6
import numpy as np
7
try:
8
    import matplotlib
9
    matplotlib.use("TkAgg")
10
    import matplotlib.pyplot as plt
11
    from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg
12
    from matplotlib.figure import Figure
13
    from mpl_toolkits.mplot3d import Axes3D
14
    HAS_MPL = True
15
except ImportError:
16
    HAS_MPL = False
17
else:
18
    logging.basicConfig(level=(logging.INFO), format="%(asctime)s [%(levelname)s] %(message)s")
19
    logger = logging.getLogger("DeepAI-Checker-v6")
20
    BG_DARK = "#0d1117"
21
    BG_PANEL = "#161b22"
22
    BG_INPUT = "#010409"
23
    FG_NEON = "#00ffcc"
24
    FG_PINK = "#ff007f"
25
    FG_YELLOW = "#e3b341"
26
    FG_TEXT = "#c9d1d9"
27
    FG_DIM = "#8b949e"
28
    ACCENT_RED = "#f85149"
29
    ACCENT_GREEN = "#3fb950"
30
    CHUNK_SIZE = 8
31
    REPEAT_THRESHOLD = 50
32
    WINDOW_TITLE = "Deep-AI 学术不端检测与多维语义张量分析系统 v6.0"
33
    WINDOW_SIZE = "1400x900"
34
    FOLDER_REGEX = "^计科B230\\d+-爬虫与数据可视化-课程论文$"
35
    FILE_REGEX = "^.+-[\\d]+-.+-期末论文\\.docx$"
36
    STOP_WORDS = set("的了在我有和就都而及与或但很之于对让把被吗吧呢啊啦着过也你他她它这那要能会来且并即其若如")
37

38
    class SystemMonitor:
39
        """模拟底层硬件与张量计算监控指标"""
40

41
        @staticmethod
42
        def get_fake_metrics() -> Dict[(str, float)]:
43
            return {'cpu':(random.uniform)(45.0, 98.5),
44
             'ram':(random.uniform)(2.1, 7.8),
45
             'tensor_ops':(random.randint)(120000, 999999),
46
             'vram':(random.uniform)(1.2, 3.9)}
47

48

49
    class DeepLogger:
50
        """生成伪底层计算日志，增强专业压迫感"""
51
        PHASES = [
52
         "[AST_PARSER] 构建抽象语法树 (AST) 与依赖图解析...",
53
         "[TENSOR_CORE] 执行 SVD 奇异值分解，降维至 128 维语义空间...",
54
         "[LSH_ENGINE] 生成 MinHash 签名，应用 Banding 技术 (b=20, r=5)...",
55
         "[VSM_MAPPER] 计算 TF-IDF 稀疏矩阵，构建倒排索引...",
56
         "[DTW_ALIGN] 执行 Dynamic Time Warping 动态时间规整序列对齐...",
57
         "[ATTENTION] 应用 Multi-Head 自注意力机制，衰减因子 α=0.85...",
58
         "[AIGC_DETECT] 计算词汇信息熵与句法树深度，评估 AI 生成概率..."]
59

60
        @staticmethod
61
        def gen_fake_log() -> str:
62
            ops = [
63
             f"[0x{random.randint(1000, 9999):X}] Hash collision detected at bucket {random.randint(1, 256)}, resolving...",
64
             f"[MEM_ALLOC] Allocating {random.randint(16, 512)}MB for sparse tensor block...",
65
             f"[CUDA_SIM] Thread block {random.randint(0, 15)} synced. Processed {random.randint(1000, 9000)} tokens/sec.",
66
             f"[MATH_LIB] Computing cosine similarity in R^{random.choice([64, 128, 256])} space...",
67
             f"[GC_TRACE] Mark-and-sweep completed. Freed {random.randint(10, 99)}MB orphaned nodes.",
68
             f"[GPU_CTX] Context switch overhead: {random.uniform(0.1, 2.5)}ms. Stream 0 active.",
69
             f"[CACHE_L2] Miss rate: {random.uniform(1.0, 15.0)}%. Prefetching next batch...",
70
             "[MULTISET] Upgrading N-gram Set to Counter(Multiset) for exact 100% match guarantee..."]
71
            return random.choice(ops)
72

73

74
    class TextProcessor:
75
        """文本清洗、分词、特征提取核心工具类"""
76

77
        @staticmethod
78
        def clean_text(text: str) -> str:
79
            text = re.sub("http[s]?://\\S+", "", text)
80
            text = re.sub("\\[\\d+\\]", "", text)
81
            text = re.sub("[^\\u4e00-\\u9fa5]", "", text)
82
            return text
83

84
        @staticmethod
85
        def get_ngrams(text: str, n: int=8) -> List[str]:
86
            text = TextProcessor.clean_text(text)
87
            if len(text) >= n:
88
                return [text[i:i + n] for i in range(len(text) - n + 1)]
89
            return []
90

91
        @staticmethod
92
        def calc_entropy(text: str) -> float:
93
            if not text:
94
                return 0.0
95
            freq = Counter(text)
96
            length = len(text)
97
            return -sum((count / length * math.log2(count / length) for count in freq.values()))
98

99
        @staticmethod
100
        def calc_simhash(text: str, f: int=128) -> int:
101
            words = TextProcessor.clean_text(text)
102
            if not words:
103
                return 0
104
            v = [0] * f
105
            for i in range(len(words) - 1):
106
                word = words[i:i + 2]
107
                h = int(hashlib.md5(word.encode("utf-8")).hexdigest(), 16)
108
                for j in range(f):
109
                    if h >> j & 1:
110
                        v[j] += 1
111
                    else:
112
                        v[j] -= 1
113

114
                ans = 0
115

116
            for j in range(f):
117
                if v[j] > 0:
118
                    ans |= 1 << j
119
                return ans
120

121
        @staticmethod
122
        def split_sentences(text: str) -> List[str]:
123
            text = re.sub("([。！？\\?])([^"'])", "\\1\\n\\2", text)
124
            return [s.strip() for s in text.split("\n") if len(s.strip()) > 2]
125

126
        @staticmethod
127
        def calc_tfidf_vector(text: str, vocab: Dict[(str, int)]) -> np.ndarray:
128
            words = TextProcessor.clean_text(text)
129
            tf = Counter(words)
130
            vec = np.zeros(len(vocab))
131
            for (word, count) in tf.items():
132
                if word in vocab:
133
                    vec[vocab[word]] = count
134
                return vec
135

136

137
    class AIGCDetector:
138
        """基于齐普夫定律、句长方差和词汇丰富度的伪 AIGC 检测器"""
139

140
        def __init__(self, text: str):
141
            self.text = text
142
            self.sentences = TextProcessor.split_sentences(text)
143
            self.words = TextProcessor.clean_text(text)
144

145
        def calc_zipf_law(self) -> float:
146
            if not self.words:
147
                return 0.0
148
            freq = Counter(self.words).most_common(50)
149
            if len(freq) < 10:
150
                return 0.0
151
            ranks = np.arange(1, len(freq) + 1)
152
            counts = np.array([c for _, c in freq])
153
            log_ranks = np.log(ranks)
154
            log_counts = np.log(counts)
155
            (slope, _) = np.polyfit(log_ranks, log_counts, 1)
156
            return abs(slope)
157

158
        def calc_sentence_length_variance(self) -> float:
159
            if not self.sentences:
160
                return 0.0
161
            lengths = [len(s) for s in self.sentences]
162
            return np.var(lengths)
163

164
        def calc_vocabulary_richness(self) -> float:
165
            if not self.words:
166
                return 0.0
167
            unique_words = set(self.words)
168
            return len(unique_words) / len(self.words)
169

170
        def get_aigc_probability(self) -> float:
171
            zipf_score = self.calc_zipf_law()
172
            var_score = self.calc_sentence_length_variance()
173
            richness = self.calc_vocabulary_richness()
174
            prob = 50.0
175
            if 0.8 < zipf_score < 1.2:
176
                prob += 15.0
177
            if var_score < 20.0:
178
                prob += 15.0
179
            if richness < 0.3:
180
                prob += 10.0
181
            prob += random.uniform(-10, 10)
182
            return round(max(5.0, min(95.0, prob)), 1)
183

184

185
    class Paper:
186
        """论文数据模型，包含所有提取的特征"""
187

188
        def __init__(self, filename: str, filepath: str):
189
            self.filename = filename
190
            self.filepath = filepath
191
            self.raw_content = ""
192
            self.content = ""
193
            self.gram_list = []
194
            self.gram_counter = Counter()
195
            self.length = 0
196
            self.simhash = 0
197
            self.best_match = None
198
            self.best_rate = 0.0
199
            self.aigc_prob = 0.0
200
            self.entropy = 0.0
201
            self.vector_3d = (0.0, 0.0, 0.0)
202
            self.tfidf_vec = None
203

204
        def load(self, vocab: Optional[Dict[(str, int)]]=None):
205
            try:
206
                doc = Document(self.filepath)
207
                self.raw_content = "\n".join((p.text for p in doc.paragraphs))
208
                self.content = TextProcessor.clean_text(self.raw_content)
209
                self.gram_list = TextProcessor.get_ngrams(self.content, CHUNK_SIZE)
210
                self.gram_counter = Counter(self.gram_list)
211
                self.length = len(self.gram_list)
212
                self.simhash = TextProcessor.calc_simhash(self.content)
213
                self.entropy = TextProcessor.calc_entropy(self.content)
214
                detector = AIGCDetector(self.raw_content)
215
                self.aigc_prob = detector.get_aigc_probability()
216
                self.vector_3d = (
217
                 random.uniform(-10, 10), random.uniform(-10, 10), random.uniform(-10, 10))
218
                if vocab:
219
                    self.tfidf_vec = TextProcessor.calc_tfidf_vector(self.content, vocab)
220
            except Exception as e:
221
                try:
222
                    logger.error(f"Load failed for {self.filename}: {e}")
223
                finally:
224
                    e = None
225
                    del e
226

227

228
    class DeepCheckerEngine:
229
        """多维算法融合查重引擎"""
230

231
        def __init__(self, papers: List[Paper], weights: Tuple[(float, float, float)]=(0.6, 0.2, 0.2)):
232
            self.papers = papers
233
            self.results = []
234
            self.vocab = {}
235
            self.idf = np.array([])
236
            self.weights = weights
237
            self._build_vocab()
238

239
        def _build_vocab(self):
240
            all_words = set()
241
            for p in self.papers:
242
                all_words.update(TextProcessor.clean_text(p.content))
243

244
            self.vocab = {w: i for i, w in enumerate(all_words)}
245
            n_docs = len(self.papers)
246
            df = np.zeros(len(self.vocab))
247
            for p in self.papers:
248
                words = set(TextProcessor.clean_text(p.content))
249
                for w in words:
250
                    if w in self.vocab:
251
                        df[self.vocab[w]] += 1
252

253
                self.idf = np.log((n_docs + 1) / (df + 1)) + 1
254

255
        def calc_ngram_rate(self, a: Paper, b: Paper) -> float:
256
            """【核心修复】使用多重集(Counter)计算交集，确保相同文档重复率为 100%"""
257
            if a.length == 0:
258
                return 0.0
259
            if a.content == b.content:
260
                return 100.0
261
            match_count = sum((a.gram_counter & b.gram_counter).values())
262
            return round(match_count / a.length * 100, 2)
263

264
        def calc_simhash_rate(self, a: Paper, b: Paper) -> float:
265
            if not (a.simhash and b.simhash):
266
                return 0.0
267
            if a.content == b.content:
268
                return 100.0
269
            x = (a.simhash ^ b.simhash) & (1 << 128) - 1
270
            dist = bin(x).count("1")
271
            return round(max(0, 100 - dist / 128 * 100 * 2.5), 2)
272

273
        def calc_cosine_rate(self, a: Paper, b: Paper) -> float:
274
            if a.tfidf_vec is None or b.tfidf_vec is None:
275
                return 0.0
276
            if a.content == b.content:
277
                return 100.0
278
            vec_a = a.tfidf_vec * self.idf
279
            vec_b = b.tfidf_vec * self.idf
280
            dot = np.dot(vec_a, vec_b)
281
            norm_a = np.linalg.norm(vec_a)
282
            norm_b = np.linalg.norm(vec_b)
283
            if norm_a == 0 or norm_b == 0:
284
                return 0.0
285
            return round(dot / (norm_a * norm_b) * 100, 2)
286

287
        def run(self, update_ui, log_callback):
288
            n = len(self.papers)
289
            total = n * (n - 1) // 2
290
            current = 0
291
            (w1, w2, w3) = self.weights
292
            for p in self.papers:
293
                p.best_rate = 0.0
294
                p.best_match = None
295

296
            for i in range(n):
297
                a = self.papers[i]
298
                for j in range(i + 1, n):
299
                    b = self.papers[j]
300
                    if a.raw_content == b.raw_content:
301
                        r_ngram = 100.0
302
                        r_simhash = 100.0
303
                        r_cosine = 100.0
304
                        final_rate = 100.0
305
                    else:
306
                        r_ngram = max(self.calc_ngram_rate(a, b), self.calc_ngram_rate(b, a))
307
                        r_simhash = self.calc_simhash_rate(a, b)
308
                        r_cosine = self.calc_cosine_rate(a, b)
309
                        final_rate = round(r_ngram * w1 + r_simhash * w2 + r_cosine * w3, 2)
310
                    if final_rate > a.best_rate:
311
                        a.best_rate = final_rate
312
                        a.best_match = b.filename
313
                    if final_rate > b.best_rate:
314
                        b.best_rate = final_rate
315
                        b.best_match = a.filename
316
                    self.results.append({'p1':a.filename,
317
                     'p2':b.filename, 'ngram':r_ngram,
318
                     'simhash':r_simhash, 'cosine':r_cosine, 'final':final_rate})
319
                    if final_rate > 20:
320
                        force = final_rate / 100.0
321
                        (ax, ay, az) = a.vector_3d
322
                        (bx, by, bz) = b.vector_3d
323
                        a.vector_3d = (
324
                         ax + (bx - ax) * force * 0.1,
325
                         ay + (by - ay) * force * 0.1,
326
                         az + (bz - az) * force * 0.1)
327
                        b.vector_3d = (
328
                         bx + (ax - bx) * force * 0.1,
329
                         by + (ay - by) * force * 0.1,
330
                         bz + (az - bz) * force * 0.1)
331
                    current += 1
332
                    progress = int(current / total * 100)
333
                    update_ui(progress, a.filename, b.filename)
334
                    if current % 3 == 0:
335
                        log_callback(DeepLogger.gen_fake_log(), "dim")
336

337

338
    class DatabaseManager:
339

340
        def __init__(self, db_path: str='deep_ai_history_v6.db'):
341
            self.conn = sqlite3.connect(db_path)
342
            self._create_tables()
343

344
        def _create_tables(self):
345
            cursor = self.conn.cursor()
346
            cursor.execute("CREATE TABLE IF NOT EXISTS scan_history (\n            id INTEGER PRIMARY KEY AUTOINCREMENT, timestamp TEXT, folder TEXT, \n            total_papers INTEGER, avg_rate REAL, max_rate REAL, aigc_count INTEGER)")
347
            cursor.execute("CREATE TABLE IF NOT EXISTS scan_results (\n            id INTEGER PRIMARY KEY AUTOINCREMENT, batch_id INTEGER, \n            paper1 TEXT, paper2 TEXT, rate REAL)")
348
            self.conn.commit()
349

350
        def insert_batch(self, folder, total, avg, mx, aigc):
351
            cursor = self.conn.cursor()
352
            ts = time.strftime("%Y-%m-%d %H:%M:%S")
353
            cursor.execute("INSERT INTO scan_history (timestamp, folder, total_papers, avg_rate, max_rate, aigc_count) VALUES (?,?,?,?,?,?)", (
354
             ts, folder, total, avg, mx, aigc))
355
            self.conn.commit()
356
            return cursor.lastrowid
357

358
        def insert_results(self, batch_id: int, results: List[Dict]):
359
            cursor = self.conn.cursor()
360
            data = [(batch_id, r["p1"], r["p2"], r["final"]) for r in results]
361
            cursor.executemany("INSERT INTO scan_results (batch_id, paper1, paper2, rate) VALUES (?,?,?,?)", data)
362
            self.conn.commit()
363

364
        def get_history(self) -> List[Tuple]:
365
            cursor = self.conn.cursor()
366
            cursor.execute("SELECT * FROM scan_history ORDER BY id DESC LIMIT 50")
367
            return cursor.fetchall()
368

369

370
    class ExportManager:
371

372
        @staticmethod
373
        def generate_html(results: List[Dict], papers: List[Paper], filepath: str):
374
            html = '<!DOCTYPE html><html lang="zh-CN"><head><meta charset="UTF-8">\n<title>Deep-AI 学术不端检测报告</title>\n<style>\nbody { font-family: \'Segoe UI\', sans-serif; background: #0d1117; color: #c9d1d9; padding: 20px; }\nh1 { color: #00ffcc; text-align: center; border-bottom: 2px solid #ff007f; padding-bottom: 10px; }\nh2 { color: #ff007f; margin-top: 30px; }\ntable { width: 100%; border-collapse: collapse; margin-top: 15px; background: #161b22; }\nth, td { border: 1px solid #30363d; padding: 10px; text-align: center; }\nth { background: #010409; color: #00ffcc; }\n.danger { color: #f85149; font-weight: bold; } .safe { color: #3fb950; font-weight: bold; }\n</style></head><body>\n<h1>◈ Deep-AI 学术不端检测与多维语义张量分析报告</h1>\n<h2>1. 两两对比详细数据</h2><table>\n<tr><th>论文 A</th><th>论文 B</th><th>N-gram(%)</th><th>SimHash(%)</th><th>Cosine(%)</th><th>综合(%)</th></tr>'
375
            for r in results:
376
                cls = "danger" if r["final"] >= REPEAT_THRESHOLD else "safe"
377
                html += f"""<tr><td>{r["p1"]}</td><td>{r["p2"]}</td><td>{r["ngram"]}</td><td>{r["simhash"]}</td><td>{r["cosine"]}</td><td class='{cls}'>{r["final"]}%</td></tr>\n"""
378

379
            html += "</table><h2>2. 单篇最高重复与 AIGC 风险评估</h2><table>"
380
            html += "<tr><th>文件名</th><th>最高重复对象</th><th>综合(%)</th><th>AIGC(%)</th><th>裁决</th></tr>\n"
381
            for p in papers:
382
                best = p.best_match or "无"
383
                rate_cls = "danger" if p.best_rate >= REPEAT_THRESHOLD else "safe"
384
                verdict = "<span class='danger'>⚠ 学术不端</span>" if p.best_rate >= REPEAT_THRESHOLD else "<span class='safe'>✅ 正常</span>"
385
                html += f"<tr><td>{p.filename}</td><td>{best}</td><td class='{rate_cls}'>{p.best_rate}%</td><td>{p.aigc_prob}%</td><td>{verdict}</td></tr>\n"
386

387
            html += "</table></body></html>"
388
            with open(filepath, "w", encoding="utf-8") as f:
389
                f.write(html)
390

391

392
    class DiffViewer(tk.Toplevel):
393
        """使用 difflib 实现逐字高亮对比的独立窗口"""
394

395
        def __init__(self, parent, p1, p2):
396
            super().__init__(parent)
397
            self.title(f"深度差异比对: {p1.filename} vs {p2.filename}")
398
            self.geometry("1000x600")
399
            self.configure(bg=BG_DARK)
400
            self.p1, self.p2 = p1, p2
401
            self.create_ui()
402
            self.compute_diff()
403

404
        def create_ui(self):
405
            paned = ttk.PanedWindow(self, orient=(tk.HORIZONTAL))
406
            paned.pack(fill=(tk.BOTH), expand=True, padx=10, pady=10)
407
            f1 = tk.Frame(paned, bg=BG_PANEL)
408
            f2 = tk.Frame(paned, bg=BG_PANEL)
409
            paned.add(f1, weight=1)
410
            paned.add(f2, weight=1)
411
            tk.Label(f1, text=(self.p1.filename), bg=BG_PANEL, fg=FG_NEON,
412
              font=('微软雅黑', 11, 'bold')).pack(pady=5)
413
            tk.Label(f2, text=(self.p2.filename), bg=BG_PANEL, fg=FG_PINK,
414
              font=('微软雅黑', 11, 'bold')).pack(pady=5)
415
            self.text1 = scrolledtext.ScrolledText(f1, bg=BG_INPUT, fg=FG_TEXT,
416
              font=('Consolas', 10), wrap=(tk.WORD))
417
            self.text1.pack(fill=(tk.BOTH), expand=True, padx=5, pady=5)
418
            self.text2 = scrolledtext.ScrolledText(f2, bg=BG_INPUT, fg=FG_TEXT,
419
              font=('Consolas', 10), wrap=(tk.WORD))
420
            self.text2.pack(fill=(tk.BOTH), expand=True, padx=5, pady=5)
421
            self.text1.tag_config("match", background="#2ea043", foreground="white")
422
            self.text2.tag_config("match", background="#2ea043", foreground="white")
423
            self.text1.tag_config("diff", background="#f85149", foreground="white")
424
            self.text2.tag_config("diff", background="#f85149", foreground="white")
425

426
        def compute_diff(self):
427
            self.text1.insert(tk.END, self.p1.content)
428
            self.text2.insert(tk.END, self.p2.content)
429
            matcher = difflib.SequenceMatcher(None, self.p1.content, self.p2.content)
430
            for (tag, i1, i2, j1, j2) in matcher.get_opcodes():
431
                if tag == "equal":
432
                    self.text1.tag_add("match", f"1.0+{i1}c", f"1.0+{i2}c")
433
                    self.text2.tag_add("match", f"1.0+{j1}c", f"1.0+{j2}c")
434
                else:
435
                    if tag in ('replace', 'delete', 'insert'):
436
                        if i1 != i2:
437
                            self.text1.tag_add("diff", f"1.0+{i1}c", f"1.0+{i2}c")
438
                        if j1 != j2:
439
                            self.text2.tag_add("diff", f"1.0+{j1}c", f"1.0+{j2}c")
440

441

442
    class CyberTerminal(scrolledtext.ScrolledText):
443

444
        def __init__(self, parent, **kwargs):
445
            (super().__init__)(parent, bg=BG_INPUT, fg=FG_NEON, insertbackground=FG_NEON,
446
             font=('Consolas', 10), relief=tk.FLAT, borderwidth=0, **kwargs)
447
            self.tag_config("info", foreground=FG_TEXT)
448
            self.tag_config("success", foreground=ACCENT_GREEN)
449
            self.tag_config("warning", foreground=FG_YELLOW)
450
            self.tag_config("error", foreground=ACCENT_RED)
451
            self.tag_config("dim", foreground=FG_DIM)
452
            self.tag_config("phase", foreground=FG_PINK, font=('Consolas', 10, 'bold'))
453

454
        def log(self, msg: str, tag: str='info'):
455
            self.insert(tk.END, f"> {msg}\n", tag)
456
            self.see(tk.END)
457

458

459
    class MetricPanel(tk.Frame):
460

461
        def __init__(self, parent, title, color, **kwargs):
462
            (super().__init__)(parent, bg=BG_PANEL, **kwargs)
463
            tk.Label(self, text=title, bg=BG_PANEL, fg=FG_DIM,
464
              font=('Consolas', 9)).pack(anchor=(tk.W), padx=5)
465
            self.val_label = tk.Label(self, text="0.0", bg=BG_PANEL, fg=color,
466
              font=('Consolas', 18, 'bold'))
467
            self.val_label.pack(anchor=(tk.W), padx=5)
468

469
        def update_val(self, val: str, suffix: str=''):
470
            self.val_label.config(text=f"{val}{suffix}")
471

472

473
    class MainApplication(tk.Tk):
474

475
        def __init__(self):
476
            super().__init__()
477
            self.title(WINDOW_TITLE)
478
            self.geometry(WINDOW_SIZE)
479
            self.configure(bg=BG_DARK)
480
            self.minsize(1200, 800)
481
            self.papers = []
482
            self.engine = None
483
            self.db_mgr = DatabaseManager()
484
            self.weights = (0.6, 0.2, 0.2)
485
            self.create_ui()
486
            self.start_metric_updater()
487

488
        def create_ui(self):
489
            header = tk.Frame(self, bg=BG_PANEL, height=70)
490
            header.pack(fill=(tk.X))
491
            header.pack_propagate(False)
492
            tk.Label(header, text="◈ DEEP-AI 学术不端检测与多维语义张量分析系统",
493
              bg=BG_PANEL, fg=FG_NEON,
494
              font=('微软雅黑', 20, 'bold')).pack(side=(tk.LEFT), padx=20, pady=15)
495
            tk.Label(header, text="v6.0 Multiset Counter Fix | 100% Symmetry Guaranteed",
496
              bg=BG_PANEL, fg=FG_DIM,
497
              font=('Consolas', 10)).pack(side=(tk.LEFT), pady=25)
498
            monitor_frame = tk.Frame(header, bg=BG_PANEL)
499
            monitor_frame.pack(side=(tk.RIGHT), padx=20, pady=10)
500
            self.cpu_panel = MetricPanel(monitor_frame, "CPU LOAD", FG_PINK)
501
            self.cpu_panel.grid(row=0, column=0, padx=10)
502
            self.ram_panel = MetricPanel(monitor_frame, "RAM USAGE", FG_YELLOW)
503
            self.ram_panel.grid(row=0, column=1, padx=10)
504
            self.tensor_panel = MetricPanel(monitor_frame, "TENSOR OPS", FG_NEON)
505
            self.tensor_panel.grid(row=0, column=2, padx=10)
506
            body = tk.Frame(self, bg=BG_DARK)
507
            body.pack(fill=(tk.BOTH), expand=True, padx=10, pady=10)
508
            left_frame = tk.Frame(body, bg=BG_PANEL, width=450)
509
            left_frame.pack(side=(tk.LEFT), fill=(tk.Y), padx=(0, 10))
510
            left_frame.pack_propagate(False)
511
            ctrl_frame = tk.LabelFrame(left_frame, text=" [ 任务控制台 ] ",
512
              bg=BG_PANEL, fg=FG_NEON,
513
              font=('微软雅黑', 11, 'bold'))
514
            ctrl_frame.pack(fill=(tk.X), padx=10, pady=10)
515
            self.path_var = tk.StringVar(value="未挂载数据目录...")
516
            tk.Entry(ctrl_frame, textvariable=(self.path_var), bg=BG_INPUT, fg=FG_TEXT,
517
              font=('Consolas', 10), relief=(tk.FLAT),
518
              state="readonly").pack(fill=(tk.X), padx=10, pady=(10, 5))
519
            btn_frame = tk.Frame(ctrl_frame, bg=BG_PANEL)
520
            btn_frame.pack(fill=(tk.X), padx=10, pady=5)
521
            self.load_btn = tk.Button(btn_frame, text="⬡ 挂载目录",
522
              command=(self.load_folder), bg=BG_INPUT, fg=FG_NEON,
523
              font=('微软雅黑', 10), relief=(tk.FLAT))
524
            self.load_btn.pack(side=(tk.LEFT), expand=True, fill=(tk.X), padx=(0, 5))
525
            self.start_btn = tk.Button(btn_frame, text="▶ 启动深度查重",
526
              command=(self.start_check), bg=FG_PINK, fg="white",
527
              font=('微软雅黑', 10, 'bold'), relief=(tk.FLAT), state=(tk.DISABLED))
528
            self.start_btn.pack(side=(tk.LEFT), expand=True, fill=(tk.X), padx=(5, 0))
529
            tk.Button(ctrl_frame, text="💾 导出 HTML 报告",
530
              command=(self.export_report), bg=BG_INPUT, fg=FG_YELLOW,
531
              font=('微软雅黑', 10), relief=(tk.FLAT)).pack(fill=(tk.X), padx=10, pady=5)
532
            prog_frame = tk.LabelFrame(left_frame, text=" [ 计算管线状态 ] ",
533
              bg=BG_PANEL, fg=FG_NEON,
534
              font=('微软雅黑', 11, 'bold'))
535
            prog_frame.pack(fill=(tk.X), padx=10, pady=10)
536
            self.phase_label = tk.Label(prog_frame, text="IDLE", bg=BG_PANEL, fg=FG_YELLOW,
537
              font=('Consolas', 10, 'bold'))
538
            self.phase_label.pack(anchor=(tk.W), padx=10, pady=(10, 0))
539
            self.prog_var = tk.DoubleVar()
540
            ttk.Progressbar(prog_frame, variable=(self.prog_var),
541
              maximum=100).pack(fill=(tk.X), padx=10, pady=10)
542
            self.prog_label = tk.Label(prog_frame, text="0%", bg=BG_PANEL, fg=FG_TEXT,
543
              font=('Consolas', 10))
544
            self.prog_label.pack(anchor=(tk.E), padx=10, pady=(0, 10))
545
            term_frame = tk.LabelFrame(left_frame, text=" [ 底层计算日志 ] ",
546
              bg=BG_PANEL, fg=FG_NEON,
547
              font=('微软雅黑', 11, 'bold'))
548
            term_frame.pack(fill=(tk.BOTH), expand=True, padx=10, pady=10)
549
            self.terminal = CyberTerminal(term_frame)
550
            self.terminal.pack(fill=(tk.BOTH), expand=True, padx=5, pady=5)
551
            right_frame = tk.Frame(body, bg=BG_PANEL)
552
            right_frame.pack(side=(tk.LEFT), fill=(tk.BOTH), expand=True)
553
            style = ttk.Style(self)
554
            style.theme_use("clam")
555
            style.configure("Dark.TNotebook", background=BG_PANEL, borderwidth=0)
556
            style.configure("Dark.TNotebook.Tab", background=BG_INPUT, foreground=FG_TEXT,
557
              padding=[15, 8], font=('微软雅黑', 11))
558
            style.map("Dark.TNotebook.Tab",
559
              background=[("selected", BG_PANEL)],
560
              foreground=[("selected", FG_NEON)])
561
            self.notebook = ttk.Notebook(right_frame, style="Dark.TNotebook")
562
            self.notebook.pack(fill=(tk.BOTH), expand=True, padx=10, pady=10)
563
            self.tab_3d = tk.Frame((self.notebook), bg=BG_PANEL)
564
            self.tab_topo = tk.Frame((self.notebook), bg=BG_PANEL)
565
            self.tab_report = tk.Frame((self.notebook), bg=BG_PANEL)
566
            self.notebook.add((self.tab_3d), text=" 🌌 3D 语义空间 ")
567
            self.notebook.add((self.tab_topo), text=" 🕸️ 拓扑网络 ")
568
            self.notebook.add((self.tab_report), text=" 📜 裁决报告 ")
569
            self.setup_report_tab()
570
            self.status_var = tk.StringVar(value="SYSTEM READY | AWAITING DATA INJECTION...")
571
            tk.Label(self, textvariable=(self.status_var), bg=BG_INPUT, fg=FG_DIM,
572
              font=('Consolas', 10), anchor=(tk.W),
573
              padx=10).pack(fill=(tk.X), side=(tk.BOTTOM))
574

575
        def setup_report_tab(self):
576
            cols = ('论文文件', '最高重复对象', '综合重复率(%)', 'AIGC 疑似率(%)', '信息熵', '裁决结果')
577
            tree_frame = tk.Frame((self.tab_report), bg=BG_PANEL)
578
            tree_frame.pack(fill=(tk.BOTH), expand=True, padx=10, pady=10)
579
            self.report_tree = ttk.Treeview(tree_frame, columns=cols,
580
              show="headings", height=20)
581
            style = ttk.Style()
582
            style.configure("Cyber.Treeview", background=BG_INPUT, foreground=FG_TEXT,
583
              fieldbackground=BG_INPUT, font=('Consolas', 10))
584
            style.configure("Cyber.Treeview.Heading", background=BG_PANEL,
585
              foreground=FG_NEON, font=('微软雅黑', 10, 'bold'))
586
            style.map("Cyber.Treeview", background=[("selected", FG_PINK)])
587
            self.report_tree.configure(style="Cyber.Treeview")
588
            for col in cols:
589
                self.report_tree.heading(col, text=col)
590
                self.report_tree.column(col, width=180, anchor=(tk.CENTER))
591

592
            vsb = ttk.Scrollbar(tree_frame, orient="vertical",
593
              command=(self.report_tree.yview))
594
            self.report_tree.configure(yscrollcommand=(vsb.set))
595
            self.report_tree.pack(side=(tk.LEFT), fill=(tk.BOTH), expand=True)
596
            vsb.pack(side=(tk.RIGHT), fill=(tk.Y))
597
            self.report_tree.bind("<Double-1>", self.on_tree_double_click)
598

599
        def start_metric_updater(self):
600

601
            def update():
602
                m = SystemMonitor.get_fake_metrics()
603
                self.cpu_panel.update_val(f'{m["cpu"]:.1f}', "%")
604
                self.ram_panel.update_val(f'{m["ram"]:.1f}', " GB")
605
                self.tensor_panel.update_val(f'{m["tensor_ops"]:,}', " /s")
606
                self.after(800, update)
607

608
            update()
609

610
        def log(self, msg: str, tag: str='info'):
611
            self.terminal.log(msg, tag)
612
            self.update_idletasks()
613

614
        def load_folder(self):
615
            path = filedialog.askdirectory()
616
            if not path:
617
                return
618
            dirname = os.path.basename(path)
619
            if not re.match(FOLDER_REGEX, dirname):
620
                messagebox.showwarning("⚠ 目录规范警告",
621
                  f"非标准目录: {dirname}\n系统将强制解析...")
622
            self.path_var.set(path)
623
            self.log(f"MOUNT_SUCCESS: 数据目录已挂载 -> {dirname}", "success")
624
            self.load_papers(path)
625

626
        def load_papers(self, path: str):
627
            self.papers = []
628
            files = [f for f in os.listdir(path)
629
              if f.endswith(".docx") if re.match(FILE_REGEX, f)]
630
            if not files:
631
                self.log("FATAL_ERROR: 未检测到符合规范的 .docx 实体文件。", "error")
632
                return
633
            self.log(f"SCANNING: 发现 {len(files)} 个目标文档，开始注入内存...", "phase")
634
            for f in files:
635
                p = Paper(f, os.path.join(path, f))
636
                p.load()
637
                if p.length > 0:
638
                    self.papers.append(p)
639
                    self.log(f"  [OK] Loaded: {f} | Tokens: {len(p.content)} | Multiset-grams: {p.length}", "info")
640
                else:
641
                    self.log(f"  [FAIL] Empty or corrupted: {f}", "error")
642

643
            self.log(f"INJECTION_COMPLETE: {len(self.papers)} 个文档张量已就绪。", "success")
644
            self.start_btn.config(state=(tk.NORMAL))
645

646
        def update_progress(self, p: int, a: str, b: str):
647
            self.prog_var.set(p)
648
            self.prog_label.config(text=f"{p}%")
649
            self.status_var.set(f"EXECUTING: {a} ⟷ {b}")
650

651
        def start_check(self):
652
            if len(self.papers) < 2:
653
                messagebox.showwarning("提示", "张量数量不足，至少需要 2 个文档实体。")
654
                return
655
            self.start_btn.config(state=(tk.DISABLED))
656
            self.load_btn.config(state=(tk.DISABLED))
657
            (self.report_tree.delete)(*self.report_tree.get_children())
658
            self.log("==================================================", "phase")
659
            self.log("INITIATING DEEP TENSOR PLAGIARISM SCAN...", "phase")
660
            self.log("ALGORITHM: N-gram Multiset Counter (100% Symmetry Fix)", "phase")
661
            self.log("==================================================", "phase")
662
            self.engine = DeepCheckerEngine(self.papers, self.weights)
663

664
            def run_pipeline():
665
                for phase in DeepLogger.PHASES:
666
                    self.after(0, lambda p=phase: self.phase_label.config(text=p))
667
                    self.after(0, lambda p=phase: self.log(p, "phase"))
668
                    time.sleep(random.uniform(0.2, 0.5))
669

670
                self.after(0, lambda: self.phase_label.config(
671
                  text="[CORE] 执行多维张量碰撞与对齐..."))
672
                self.engine.run(self.update_progress,
673
                  lambda msg, tag: self.after(0, lambda: self.log(msg, tag)))
674
                self.after(0, self.finish_check)
675

676
            threading.Thread(target=run_pipeline, daemon=True).start()
677

678
        def finish_check(self):
679
            self.log("RENDER_COMPLETE: 正在生成多维可视化图表...", "success")
680
            for p in self.papers:
681
                best = p.best_match or "无 (独立原创)"
682
                rate = p.best_rate
683
                aigc = p.aigc_prob
684
                entropy = round(p.entropy, 2)
685
                verdict = "⚠ 严重学术不端" if rate >= REPEAT_THRESHOLD else "✅ 正常通过"
686
                self.report_tree.insert("", (tk.END),
687
                  values=(p.filename, best, rate, aigc, entropy, verdict))
688

689
            if HAS_MPL:
690
                self.draw_3d_space()
691
                self.draw_topology()
692
            rates = [r["final"] for r in self.engine.results]
693
            avg_rate = sum(rates) / len(rates) if rates else 0
694
            max_rate = max(rates) if rates else 0
695
            aigc_count = sum((1 for p in self.papers if p.aigc_prob > 70))
696
            batch_id = self.db_mgr.insert_batch(
697
              os.path.basename(self.path_var.get()),
698
              len(self.papers), avg_rate, max_rate, aigc_count)
699
            self.db_mgr.insert_results(batch_id, self.engine.results)
700
            self.log("ALL_TASKS_FINISHED: 检测管线已关闭。系统进入待机状态。", "success")
701
            self.phase_label.config(text="IDLE")
702
            self.start_btn.config(state=(tk.NORMAL))
703
            self.load_btn.config(state=(tk.NORMAL))
704
            self.status_var.set("SCAN COMPLETE | AWAITING NEXT INJECTION...")
705
            self.notebook.select(self.tab_report)
706

707
        def on_tree_double_click(self, event):
708
            item = self.report_tree.selection()
709
            if not item:
710
                return
711
            vals = self.report_tree.item(item[0], "values")
712
            p1_name = vals[0]
713
            p2_name = vals[1]
714
            if p2_name == "无 (独立原创)":
715
                return
716
            p1 = next((p for p in self.papers if p.filename == p1_name), None)
717
            p2 = next((p for p in self.papers if p.filename == p2_name), None)
718
            if p1:
719
                if p2:
720
                    DiffViewer(self, p1, p2)
721

722
        def export_report(self):
723
            if not self.engine:
724
                messagebox.showwarning("提示", "没有可导出的查重结果。")
725
                return
726
            path = filedialog.asksaveasfilename(defaultextension=".html",
727
              filetypes=[('HTML Report', '*.html')])
728
            if path:
729
                ExportManager.generate_html(self.engine.results, self.papers, path)
730
                messagebox.showinfo("成功", f"报告已导出至:\n{path}")
731

732
        def draw_3d_space(self):
733
            for widget in self.tab_3d.winfo_children():
734
                widget.destroy()
735

736
            fig = Figure(figsize=(8, 6), dpi=100, facecolor=BG_PANEL)
737
            ax = fig.add_subplot(111, projection="3d")
738
            ax.set_facecolor(BG_DARK)
739
            xs = [p.vector_3d[0] for p in self.papers]
740
            ys = [p.vector_3d[1] for p in self.papers]
741
            zs = [p.vector_3d[2] for p in self.papers]
742
            colors = [ACCENT_RED if p.best_rate >= REPEAT_THRESHOLD
743
              else FG_NEON for p in self.papers]
744
            ax.scatter(xs, ys, zs, c=colors, s=50, marker="o", edgecolors="white")
745
            for (i, p) in enumerate(self.papers):
746
                ax.text((xs[i]), (ys[i]), (zs[i]), (p.filename[:8]),
747
                  color=FG_TEXT, fontsize=8)
748

749
            ax.set_title("3D Semantic Space Mapping", color=FG_NEON, fontsize=14)
750
            canvas = FigureCanvasTkAgg(fig, master=(self.tab_3d))
751
            canvas.draw()
752
            canvas.get_tk_widget().pack(fill=(tk.BOTH), expand=True)
753

754
        def draw_topology(self):
755
            for widget in self.tab_topo.winfo_children():
756
                widget.destroy()
757

758
            fig = Figure(figsize=(8, 6), dpi=100, facecolor=BG_PANEL)
759
            ax = fig.add_subplot(111)
760
            ax.set_facecolor(BG_DARK)
761
            ax.set_aspect("equal")
762
            ax.axis("off")
763
            n = len(self.papers)
764
            if n == 0:
765
                return
766
            pos = {i: (math.cos(2 * math.pi * i / n),
767
              math.sin(2 * math.pi * i / n)) for i in range(n)}
768
            for (i, p) in enumerate(self.papers):
769
                (x, y) = pos[i]
770
                color = ACCENT_RED if p.best_rate >= REPEAT_THRESHOLD else FG_NEON
771
                ax.scatter(x, y, s=300, c=color, edgecolors="white", zorder=5)
772
                ax.text(x, (y - 0.15), (p.filename[:8]),
773
                  color=FG_TEXT, fontsize=9, ha="center")
774

775
            for r in self.engine.results:
776
                if r["final"] > 15:
777
                    i = next((idx for idx, p in enumerate(self.papers)
778
                      if p.filename == r["p1"]))
779
                    j = next((idx for idx, p in enumerate(self.papers)
780
                      if p.filename == r["p2"]))
781
                    (x1, y1) = pos[i]
782
                    (x2, y2) = pos[j]
783
                    color = ACCENT_RED if r["final"] >= REPEAT_THRESHOLD else FG_YELLOW
784
                    ax.plot([x1, x2], [y1, y2], color=color,
785
                      linewidth=(r["final"] / 20),
786
                      alpha=(min(1.0, r["final"] / 50)))
787
                ax.set_title("Plagiarism Topology Network", color=FG_NEON, fontsize=14)
788
                canvas = FigureCanvasTkAgg(fig, master=(self.tab_topo))
789
                canvas.draw()
790
                canvas.get_tk_widget().pack(fill=(tk.BOTH), expand=True)
791

792

793
    if __name__ == "__main__":
794
        try:
795
            from ctypes import windll
796
            windll.shcore.SetProcessDpiAwareness(1)
797
        except Exception:
798
            pass
799
        else:
800
            app = MainApplication()
801
            app.mainloop()