为何每次的论文查重检测结果都不相同？

同一篇论文，明明内容没大改动，为什么前后论文查重结果就是不一样呢？这里面有几个实实在在的原因：

查重系统数据库不同（最大原因）：不同的查重系统背后依赖的数据库资源千差万别。想想看：

有的系统收录的期刊论文特别全，但对网络资源关注少。

有的系统专门收录大量学位论文，对期刊反倒没那么全。

网络资源（网页、论坛、博客）变动更快，今天还能搜到的资料，明天可能就删了，不同系统抓取网络资源的广度和时效也不同。

你用的可能是学校指定的系统，也可能是市面上随便找的平台。不同的平台，数据库就不同。查同一篇论文，一个系统发现你的内容和它数据库里的一篇特定文章重复，结果就高了；另一个系统数据库里没有那篇文章，结果自然就低了。就像你用不同的搜索引擎搜同一个词，结果页面肯定不一样，因为它们的索引库不同。

数据库在实时更新（重要动态因素）：查重系统的数据库不是固定不变的，它就像在持续生长的树。每天都在不断收录新的论文、出版物、网页内容进去。假设你今天查重一次，结果挺好。过了一周，恰好有一篇论文发表，内容刚好和你论文某部分很相似，被系统收入数据库。你下周再用同一个系统查一次，重复率就可能会上涨。哪怕你根本没动过自己的论文，别人发表的新东西也可能让你的结果增加。时间间隔越长，这种可能性越大。

查重规则和算法差异（技术原因）：每个查重系统判断“重复”的规则不完全一样。这包括：

最低字数阈值：多少连续的字被判定为抄袭？有的是5个字，有的可能是7个字或者不同。阈值小一点，更容易被标红。

忽略内容设定：是否自动排除引文？是否排除参考文献列表？是查全文还是只查正文？这些选项设置不同，结果可能差别巨大。设置了排除参考文献，重复率就低一些；没排除，参考文献里大量重复书名作者就计入总重复率了。

算不算引用格式：有些系统严格区分正规引用的内容和疑似抄袭的内容，有些系统可能识别能力弱一点，会把正确引用的内容也算成重复。

算法本身（比如比对的“严格程度”）：背后的匹配算法细节不同，可能导致对相似度的计算略有偏差。有点像不同人看同一段文字，对是否“抄袭”的标准有点主观差异（虽然系统是程序）。

你自己对论文的细微修改（自身原因）：你可能觉得这次改动的只是几个词、调了个句子顺序、把一大段拆成几小段（或反过来合并），感觉改得不多。但查重系统是按连续字符匹配的：

你调换段落位置，原本没被标红的一段新位置可能恰好触碰了数据库的某篇内容。

你改动的那几个词，可能刚好破坏了一个长重复片段的连续性，让系统不认为是抄袭了。

你删除或增加了一句话，会改变文本的整体结构，影响匹配结果。

有时候改个说法，反而跟系统库里的另一种说法对上了。这种小修改带来的结果波动很常见。

提交格式问题：

上传的是 Word 还是 PDF？系统处理这俩文件的方式很不一样。PDF 是“图片化”处理，系统要用OCR文字识别来认字，识别过程会出错（乱码、漏字、格式串行），这些错误会破坏原本的连续字符，导致原本可能重复的地方没检测出来，或者不该重复的地方被算重复。Word格式通常识别更准确。