论文查重是根据什么来判断重复?
目前高校使用率最高的论文查重系统是知网,那对于论文查重率,很多人也存在着各种疑问,论文查重到底是根据什么来判断重复的?
首先系统按照换行符来把文章切分成段落,其次按照标点符号把段落分成句子,最后再分别把句子进行检测。论文的查重粒度是句子,2个句子的相似度主要取决于句子包含的词和词在句子中的位置。现在句子相似度还只有文字上的对比,没有考虑语义上的相似,如果做到语义上的查重,那就没办法改重了。
总体相似度=相似字数/检测字,被系统自动识别出来的非正文部分(如目录,标题,公式,图表,参考文献等)不参与检测,检测字数一般略小于论文字数。相似字数=(句子1字数*句子1相似度+句子2字数*句子2相似度+......+句子n字数*句子n相似度),句子相似度范围0.00~1.00,绿色句子相似度按照0计算。
1、一般知网查重只检测文字部分,并且最多的是识别引用内容与表格数据,但对于图片、编辑后的公式、代码是检测不到的,所以大家在查重时可以注意下这些。
2、在知网查重系统后,抄袭内容会用红色字体标注,引用内容会用绿色标注,不检测的部分用灰色标注。
3、表格数据中的内容知网是会进行对比的,但对固定的数据结果或公式来说,有时候没办法做到原创,这个是没办法的,被查出来后我们只能等待之后的判定。
4、一般知网查重系统都是以章节为单位来进行检测的,例如封面、摘要、第一章、第二章等内容都会进行划分,以此显示出详细的抄袭与查重结果。对许多高校来说并不只是看最终结果,还会看其中一些区域划分的抄袭率是多少,但也不能超过。
5、对于参考文献的引用,有的学校也会计入重复率的,所以在引用文献内容时,尽可能不要过多。
6、知网查重的算法是“13字与其他内容相似”就会被判定为抄袭,实际上这个算法官方也没有给出准确的答案,有时发现7-8个字也会判定为重复。
7、知网的数据库是非常广泛的,其中包含了网络文献库,例如百度文库、某些知名论坛的帖子等,所以抄袭的同学建议还是放弃这个想法吧。
8、知网查重系统并不是什么神秘的软件,也不能保证100%查重准确,知网只能作为一个重复内容参考的工具,这就跟我们使用的操作系统一样,也不能保证100%不会出错。
2019-11-19 | 作者:paperfree
相关文章
毕业论文查重时应该提交电子版还是提交纸质版? 论文查重附录标红是不是仅仅因为格式不对? 自费的论文查重要点有哪些要注意的呢? 人工降重和机器降重在效果上的差异有哪些? 论文查重次数是否都是基于学校的规定? 知网论文查重字数与检测有什么关系? 论文写作如何定型定向定框架?上一篇: 毕业论文查重该从哪里着手? 下一篇: 为什么英文论文检测出来的重复率很低?