关于我们 | 联系我们 | 查重网首页高校论文查重平台提供知网论文查重软件,所有论文(本科、硕士、博士等学位论文,待发表到期刊的论文等)均可查重,检测结果与各高校一致!

全国知名品牌检测系统
一站式查重服务

报告正品 正品保障
结果支持验证 结果权威
安全查重 安全检测
您当前的位置: 论文查重软件 > 英文查重知识 >

ithenticate论文查重原理是什么?

时间:2021-05-29 15:06 作者:毕业在线查重网 本文点击:

  crosscheck(CrossCheck by iThenticate)这个查重软件,知道的人想必都清楚,专业的查重软件,各大杂志社都在使用,很多情况下编辑会根据软件的查重结果对论文进行判断。一般来说,论文的总体相似率超过30%,编辑就会要求修改或者可能直接拒稿。后果还是很严重的。那ithenticate到底是如何进行判定的呢?ithenticate论文查重原理是什么?
 
  ithenticate论文查重原理是什么?
 
  根据对自己检测的相似性报告分析。初步推测下软件对文章的查重处理。一篇被ithenticate处理的文章,这个软件第一步应该做的是进行文本的格式化。说来也很合理。因为一篇文章中,除了单词以外,还有大量的符号(标点符号,数学符号及特殊符号等)。这些并不是crosscheck查重的对象,所以会把他们处理掉。这些符号会通通被替换为空格。这种文本处理方式也是很常见的,在python和matlab的数据处理中经常会使用。
 
  处理后的文章就只剩下单词了。然后软件会对文章进行比对处理。根据软件设置的重复原则对文本进行标记。最终得出一份相似性报告。
 
  这里的重点是软件判定重复的原则。了解了原则之后,我们就可以有针对性的进行修改。网上很多关于这些规则的说法,大部分是说连续六个单词即判定重复,或者根据语言风格相似即判定重复。这些说法不够准确,也没有依据。我们还是回到软件本身来回答这个问题。crosscheck它是一款软件,它不是人,不能判断文章的内容,只会把文章和系统内的进行比对,根据规则做出判断。那这样的规则到底有哪些?
 
  其实,crosscheck查重的基本规则只有一条:不连续的六个单词中间连续不重复的单词小于四个(不包括四个)即判定这六个单词重复(注意:这里的规则是软件系统默认的规则,大部分期刊使用默认规则)。
 
  所有的查重结果都是基于这条进行的。这句话比较绕口。具体怎么理解,我们来看下具体的实例。
 
  先分析最极端也是最直白的重复。不连续的六个单词中间不重复的单词为0个,即六个连续重复的单词。显然这个肯定是会被判定重复了。下面我用1表示重复的单词,0表示不重复的单词。那么这种情况就是:111111。
 
  再分析中间有不重复单词的情况。这点大家很多情况摸不着头脑,有时候几个单词距离的很远,也被判定重复了,很是苦恼。
一篇被ithenticate处理的文章,这个软件第一步应该做的是进行文本的格式化
 
  1)中间只有一个不重复的。例如:1011111;1101111;1111011等。
 
  实例:Computer science has been widely considered as...(斜体表示和已有文献重复)
 
  这里面单纯插入一个widely单词,是不足以骗过系统的。
 
  2)中间有两个重复的。例如:1100110011;110010011001;1100110011等。
 
  实例1:Computer science has been widely percieved asan...
 
  这里替换两个不重复单词widely percieved,但是Computer,science,has,been,as,an已经是六个不连续的重复了。
 
  实例2:Computer science and technology has been widely percieved as an...
 
  在Computer science后面加上两个不重复的单词and technology是不是就可以了呢?答案是否定的,Computer,science,has,been,as,an这六个词中间只有两个是不重复的,不能判定为整句不重复。
 
  3)中间有三个不重复的。这个一眼乍看不觉得重复,但其实是重复了。例如:100010001111;100010001000100010001等。
 
  100010001000100010001这种情况是不是很刺激。对!按照规则,这个也算重复。因为六个不连续重复的单词直接是三个重复的。
 
  实例1:Computer science,resulting from America,has been widely percieved as an...
 
  这种形式是11000110011模式,依旧是重复的。
 
  实例2:Computer science,resulting from America,has been widely percieved as one of most promising....
 
  好,我们把改成one of most。虽然这三个没有重复,但紧接着后面的promising和已有文献重复了,很不幸,整个句子还是重复了。重复形式为11000110010001。
 
  上面分析的是单纯的单词,不涉及符号和数字。大家的论文很多情况包含各种单位符合和数学符号的,系统该如何处理他们?
 
  1)单纯的数字。比如123,25,1998等这些整数,他们都是连续的,中间没有空格和特殊符号,系统不会进行处理,还会保持原来形式。算一个单词。
 
  实例1:Computer science,developed from 1930,has been widely percieved as an..
 
  这句话是11000110011的重复,这里的1930算一个单词。
 
  对于小数要特别注意,因为小数点系统处理后会被空格代替,所以小数是会被看作两个单词的。如1.23,在系统里面会看作1和23两个单词。
 
  实例2:Computer science,developed from 1,930,has been widely percieved as an..还是这句话,这里的1,930多加个了分隔符,就变成两个单词。所以句子中间就有四个连续不重复的单词,整个句子就是不重复的(即developed,from,1和930四个)。
 
  2)连接符。不少单词或者专业词汇会用连接符号连起来,系统会自动把连接符号替换成空格。所以被看作两个单词。如:ever-increasing算作ever和increasing;CD-ROM算作CD和ROM。
 
  3)科学单位。文章中难免会有g cm-3这个的有上标或者下标的单位。软件系统其实不会识别上下标。直接按照正常大小处理,再替换特殊符号为空格,所以g cm-3算三个单词。
 
  4)包括符号的专有名词缩写。比如化学中Ag包覆Au再包覆一层C。作者可能会缩写成Ag Au/C。这个经过系统处理后,其实是三个单词的Ag,Au和C。所以有时候会发现系统把这类词分开匹配查重。
 
  实例:The synthesized Ag Au/Cnanoparticles exhibited good activities.
 
  可能会遇到这种重复,这里Ag Au/C算作三个单词,所以是101011101重复类型。
这句话是11000110011的重复,这里的1930算一个单词。
 
  5)跨段落重复。有时候系统的重复可能不在于特定的一段,还会跨段落,因为在软件眼里,整个文章就是一连串单词被空格分割,不存在段落之分。
 
  实例:
 
  4.Experimental and methods
 
  4.1.Synthesis of...
 
  这个是典型的文章中方法部分。这里猜猜系统判定重复的元素是几个?嗯,8个。去掉点号,就是4,Experimental,and,methods,4,1,Synthesis,of这8个单词。
 
  6)总结起来,系统处理的特殊符号包括:标点符号;数学符号;特殊符号等一切非数字的符号。
 
  以上就是crosscheck查重的基本规则。基本囊括了大家遇到的情况。了解了这些规则,修改起来就方便了。再举几个例子。
 
  Computer science,resulting from America,has been widely percieved as one of most promising....
 
  这句话是11000110010001重复,最简单的修改就是把不重复的单词提高到4个不连续。比如修改成110000110010001就不会被系统判断重复了。
 
  修改为:Computer science,which results from America,has been widely percieved as one of most promising....
 
  这种是没有问题的。
 
  单复数改变。从系统原理可知,单复数是不同的单词,故可以达到避免重复的目的。
 
  The Au nanoparticleexhibited good catalytical activities and...
 
  这里是10110111重复,刚好六个,那我们把nanoparticle变为复数nanoparticles变成五个了,不算重复。不过要注意的是修改之后,自己再想想会不会还和别人有重合,毕竟crosscheck系统的对比样本实在是太丰富了。
 
  同义词替换。这一招依旧是非常有效的方法。但是不能单纯的使用,一定要结合整个句子来。
 
  句子单词颠倒。不错的办法。还是那句话,注意句子的整体结构。

Template查重入口:https://www.qkcnki.com/ithenticate

  • 原文地址:https://www.qkcnki.com/ywcczs/2281.html 如有转载请标明出处,谢谢。
  • 揭秘iThenticate:为何成为SCI论文发表的查重王者?

    Grammarly报告怎么看?

    CrossCheck适用于论文发表前的复查吗?

    SCI论文与一般文学写作有那些不同?

    发表SCI期刊论文用什么软件检测?查重系统怎么选?

    发表SCI论文查重选那个检测系统?查重怎么查的?

    发表SCI论文查重率一般控制在多少才合适?

    英国大学助教使用Turnitin查重系统经验,降重必备!

    Turnitin检测系统常见的三种引用方式讲解!

    Turnitin检测论文重复率过高要怎么修改降低?

    国外杂志社发表论文用什么查重系统检测比较好?

    使用维普,万方查重率很低,Turnitin查重却很高怎么办?

    那个查重系统检测英文论文数据库最全面?

    turnitin查重系统数据库主要收录哪些内容?

    使用turnitin检测系统注意事项,论文被查重软件收录也不怕!

    turnitin英文查重系统检测论文都有那些优势?

    turnitin查重系统和ithenticate检测软件有什么区别?

    turnitin报告数据怎么解读,检测报告结果怎么看?

    turnitin查重论文会收录吗,检测率分显示100%说明全部抄袭吗?

    使用turnitin查重论文,提交的论文资料会被泄露吗?

    Grammarly免费版和付费版有什么区别呢?

    turnitin和crosscheck检测查重结果有什么差异?

    turnitin查重报告结果怎么看,毕业在线网详细解答!

    turnitin论文降重的方法与技巧有什么?

    CrossCheck/Crossref都是指ithenticate吗?