国产激情一区二区三区_丰满的人妻hd高清日本_新国产三级在线观看播放_日本少妇xxxx动漫

您的位置:首頁 > 科研經驗 > Crosscheck查重原理及算法
科研經驗

Crosscheck查重原理及算法

作者:admin 來源:未知 日期:2020-06-27 21:57:41 人氣: 標簽:
導讀:crosscheck(CrossCheckiThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過3…
crosscheck(CrossCheck iThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過30%,編輯就會要求修改或者可能直接拒稿。后果還是很嚴重的。那crosscheck到底是如何進行判定的呢?
網上很多關于這些規則的說法,大部分是說連續六個單詞即判定重復,或者根據語言風格相似即判定重復。這些說法不夠準確,也沒有依據。
一篇被crosscheck處理的文章,這個軟件第一步應該做的是進行文本的格式化。說來也很合理。因為一篇文章中,除了單詞以外,還有大量的符號(標點符號,數學符號及特殊符號等)。這些并不是crosscheck查重的對象,所以會把他們處理掉。這些符號會通通被替換為空格。
其實,crosscheck查重的基本規則只有一條:不連續的六個單詞中間連續不重復的單詞小于四個(不包括四個)即判定這六個單詞重復(注意:這里的規則是軟件系統默認的規則,大部分期刊使用默認規則)。

所有的查重結果都是基于這條進行的。這句話比較繞口。具體怎么理解,我們來看下具體的實例。

先分析最極端也是最直白的重復。不連續的六個單詞中間不重復的單詞為0個,即六個連續重復的單詞。顯然這個肯定是會被判定重復了。下面我用1表示重復的單詞,0表示不重復的單詞。那么這種情況就是:111111。

再分析中間有不重復單詞的情況。這點大家很多情況摸不著頭腦,有時候幾個單詞距離的很遠,也被判定重復了,很是苦惱。

1)中間只有一個不重復的。例如:1011111;1101111;1111011等。
實例:Computer science has been widely considered as ...(斜體表示和已有文獻重復)
這里面單純插入一個widely單詞,是不足以騙過系統的。

2)中間有兩個重復的。例如:1100110011;110010011001;1100110011等。
實例1:Computer science has been widely percieved asan...
這里替換兩個不重復單詞widely percieved,但是Computer, science, has, been, as, an已經是六個不連續的重復了。
實例2:Computer science and technology has been widely percieved as an...
在Computer science后面加上兩個不重復的單詞and technology是不是就可以了呢?答案是否定的,Computer, science, has, been, as, an這六個詞中間只有兩個是不重復的,不能判定為整句不重復。

3)中間有三個不重復的。這個一眼乍看不覺得重復,但其實是重復了。例如:100010001111;100010001000100010001等。
100010001000100010001這種情況是不是很刺激。對!按照規則,這個也算重復。因為六個不連續重復的單詞直接是三個重復的。
實例1:Computer science, resulting from America, has been widely percieved as an...
這種形式是11000110011模式,依舊是重復的。
實例2:Computer science, resulting from America, has been widely percieved as one of most promising....
好,我們把改成one of most。雖然這三個沒有重復,但緊接著后面的promising和已有文獻重復了,很不幸,整個句子還是重復了。重復形式為11000110010001。

上面分析的是單純的單詞,不涉及符號和數字。大家的論文很多情況包含各種單位符合和數學符號的,系統該如何處理他們?
1)單純的數字。比如123,25,1998等這些整數,他們都是連續的,中間沒有空格和特殊符號,系統不會進行處理,還會保持原來形式。算一個單詞。
實例1:Computer science, developed from 1930, has been widely percieved as an..
這句話是11000110011的重復,這里的1930算一個單詞。
對于小數要特別注意,因為小數點系統處理后會被空格代替,所以小數是會被看作兩個單詞的。如1.23,在系統里面會看作1和23兩個單詞。
實例2:Computer science, developed from 1,930, has been widely percieved as an.. 還是這句話,這里的1,930多加個了分隔符,就變成兩個單詞。所以句子中間就有四個連續不重復的單詞,整個句子就是不重復的(即developed, from, 1和930四個)。

2)連接符。不少單詞或者專業詞匯會用連接符號連起來,系統會自動把連接符號替換成空格。所以被看作兩個單詞。如:ever-increasing算作ever和increasing;CD-ROM算作CD和ROM。

3)科學單位。文章中難免會有g cm-3這個的有上標或者下標的單位。軟件系統其實不會識別上下標。直接按照正常大小處理,再替換特殊符號為空格,所以g cm-3算三個單詞。

4)包括符號的專有名詞縮寫。比如化學中Ag包覆Au再包覆一層C。作者可能會縮寫成Ag@Au/C。這個經過系統處理后,其實是三個單詞的Ag,Au和C。所以有時候會發現系統把這類詞分開匹配查重。
實例:The synthesized Ag@Au/Cnanoparticles exhibited good activities.
可能會遇到這種重復,這里Ag@Au/C 算作三個單詞,所以是101011101重復類型。

5)跨段落重復。有時候系統的重復可能不在于特定的一段,還會跨段落,因為在軟件眼里,整個文章就是一連串單詞被空格分割,不存在段落之分。
實例:
4. Experimental and methods
4.1. Synthesis of ...
這個是典型的文章中方法部分。這里猜猜系統判定重復的元素是幾個?嗯,8個。去掉點號,就是4, Experimental, and, methods, 4, 1, Synthesis, of 這8個單詞。

6)總結起來,系統處理的特殊符號包括:標點符號;數學符號;特殊符號等一切非數字的符號。
以上就是crosscheck查重的基本規則。基本囊括了大家遇到的情況。了解了這些規則,修改起來就方便了。再舉幾個例子。

Computer science, resulting from America, has been widely percieved as one of most promising....
這句話是11000110010001重復,最簡單的修改就是把不重復的單詞提高到4個不連續。比如修改成110000110010001就不會被系統判斷重復了。
修改為:Computer science, which results from America, has been widely percieved as one of most promising....
這種是沒有問題的。
單復數改變。從系統原理可知,單復數是不同的單詞,故可以達到避免重復的目的。
The Au nanoparticleexhibited good catalytical activities and ...
這里是10110111重復,剛好六個,那我們把nanoparticle變為復數nanoparticles變成五個了,不算重復。不過要注意的是修改之后,自己再想想會不會還和別人有重合,畢竟crosscheck系統的對比樣本實在是太豐富了。
同義詞替換。這一招依舊是非常有效的方法。但是不能單純的使用,一定要結合整個句子來。
句子單詞顛倒。不錯的辦法。還是那句話,注意句子的整體結構。
坐一次出租車的錢,即可享受到快速、穩定的包月文獻下載服務;快聯系我們吧,客服每日早上9點左右上線,竭誠為您服務。
知網、維普、萬方、IEEE、elsevier、pubmed等中外文獻數據庫應有盡有,加入會員,別無所求!

Copyright © 2002-2030 , All rights reserved.    


新巴尔虎右旗| 太仆寺旗| 达州市| 荣昌县| 日土县| 桐乡市| 南丰县| 临澧县| 渝北区| 象山县| 施甸县| 苍山县| 加查县| 乐安县| 钟祥市| 屏东县| 上思县| 盐亭县| 息烽县| 昭苏县| 和政县| 长白| 朝阳区| 阳信县| 莒南县| 安徽省| 武冈市| 缙云县| 林甸县| 岚皋县| 遵义县| 长兴县| 黑龙江省| 宝坻区| 仁寿县| 双峰县| 二连浩特市| 宜春市| 读书| 桑植县| 日照市|