當(dāng)搜索引擎通過相似度把文章收集起來(lái)后,要判別一下是否是重復(fù)文章,經(jīng)常用的是數(shù)據(jù)指紋,數(shù)據(jù)指紋有很多種算法,常見的比如講文章的標(biāo)點(diǎn)符號(hào)提出,進(jìn)行對(duì)比,你很難想象有兩篇不同的文章,標(biāo)點(diǎn)符合是一致的。還有對(duì)向量進(jìn)行對(duì)比,也是TF詞頻(關(guān)鍵詞密度)等等來(lái)判斷。
這時(shí)候你可以想象出,現(xiàn)在很多偽原創(chuàng)工具,只是把關(guān)鍵詞進(jìn)行了替換,你想關(guān)鍵詞替換后,標(biāo)點(diǎn)符號(hào)指紋是不變的,甚至連TF詞頻都不變。還有對(duì)文章進(jìn)行段落的重拍,這個(gè)的確是打亂了標(biāo)點(diǎn)符號(hào),但是向量和詞頻問題依然存在。那么這樣的偽原創(chuàng)工具有沒有價(jià)值你可想而知了。(可能對(duì)于百度還是有作用的)