說明:如果您有任何疑問或想咨詢其他業(yè)務請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預警
實時把握輿情動態(tài)精準追溯信息源頭
首先,我們在建立行業(yè)詞庫之前想一想:為什么要建立行業(yè)詞庫?
從搜索引擎本質(zhì)上思考,不管是當今的百度、谷歌、雅虎等等,說白了都是做的關(guān)鍵詞搜索,關(guān)鍵詞是網(wǎng)站內(nèi)容的通道。一個網(wǎng)站應用好的關(guān)鍵詞,如同建立了強有力的引流通道,在后期的建設過程中使得流量吸引的能力越來越強。
那么,如何建立行業(yè)詞庫?
這里,我拿到了一份8000萬數(shù)據(jù)量的游戲行業(yè)詞庫,需要整理。整理流程分別為:去重、去噪、篩選、篩選敏感詞反復去噪、規(guī)整、去重、產(chǎn)品劃分、產(chǎn)品屬性維度細分。
1 去重
8000萬的數(shù)據(jù)量,去重濃縮到了1500萬數(shù)據(jù),將近20%。這個數(shù)據(jù),我次看到并不吃驚,大量的網(wǎng)站,在整個行業(yè)中布局的詞有很多詞重復特別是主體頁面上爭的是那些高流量的詞,很正常。
2 去噪
初步去噪,識別ip段等數(shù)據(jù)直接刪掉,一些特殊符號直接替換。
3 篩選
根據(jù)游戲詞庫將1500萬詞庫一份為2,得到1200萬詞庫和300萬頁游詞庫。游戲部領導的意思是,先從度高的300萬詞庫入手,先反復去噪,用短的時間先把這個庫用起來。
4 篩選敏感詞反復去噪
其實,花時間的過程是這一步,需要你每天做一件事,從中找敏感詞,游戲行業(yè)敏感詞有哪些。比較短的詞風險比較大要慎重,長的詞相對風險較小。詞根是品牌的詞相對來說直接過了,不是我們要找的詞。舉個case,“三國演義趙云”和”三國無雙頁游”,兩個詞的詞根都是三國,其實你認為“三國演義趙云”需要刪除,的確它跟頁游無關(guān),但它跟三國有關(guān),這種詞可以引流,它定位是吸引潛在的游戲用戶群體。但如果詞根是一個形容詞,這種詞可以和各種詞組合,這種詞引流的意義不大了,因為含義相關(guān)度太差,信息匹配度非常的低,可以直接刪了或者找出敏感詞,進行過濾。
去噪,既是一件簡單事,也是一件體力活,但是不同的人為什么效率不一樣,自然再簡單的事情也有其精髓所在。
5 規(guī)整
詞庫篩選的過程中,你會發(fā)現(xiàn)游戲詞很多有一些臟的詞比如后綴加了三個零等等,需要整體規(guī)整這些數(shù)據(jù),保證數(shù)據(jù)的準確性。
6 再次去重
規(guī)整以后的數(shù)據(jù),詞庫中會有大量的重復,需要二次去重。300萬詞庫濃縮到->120萬,1200萬詞庫濃縮到->750萬。
7 產(chǎn)品劃分
將300萬的詞庫按產(chǎn)品劃分,這里主要分為三大類:頁游、平臺、其他。為什么這樣劃分?首先,300萬的詞庫的詞根都是屬于頁游品牌或平臺商或其他類別。300萬經(jīng)過去噪后的數(shù)據(jù)可以再次根據(jù)這3份標準庫進行分類。分類的過程中,有一個注意點:26.5g熱血海賊王,既要出現(xiàn)在頁游庫的“熱血海賊王”文件中,同時也應當在平臺庫的文件名為”26.5g“的文件中出現(xiàn)。
8 產(chǎn)品屬性維度細分
從第7步,我們已經(jīng)得到了分類詞庫的文件,每個產(chǎn)品生成頁面首先都要一定的維度,我這邊主要是按照:攻略、裝備、禮包、輔助、開服表。
這些維度也是后期我們要采集文章的維度。120萬詞庫雖然體量很大,但是實際發(fā)現(xiàn)這些維度分下來,還有數(shù)據(jù)缺口,后期可能還要臨時采集這些數(shù)據(jù),去彌補。
頁游行業(yè)詞庫建設,幫助我們后期生成大量的文章頁面,通過強有力的內(nèi)鏈架構(gòu),一方面增大網(wǎng)站的體量,增大收錄規(guī)模,將產(chǎn)品聚合頁、產(chǎn)品頁撐起來,同時通過詞庫的建設進而計算詞與詞的關(guān)系進而利用程序生成大量的tag頁面,將文章頁面撐起來,這樣的網(wǎng)站架構(gòu)站內(nèi)資源極其豐富,如果增加一定的站外資源,根據(jù)排名=內(nèi)部因素+外部因素,網(wǎng)站的整體排名會。點擊率=排名*文案,文案優(yōu)化好,點擊率會高。有了排名有了點擊率,流量會ok。由此可見,我們先做行業(yè)詞庫而不是直接寫文章發(fā)外鏈,是在苦心孤詣地磨刀,老話說得好:磨刀不誤砍柴工,刀磨好了,砍柴活何止事半功倍,更何況這活還是在seo界!
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業(yè)務請撥打電話 400 685 0732