Python數(shù)據(jù)分析與應(yīng)用：文本預(yù)處理

更新時(shí)間:2022-08-26 來(lái)源:黑馬程序員瀏覽量:

IT培訓(xùn)班

　　文本預(yù)處理一般包括分詞、詞形歸一化、刪除停用詞，下面針對(duì)文本預(yù)處理的流程進(jìn)行具體介紹。

　　1.文本分詞

　　文本分詞是預(yù)處理過(guò)程中必不可少的一個(gè)操作，它可以分為兩步：第一步是構(gòu)造詞典，第二步是分詞算法的操作。其中，詞典的構(gòu)造比較流行的是雙數(shù)組的trie樹，分詞算法常見(jiàn)的主要有正向最大匹配、雙向最大匹配、語(yǔ)言模型方法、最短路徑算法等。

　　目前文本分詞已經(jīng)有很多比較成熟的算法和工具，在網(wǎng)上可以搜索到很多，本書使用的是NLTK庫(kù)和jieba庫(kù)，分別用作英文和中文的分詞操作。

　　2.詞形歸一化

　　基于英文語(yǔ)法的要求，文檔中經(jīng)常會(huì)使用單詞的不同形態(tài)，比如live、lives(第三人稱單數(shù))、living(現(xiàn)在分詞)，另外，也存在大量意義相近的同源詞，比如able、unable、disability。如果希望只輸入一個(gè)詞，就能夠返回它所有的同源詞文檔，那么這樣的搜索是非常有用的。

　　詞形歸一化包括詞干提取和詞形還原，它們的目的都是為了減少曲折變化的形式，將派生詞轉(zhuǎn)化為基本形式。例如：

　　am，are，is-be

　　cars，car's，car's-car

　　不過(guò)，詞干提取和詞形還原所代表的意義不同，前者通常是一個(gè)很粗略的去除單詞兩端詞綴的過(guò)程，而后者是指利用詞匯表和詞形分析去除曲折的詞綴，以返回詞典中包含的詞的過(guò)程。

　　3.刪除停用詞

　　刪除停用詞也是比較重要的，主要是因?yàn)椴⒉皇俏谋局械拿總€(gè)單詞或字符都能夠表明文本的特征，比如說(shuō)“the”“的”“你”“I”“他”等，這些詞應(yīng)該從文本中清除掉。可以在網(wǎng)上下載一份中文或英文的停用詞表來(lái)作為去停用詞的參考。

上一篇：2022最新版Python教程 8天從入門到精通 下一篇：Python培訓(xùn)：python中如何修改字典中的值