在Python中提取並處理5grams。 NLTK API還是替代品？

我想用關鍵詞從google 5grams中提取自然語言。然後，我需要清除停用詞（介詞，代詞等）的結果。接下來，我想用一個數字替換'語言'結果。我有一個excel文件，裏面有大量的文字和相應的分數。最後，我想運行（雙面重複）方差分析。在Python中提取並處理5grams。 NLTK API還是替代品？

我發現這個有用的腳本從culturomics爲python 2.x做了第一步。我的輸入是「寶石_NOUN」（僅用於名詞的通配符功能）。該輸入需要重複以涵蓋大多數其他內容字詞;即「寶石_VERB」「... * _ADJ」「... * _ADV」。每個輸入的輸出是tsv file。在第3行中，我將關鍵字與結果以及語言詞類別相關聯。所以我需要擺脫關鍵字&單詞類別並將所有結果以可訪問的方式存儲以供進一步處理。存儲在python數組中？

另一種可能性是使用NLTK包中的concordance function來檢索所需的單詞。然後使用乾淨的停用詞功能（我被告知存在）並用數字替換單詞。但我沒有追求這個選擇。

在我繼續之前，我想我會問。是否有另一個腳本可以利用？對Python新手，哪種方法更好？

我正在尋找檢索40個關鍵字的結果，這給了我從谷歌5grams的200個單詞。理想情況下，我想調整並應用Twitter和其他輔助數據的腳本。非常感謝！

來源

2015-12-04 Simone

Google'KenLM''也見https://github.com/nltk/nltk/blob/develop/nltk/util.py#L416 – alvas

謝謝alvas！將看看它！ – Simone

我會選擇A（調整現有文化學腳本）和/或Alvas的建議。一致函數只讀取.txt和.xml文件（所以不能實際讀取URL輸入），只允許輸入一個單詞。這可能會在未來更新。根據此discussion似乎有一個多字輸入的圖形解決方案。我當然可以嘗試使用concordance crawler（但沒有深入研究它）收集數據，將結果寫入兼容文件，然後開始分析。但是這增加了腳本的另一個步驟，我不相信使用它。

來源

2015-12-13 23:35:52 Simone

在Python中提取並處理5grams。 NLTK API還是替代品？

回答

相關問題