2015-12-04 28 views
0

我想用關鍵詞從google 5grams中提取自然語言。然後,我需要清除停用詞(介詞,代詞等)的結果。接下來,我想用一個數字替換'語言'結果。我有一個excel文件,裏面有大量的文字和相應的分數。最後,我想運行(雙面重複)方差分析。在Python中提取並處理5grams。 NLTK API還是替代品?

我發現這個有用的腳本從culturomics爲python 2.x做了第一步。我的輸入是「寶石_NOUN」(僅用於名詞的通配符功能)。該輸入需要重複以涵蓋大多數其他內容字詞;即「寶石_VERB」「... * _ADJ」「... * _ADV」。每個輸入的輸出是tsv file。在第3行中,我將關鍵字與結果以及語言詞類別相關聯。所以我需要擺脫關鍵字&單詞類別並將所有結果以可訪問的方式存儲以供進一步處理。存儲在python數組中?

另一種可能性是使用NLTK包中的concordance function來檢索所需的單詞。然後使用乾淨的停用詞功能(我被告知存在)並用數字替換單詞。但我沒有追求這個選擇。

在我繼續之前,我想我會問。是否有另一個腳本可以利用?對Python新手,哪種方法更好?

我正在尋找檢索40個關鍵字的結果,這給了我從谷歌5grams的200個單詞。理想情況下,我想調整並應用Twitter和其他輔助數據的腳本。 非常感謝!

+0

Google'KenLM''也見https://github.com/nltk/nltk/blob/develop/nltk/util.py#L416 – alvas

+0

謝謝alvas!將看看它! – Simone

回答

0

我會選擇A(調整現有文化學腳本)和/或Alvas的建議。一致函數只讀取.txt和.xml文件(所以不能實際讀取URL輸入),只允許輸入一個單詞。這可能會在未來更新。根據此discussion似乎有一個多字輸入的圖形解決方案。我當然可以嘗試使用concordance crawler(但沒有深入研究它)收集數據,將結果寫入兼容文件,然後開始分析。但是這增加了腳本的另一個步驟,我不相信使用它。