我想用關鍵詞從google 5grams中提取自然語言。然後,我需要清除停用詞(介詞,代詞等)的結果。接下來,我想用一個數字替換'語言'結果。我有一個excel文件,裏面有大量的文字和相應的分數。最後,我想運行(雙面重複)方差分析。在Python中提取並處理5grams。 NLTK API還是替代品?
我發現這個有用的腳本從culturomics爲python 2.x做了第一步。我的輸入是「寶石_NOUN」(僅用於名詞的通配符功能)。該輸入需要重複以涵蓋大多數其他內容字詞;即「寶石_VERB」「... * _ADJ」「... * _ADV」。每個輸入的輸出是tsv file。在第3行中,我將關鍵字與結果以及語言詞類別相關聯。所以我需要擺脫關鍵字&單詞類別並將所有結果以可訪問的方式存儲以供進一步處理。存儲在python數組中?
另一種可能性是使用NLTK包中的concordance function來檢索所需的單詞。然後使用乾淨的停用詞功能(我被告知存在)並用數字替換單詞。但我沒有追求這個選擇。
在我繼續之前,我想我會問。是否有另一個腳本可以利用?對Python新手,哪種方法更好?
我正在尋找檢索40個關鍵字的結果,這給了我從谷歌5grams的200個單詞。理想情況下,我想調整並應用Twitter和其他輔助數據的腳本。 非常感謝!
Google'KenLM''也見https://github.com/nltk/nltk/blob/develop/nltk/util.py#L416 – alvas
謝謝alvas!將看看它! – Simone