我使用帶停用詞的NLTK來檢測文檔的語言,使用Alejandro Nolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/中描述的方法,它的工作原理合理。如何在NLTK中爲停用詞添加更多語言?
我還在使用NLTK停用詞語包中未包含的一些其他語言,例如捷克語和羅馬尼亞語,並且他們會與其他語言一樣獲得錯誤匹配。這些是停用詞的語言:
['丹麥語','荷蘭語','英語','芬蘭語','法語','德語','匈牙利語','意大利語','挪威語','葡萄牙語','russian','西班牙語','瑞典語','土耳其語']
如何擴展NLTK支持的語言列表?是否有其他可用的停用詞表可供添加?是否有一個記錄的方法,我可以用來創建一個添加我自己的停用詞表?
如果有人會發現它有用,我使用我現已解散的項目的額外的停用詞列表可在Github上免費獲得:https ://github.com/Xangis/extra-stopwords –