我試圖在父類別下創建另一個類別。 是可以創建。如何完成以及如何引用這些子類別?如何在NLTK中爲語料庫創建子類別Python
回答
CategorizedCorpusReader
只支持一個級別的類別。但由於類別基於文件名,因此您可以自由設置自己的名稱/類別方案並根據需要過濾語料庫文件。
你想如何使用多級類別?如果您有後續問題,請說明您想要達到的目標以及迄今爲止所嘗試的內容。
對語料庫分類最簡單的方法是每個類別都有一個文件。以下是從movie_reviews語料庫2個摘錄:
movie_pos.txt
the thin red line is flawed but it provokes .
movie_neg.txt
a big-budget and glossy production can not make up for a lack of spontaneity that permeates their tv show .
有了這兩個文件,我們將有兩類:正和負。
我們將使用CategorizedPlaintextCorpusReader
,它繼承PlaintextCorpusReader
和CategorizedCorpusReader
。這兩個超類需要三個參數:根目錄,fileids
和類別規範。
>>> from nltk.corpus.reader import
CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('.', r'movie_.*\.
txt', cat_pattern=r'movie_(\w+)\.txt')
>>> reader.categories()
['neg', 'pos']
>>> reader.fileids(categories=['neg'])
['movie_neg.txt']
>>> reader.fileids(categories=['pos'])
['movie_pos.txt']
前兩個參數CategorizedPlaintextCorpusReader
是根目錄和fileids,這是傳遞給PlaintextCorpusReader讀取n中的文件。 cat_pattern
關鍵字參數是用於從fileids中提取類別名稱的正則表達式。在我們的例子中,該類別是movie_之後和.txt之前的fileid的一部分。類別必須由分組括號包圍。將cat_pattern傳遞到CategorizedCorpusReader
,它將覆蓋常見語料庫閱讀器函數(例如fileids()
,words()
,sents()
和paras()
)以接受類別關鍵字參數。這樣,你可以通過調用reader.sents(categories=['pos'])
來獲得所有的pos句子。 CategorizedCorpusReader
還提供了categories()函數,它返回語料庫中所有已知類別的列表。
- 1. Python NLTK分類語料庫創建
- 2. 在NLTK和Python中創建自定義分類語料庫
- 3. 如何使用nltk python 3.4創建類似於movie_review的語料庫3.4
- 4. Python - NLTK語料庫中tagged_sents與tagged_words的區別
- 5. UnicodeDecodeError在NLTK中讀取自定義創建的語料庫時
- 6. 在NLTK中創建自己的語料庫的優勢
- 7. 如何在NLTK中保存自定義分類語料庫
- 8. 如何構建IMS開源語料庫工作臺和NLTK可讀語料庫?
- 9. 導入NLTK:無模塊NLTK語料庫
- 10. 如何使用我在python中創建的語料庫?
- 11. 如何在Python Natural Language Toolkit中創建自己的語料庫?
- 12. Python NLTK - 從語料庫中創建'詞典'並保存數字標籤
- 13. 使用NLTK創建pos標籤語料庫
- 14. 用NLTK創建一個新的語料庫
- 15. 使用Python創建語料庫
- 16. 在Python中使用帶有AWS Lambda函數的NLTK語料庫
- 17. 「克隆」NLTK中的語料庫?
- 18. 如何從Python中的語料庫創建詞雲?
- 19. NER與NLTK ieer或conll2000語料庫的火車語料庫
- 20. 如何防止NLTK語料庫讀取ASCII擴展爲Unicode
- 21. 在Python中使用我自己的語料庫進行分類NLTK
- 22. 在NLTK/Python中使用電影評論語料庫進行分類
- 23. 在NLTK中爲語料庫查找路徑
- 24. 語義 - 在NLTK中創建語法
- 25. XMLCorpusReader未創建語料庫
- 26. 使用WordNet和NLTK替換語料庫中的同義詞 - python
- 27. 如何清理烏爾都語數據語料庫Python沒有nltk
- 28. 如何使用一組文本文件創建語料庫 - python?
- 29. 導入和使用NLTK語料庫
- 30. Mac上的nltk語料庫位置Os