0
我在python初學者,我用這條線如何使用循環訪問我自己的分類語料庫中的每個文本文件?
reader = CategorizedPlaintextCorpusReader('~/CorpusMain/',
r'.*\.txt', cat_pattern=r'(\w+)/*')
裏面我CorpusMain文件夾,我有類別進一步三個文件夾。我需要分別訪問每個類別中的每個文本文件內容,爲包含文本文件的每個類別構建一個列表,如 category1 = ['textfile1 content','textfile2 content'... etc] 我想使用我的閱讀器,這意味着引用每個文件(fileids()),並得到它的reader.raw結果...
我需要這些來回饋給我的CountVectorizer,爲每個類別構建一個向量。
我實際上想要構建一個包含單個文件的每個元素的語料庫數組,例如:corpus = ['this is text file1 content','this is text file 2 content'....],so我想要我的閱讀器文件的原始數據... – x200
所以,你只是想列出每個文本文件在特定文件夾中的內容? – Szabolcs
我修好了。非常感謝您的幫助! :d – x200