我相信我的問題很簡單,但我對python很陌生,我認爲這讓我失望了一下。打印維基百科文章標題來自Gensim WikiCorpus
我已經下載了一個維基百科轉儲,如「準備語料庫」中所述:https://radimrehurek.com/gensim/wiki.html。然後我運行以下幾行代碼:
import gensim
# these next two lines take around 16 hours
wikiDocs = gensim.corpora.wikicorpus.WikiCorpus('enwiki-latest-pages-articles.xml.bz2')
gensim.corpora.MmCorpus.serialize('wiki_en_vocab200k', wikiDocs)
這些代碼行取自上面的鏈接。現在,在一個單獨的腳本中,我已經完成了一些文本分析。該文本分析的結果是一個數字,代表wikiDocs語料庫中特定文章的索引。這個問題,我不知道如何打印出那篇文章的文字。嘗試明顯的一點就是:
wikiDocs[index_of_article]
而是返回我已經嘗試了一些其他的事情錯誤
TypeError: 'WikiCorpus' object does not support indexing
,但我堅持。謝謝你的幫助。
你經常可以得到一個很長的路用'幫助(wikiCorpus)'足見其docstring(如果有的話)或'dir(wikiDocs)',它顯示你所做的實例的界面。否則,運行在IPython中,例如在Jupyter Notebook中,爲您提供了製表符完成和其他漂亮的工具,用於探查對象以找出如何處理它。 – kwinkunks