2017-02-05 49 views
0

我想帶一個文本NLTK:如何保持參照原文

  • 運行標記化,停用詞,刪除,引理等分析

  • ,然後打印出符合一定的標準段落/分數

但是,上述步驟會丟棄信息/標記。我如何保留對原始文本的引用,以便知道這些元素最初出現的位置,以便引用正確的段落?

+1

你可以將你的文本數據封裝在bean中。 –

+0

什麼是豆?找不到任何關於它的信息... – user7519033

+0

使每個單詞具有對齊索引的類。那麼你可以從索引邊界提取你想要的上下文。一個變量可以存儲未更改的文本,另一個可以修改,另一個可以存儲對齊索引。 –

回答

1

您可以閱讀您的語料庫,將其拆分爲段落,並一次對其中一段應用進一步處理。使用nltk的PlaintextCorpusReader來閱讀您的文本,您可以使用段落,每個段落已經被標記爲句子和單詞,只需調用paras()方法即可。以下是使用gutenberg語料庫(PlaintextCorpusReader的一個實例)的示例。

from nltk.corpus import gutenberg 
tagged_paras = [ nltk.pos_tag_sents(par) for par in gutenberg.paras() ]