NLTK：如何保持參照原文

運行標記化，停用詞，刪除，引理等分析
，然後打印出符合一定的標準段落/分數

但是，上述步驟會丟棄信息/標記。我如何保留對原始文本的引用，以便知道這些元素最初出現的位置，以便引用正確的段落？

2017-02-05 user7519033

你可以將你的文本數據封裝在bean中。 –

什麼是豆？找不到任何關於它的信息... – user7519033

使每個單詞具有對齊索引的類。那麼你可以從索引邊界提取你想要的上下文。一個變量可以存儲未更改的文本，另一個可以修改，另一個可以存儲對齊索引。 –

您可以閱讀您的語料庫，將其拆分爲段落，並一次對其中一段應用進一步處理。使用nltk的PlaintextCorpusReader來閱讀您的文本，您可以使用段落，每個段落已經被標記爲句子和單詞，只需調用paras()方法即可。以下是使用gutenberg語料庫（PlaintextCorpusReader的一個實例）的示例。

from nltk.corpus import gutenberg 
tagged_paras = [ nltk.pos_tag_sents(par) for par in gutenberg.paras() ]

來源

2017-02-05 15:35:40 alexis

NLTK：如何保持參照原文

回答

相關問題