0
我想帶一個文本NLTK:如何保持參照原文
運行標記化,停用詞,刪除,引理等分析
,然後打印出符合一定的標準段落/分數
但是,上述步驟會丟棄信息/標記。我如何保留對原始文本的引用,以便知道這些元素最初出現的位置,以便引用正確的段落?
我想帶一個文本NLTK:如何保持參照原文
運行標記化,停用詞,刪除,引理等分析
,然後打印出符合一定的標準段落/分數
但是,上述步驟會丟棄信息/標記。我如何保留對原始文本的引用,以便知道這些元素最初出現的位置,以便引用正確的段落?
您可以閱讀您的語料庫,將其拆分爲段落,並一次對其中一段應用進一步處理。使用nltk的PlaintextCorpusReader
來閱讀您的文本,您可以使用段落,每個段落已經被標記爲句子和單詞,只需調用paras()
方法即可。以下是使用gutenberg
語料庫(PlaintextCorpusReader
的一個實例)的示例。
from nltk.corpus import gutenberg
tagged_paras = [ nltk.pos_tag_sents(par) for par in gutenberg.paras() ]
你可以將你的文本數據封裝在bean中。 –
什麼是豆?找不到任何關於它的信息... – user7519033
使每個單詞具有對齊索引的類。那麼你可以從索引邊界提取你想要的上下文。一個變量可以存儲未更改的文本,另一個可以修改,另一個可以存儲對齊索引。 –