2016-01-26 57 views
-2

我正在使用Python for NLP。但是當我使用任何沒有任何標點符號的文本時,我遇到了問題。但是,如果我無法通過sent_tokenizer從文件中選擇一行,因此句子會一個接一個地出現,因爲它可以使用完整的(。)標點符號。如果有人知道解決方案如何從沒有標點符號的文本中選擇行,那對我來說會非常有幫助。換行符將作爲python中的一個句子計算

+0

您能否提供更多信息?除了完整的包信息之外,你試圖實現的一個例子會很好,例如,我相信你指的是nltk,而不是「Python for NLP」。具體細節將幫助我們在您當前使用的工具中找到答案! –

+0

是的,我指的實際上是nltk。一個沒有標點符號的段落,所有行都用換行符分隔。我想用整個段落中的特定行來處理。 – RokiDGupta

+0

從nltk.tokenize進口sent_tokenize,從nltk.corpus進口state_union 文本= state_union.raw( 'some.text') 詞語= [ '工作', '壽命'] 句子= sent_tokenize(文本) 爲word_tokenize 句子的句子: if(全部(地圖(lambda單詞:單詞in sentence,單詞))): print(sentence) – RokiDGupta

回答

1

檢查出str.split(sep,[maxsplit])方法,通過選擇正確的分隔符,你應該能夠做你想做的。
str.splitlines([keepends])對我來說也是有用的。

相關問題