2016-08-13 62 views
1

假設我有一個非常長的文本,我想提取一定的長度的上下文圍繞一個特定的單詞。例如,在下面的文本中,我想提取圍繞單詞warrior的8個單詞。提取句子中的單詞上下文

........

........

...死了。他是一個非常勇敢的戰士,爭取對賠率自由...

........

........

在這種情況下,結果將是

他是一個非常勇敢的戰士,爭取自由

請注意我是如何放棄這個詞的,因爲我更喜歡從整句開始,並且如何提取不止8個單詞,因爲fight for freedom爭取更有意義。

有沒有任何算法,或在這個領域進行的研究,我可以遵循?我應該如何着手解決這個問題。

回答

0
  1. 您可以使用RegEx獲取包含您要查找的單詞的整個句子。
  2. 然後使用信息提取算法找到更方便的8個單詞。

我發現兩個

對於正則表達式一些Python實現看here

以及抽取算法外觀here

希望這將幫助你

+0

注意,對於那種事在鏈接中顯示,parsey mcparseface往往比nltk做得好一點 – thang