1
假設我有一個非常長的文本,我想提取一定的長度的上下文圍繞一個特定的單詞。例如,在下面的文本中,我想提取圍繞單詞warrior的8個單詞。提取句子中的單詞上下文
........
........
...死了。他是一個非常勇敢的戰士,爭取對賠率自由...
........
........
在這種情況下,結果將是
他是一個非常勇敢的戰士,爭取自由
請注意我是如何放棄這個詞的,因爲我更喜歡從整句開始,並且如何提取不止8個單詞,因爲fight for freedom
比爲爭取更有意義。
有沒有任何算法,或在這個領域進行的研究,我可以遵循?我應該如何着手解決這個問題。
注意,對於那種事在鏈接中顯示,parsey mcparseface往往比nltk做得好一點 – thang