Jep仍在玩Python。提取一個單詞加一個單詞加另外20個(python)
我決定嘗試一下Gensim,這個工具可以找到選定的文字&上下文的主題。
所以我想知道如何在一段文本中找到一個單詞,並將它與它一起提取20個單詞(如在該單詞之前的10個單詞以及該單詞之後的10個單詞),然後將其與其他此類提取一起保存所以Gensim可以在其上運行。
對於我來說,看起來很困難的是找到一種方法來提取前後找到的10個單詞。我之前玩過nltk,只是將文本標記爲單詞或句子,很容易掌握句子。在那個特定的句子之前和之後仍然得到那些單詞或句子似乎很難找出如何去做。
對於那些誰混淆(這裏的凌晨1點,所以我可能會產生混淆),我將用一個例子顯示它:
只要它吃完後,她的血液衝向她的心臟,爲她聽到白雪公主還活着,非常生氣。 「但現在,」 認爲她自己,「我會做出一些將完全摧毀她的東西。」這樣說,她做了一個藝術中毒的梳子,她知道,然後,僞裝自己,她採取了一個古老的遺012形式。她走過七座山丘到七個小矮人的房子, 和[15]敲門聲,喊道:「今天賣好的商品!」
如果我們說這個詞是白雪公主,然後我想爲這部分提取:
她的心臟,因爲她很生氣地聽到白雪公主還活着。 「但是現在,」 以爲她對自己「會前
10字和後白雪公主。
這也是夠酷前後句子白雪公主後改爲獲取句子出現這是否可以在NLTK完成,並且更加容易。
我的意思是什麼最適合我將很高興與兩種解決方案之一,如果有人可以幫助我。
如果這可以用Gensim做太...那很容易,那麼我也會對此感到高興。所以,3種方法中的任何一種都可以,但我只想嘗試一下,看看如何做到這一點,因爲我的腦袋是空白的。
謝謝正是我一直在尋找!不知道你能找到那樣的索引。 :) – N00programmer