2014-09-03 17 views
5

我有一個詞,根據這一點,我想找出文本是否與該詞相關或不使用python和nltk是否有可能?Word和文本關係使用Python和NLP

例如我有一個詞叫做「phosphorous」。我想查明一下特定的文本文件是與這個詞有關還是不是

我不能在nltk中使用bag的單詞,因爲我只有一個單詞而沒有訓練數據。

有什麼建議嗎?

在此先感謝。

回答

5

不是沒有語料庫,沒有。

這樣看待:能不能問一個真正認識日本人的東西(假設你不懂日語的話),能否告訴你是否與部屋に入った時電子をつけました有關;如果你這樣做,試試「svjetlo」和「Kad jeušaou sobu,upalio je lampu」)。如果你不能,你如何期待一臺電腦來做到這一點?

而另一個實驗 - 你能否成爲一個聰明的人,給了我一種算法,通過這個算法,你可以教導非說英語的人「輕」與「當他進入房間時,他打開了燈「?再次,不。除非明顯限制「相關」(例如「包含」)的含義,否則您需要培訓數據。

+0

This!人類的大腦別無選擇,只能與數據匹配,爲了識別或理解事物,它必須找到模式或不規則性。在Amadans的例子中,我只能猜測'upalio je lampu'與'燈'有關,因爲我認識到'燈'(模式),並且已經學會了燈(訓練數據)。現在我喜歡燈甚至更多 – xvdiff 2014-09-03 05:48:43

2

您可以使用NLTK WordNet中的其他文字來計算這個詞和詞之間的路徑相似性分數,並估計基於該得分啓發式:

from nltk.corpus import wordnet as wn hit = wn.synset('hit.v.01') slap = wn.synset('slap.v.01') wn.path_similarity(hit, slap)

你可以找到更多NLTK共發現使用示例: http://www.nltk.org/howto/wordnet.html

+0

這將需要一些實驗和調整啓發式,但如果你什麼都沒有,它可能是值得一試! – arturomp 2014-09-03 15:42:28