2012-02-13 146 views
5

我一直在研究java來找出兩個文檔之間的相似性。我更喜歡找到語義相似性,但還沒有努力找到它。我正在使用以下方法。Python與Java的自然語言處理

  1. 提取術語/令牌(我使用JAWS用WordNet的除去同義詞因此改善了相似)
  2. 做出術語文檔矩陣
  3. LSA
  4. 餘弦相似度

當我在看幾個stackoverflow頁面,我有很多python實現的鏈接。

我想知道,如果蟒蛇是一種更好的語言來找到文本類似,也想知道如果我能找到的python

+0

你可以在Python中做的所有事情,你也可以在Java中完成(有足夠的工作)。也就是說,存在[自然語言工具包](http://www.nltk.org/),它是一個Python庫,爲自然語言處理提供了大量工具。 – 2012-02-13 04:57:53

回答

2

兩個文件之間的語義similairty假設你沒有平臺限制這會限制你選擇的語言,你應該根據你最喜歡的方式(我自己喜歡Python)選擇你的語言,併爲你的應用程序提供最好的庫(@GregHewgill指出Python工具(Natural Language Toolkit)成熟和全面)。

所以,雖然我個人會選擇Python,但它確實是你必須爲自己選擇的東西。

== ==編輯

question有關Java NLP庫可以幫助你決定你是否可以使用Java爲你分析;最熱門的答案有你可以調查的清單。沒有關於您的問題集的更多信息,我無法提供更具體的建議。

+0

謝謝..我從來沒有在Python工作過。但是如果它有這麼多的功能,我想我應該轉移到Python並利用它。所以我想知道它是否會有優勢,或者它們是否只提供相似的功能 – CTsiddharth 2012-02-13 05:11:05

+1

我認爲Python是一種更自然,更具表現力的語言。 **但真的,這是關於圖書館**。如果我有問題需要解決,最好的庫是基於Java的,我會使用基於JVM的語言。 – ironchefpython 2012-02-13 05:13:01

+0

感謝您的鏈接。我的項目旨在根據文檔與參考文檔的相似性對文檔進行排名。我旨在從本地存儲庫中找到最相關的文檔。由於它具有實時使用的前景,我希望它儘可能有效。 – CTsiddharth 2012-02-13 05:48:20