2014-06-25 40 views
0

我在做項目我需要根據搜索引擎對搜索引擎進行排名,例如搜索引擎,但是我需要排列具有單詞或句子的語義相似性的文檔,我無法開始關於如何用java找到語義相似度。是否有任何鏈接或任何文件可以通過它找到文檔或任何想法中詞語的語義相似性。如何在文檔中執行語義相似性

+0

你知道這本書嗎? (語言無關)http://www-nlp.stanford.edu/IR-book/ – Ashalynd

+0

本書不包含單詞或句子之間的語義相似性 – ashkan

回答

0

在術語空間中表示文檔的標準方式是將術語視爲相互正交或彼此獨立,例如, 「原子」和「核」雖然是同義詞,因此可以互換,但被視爲不同的,而這對詞之間的語義相似性應該相當高。

因此,爲了實現基於語義相似度的分數,您需要知道一對單詞之間的關係,您可以使用以下任一方法。

  • 外部資源,如Wordnet或語義相似度庫,如DISCO
  • 一種語料庫分析方法,如潛在語義分析(LSA),它通過結合語義相似的術語(如「原子」和「核」)來降低術語空間的維度。
0

看一看這個Demo for semantic similarity

它顯示了不同的算法演示。你可以看到哪一個適合你,並嘗試去使用它。此外,這個「semilar」模塊可以在我認爲Java的幫助下使用。你可以嘗試使用它,我沒有嘗試過,但演示在頁面上是一樣的。謝謝:)