開源工具，文本聚類和自動彙總

我最新的項目需要的文本文檔之間的相似性測量，並給他們每人一些簡短的標題。有沒有開源的圖書館？或者如果我必須自己創建它，是否有任何有關這些主題的教程？我應該使用哪些工具？開源工具，文本聚類和自動彙總

2011-03-01 Ron

測量相似之處。您可以使用相同的潛在語義索引。 Here is one paper關於文件的相似之處。

文摘是比較困難的那麼的相似性措施，你必須生產出對人類有意義。 OpenNLP是所有與文本處理相關的基礎知識的好庫。與文本摘要更多的論文是here，可能是一個好的開始。

2011-03-01 19:49:27 Zimbabao

您可以使用edit distance函數之一來測量相似度，如果您執行搜索，則有可用於填充語言的實現，例如C# Leventshtein distance.。

文件之間的相似性也可能是Information Retrieval的問題，是一個流行的庫。 Lucene的使用vector space model確定文檔和查詢之間的相似性，並且還可以使用兩個文檔之間來測量相似性。 Java和C＃中還有其他語言的實現以及其他語言的實現。

問題也可以是natural language processing的問題，我使用的庫有NLTK和LingPipe。這些圖書館的目標遠非相似之處，它們有着陡峭的學習曲線，可能是過度殺傷。但是，這些可能有助於提取文檔的簡短標題。你可以用文檔縮放的矢量相似（check vector space model）的較舊的技術開始的文本文檔之間

來源

2011-03-01 19:44:58 eulerfx

開源工具，文本聚類和自動彙總

回答

相關問題