2009-07-08 99 views
5

的如何獲得相同的結果http://developer.yahoo.com/search/content/V1/termExtraction.html術語提取:Generatings標記出文本

這個問題已經被問過好幾次。

試圖接近與現有的解決方案,這個問題我偶然發現了 「文本分析」 的Solr的索引文件作爲之前執行描述在http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - 其中也包括詞幹。

所以最終的索引將主要由用於描述文檔的術語組成。

有沒有提供直接使用分析器,標記器和令牌過濾器的解決方案?如果solr是出路,從solr的索引中獲取這些數據的最好方法是什麼?

回答

4

Solr是一種創建自定義搜索引擎的方式。它似乎不適合這項工作。 Wikipedia article about term extraction在其「外部鏈接」部分列出了幾個用於術語提取的Web應用程序。 OpenNLP有一個可能有用的工具列表。 Its Chunker可能會有幫助。

+0

是的,Solr條款只會返回唯一的令牌(也許減去一些常見的詞,並做詞幹等)。它不會真正告訴你文中的重要內容。對於它的價值,你可以通過http://wiki.apache.org/solr/TermsComponent從solr中剔除條款 – mlathe 2010-01-28 18:49:38

0

只是要求解析的術語例如

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1 

更多信息,請參見TermsComponent