的如何獲得相同的結果http://developer.yahoo.com/search/content/V1/termExtraction.html術語提取:Generatings標記出文本
這個問題已經被問過好幾次。
試圖接近與現有的解決方案,這個問題我偶然發現了 「文本分析」 的Solr的索引文件作爲之前執行描述在http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - 其中也包括詞幹。
所以最終的索引將主要由用於描述文檔的術語組成。
有沒有提供直接使用分析器,標記器和令牌過濾器的解決方案?如果solr是出路,從solr的索引中獲取這些數據的最好方法是什麼?
是的,Solr條款只會返回唯一的令牌(也許減去一些常見的詞,並做詞幹等)。它不會真正告訴你文中的重要內容。對於它的價值,你可以通過http://wiki.apache.org/solr/TermsComponent從solr中剔除條款 – mlathe 2010-01-28 18:49:38