4
我可以通過計算文檔中Term的數量 來輕鬆獲得TF,並且我想知道如何計算文檔頻率 即包含這個術語計算solr和java文檔中單詞的TF-IDF
我到目前爲止所做的是查詢具有大量行的solr並計算結果,但這非常耗時且內存昂貴。我想算的條款只
SolrQuery q = new SolrQuery();
q.setQuery("tweet_text:"+kw);
q.addField("tweet_text");
q.setRows(40000000);
SolrDocumentList results = null ;
try {
QueryResponse rsp = solrServer.query(q);
results = rsp.getResults();
} catch (SolrServerException e) {
e.printStackTrace();
}
ArrayList<String> tweets = new ArrayList<String>();
for (SolrDocument doc : results)
{
tweets.add(doc.getFieldValue("tweet_text").toString());
}
要訪問IndexReader對象,我應該首先包含 import org.apache.lucene.index.IndexReader; 和apache lucene罐子? –
沒有足夠的重視你如何搜索,因爲我可能應該有。我想你應該發送一個函數查詢來獲取它。我通過回答表示讚賞。 – femtoRgon
我構建了這個查詢 http:// localhost:8983/solr/db/select? DEFTYPE = FUNC&Q = docfreq(tweet_text, '@') 搜索的 '@' 字符 文檔頻率,當我打開這個網址我不能在結果發現docfreq 結果:HTTP:// pastie。 org/5407275 –