計算平均文檔長度使用Lucene

欲計算其中具有3個不同的字段每一個文檔的文檔集合（filed1，FIELD2，字段3）計算平均文檔長度使用Lucene

這是計算平均長度時只有一個字段是程序平均文檔長度那裏。

private byte[] normsDocLengthArr = null; 
private double avgDocLength; 
normsDocLengthArr = indexReader.norms("filed1"); 
      //norms-Returns the byte-encoded normalization factor for the named field of every document. 
double sumLength = 0; 

for (int i = 0; i < normsDocLengthArr.length; i++) { 
    double encodeLength = DefaultSimilarity.decodeNorm(normsDocLengthArr[i]); 
    //decodeNorm -Decodes a normalization factor stored in an index. 
    double length = 1/(encodeLength * encodeLength); 

    sumLength += length; 

} 

this.avgDocLength = sumLength/normsDocLengthArr.length;

這就是我如何擴展它的所有3個領域。

private byte[] normsDocLengthArrField1 = null; 
private byte[] normsDocLengthArrField2 = null; 
private byte[] normsDocLengthArrField3 = null; 
private double avgDocLength; 

normsDocLengthArrField1 = indexReader.norms("filed1"); 
normsDocLengthArrField2 = indexReader.norms("filed2"); 
normsDocLengthArrField3 = indexReader.norms("filed3"); 
      //norms-Returns the byte-encoded normalization factor for the named field of every document. 
double sumLength = 0; 

for (int i = 0; i < normsDocLengthArrField1.length; i++) { 
    double encodeLengthF1 = DefaultSimilarity.decodeNorm(normsDocLengthArrField1[i]); 
    double encodeLengthF2 = DefaultSimilarity.decodeNorm(normsDocLengthArrField2[i]); 
    double encodeLengthF3 = DefaultSimilarity.decodeNorm(normsDocLengthArrField3[i]); 

    //decodeNorm -Decodes a normalization factor stored in an index. 
    double length = 1/{(encodeLengthF1 * encodeLengthF1)+(encodeLengthF2 * encodeLengthF2)+(encodeLengthF3 * encodeLengthF3)}; 

    sumLength += length; 

} 

this.avgDocLength = sumLength/(normsDocLengthArrField1.length+ normsDocLengthArrField2.length+normsDocLengthArrField3.length;

我只是想知道我的實現計算3場督平均長度是否正確？

來源

2012-06-15 Kasun

我發現這種方式是正確的方式，計算平均文檔長度，哪個文件有3個字段與lucene。

byte[] normsDocLengthArrField1 = indexReader.norms("filed1"); 
byte[] normsDocLengthArrField2 = indexReader.norms("filed2"); 
byte[] normsDocLengthArrField3 = indexReader.norms("filed3"); 

double sumLength = 0; 
     for (int i = 0; i < normsDocLengthArrField1.length; i++) { 
      double encodeLengthFOne = DefaultSimilarity.decodeNorm(normsDocLengthArrField1[i]); 
      double encodeLengthFTwo = DefaultSimilarity.decodeNorm(normsDocLengthArrField2[i]); 
      double encodeLengthFThree = DefaultSimilarity.decodeNorm(normsDocLengthArrField3[i]); 

     //decodeNorm -Decodes a normalization factor stored in an index. 
     double lengthFieldOne = 1/(encodeLengthFOne * encodeLengthFOne); 
     double lengthFieldTwo = 1/(encodeLengthFTwo * encodeLengthFTwo); 
     double lengthFieldThree = 1/(encodeLengthFThree * encodeLengthFThree); 
     sumLength += lengthFieldOne + lengthFieldTwo + lengthFieldThree; 

    } 
    this.avgDocLength = sumLength/(normsDocLengthArrField1.length);

來源

2012-06-19 09:41:12 Kasun

計算平均文檔長度使用Lucene

回答

相關問題