2012-05-06 100 views
2

我曾經爲了測量的精度和原代碼召回 有兩個文件,主題文件Lucene的標杆Lucene的回憶:計算精度和使用記錄儀

QualityQuery qqs[] = qReader.readQueries(new BufferedReader(new FileReader(topicsFile))); 

和qrelsFile:

Judge judge = new TrecJudge(new BufferedReader(new FileReader(qrelsFile))); 

這兩個文件是文本文件,據我所知。但我不知道我需要完整填寫這兩個文件,他們是由我手動編寫還是有一些代碼來填充它們所需的信息。

我需要在Lucene的程序這個精確度和召回測量任何幫助

感謝

回答

1

的Javadoc TrecJudge http://lucene.apache.org/core/old_versioned_docs/versions/3_4_0/api/all/org/apache/lucene/benchmark/quality/trec/TrecJudge.html

給出:

法官,如果給定的文檔是有關給定質量查詢,基於Trec格式進行判斷。

TREC(http://trec.nist.gov/)是一系列提供信息檢索競賽的會議。

我懷疑你可能不得不做一些你自己的偵探工作,但這是我感興趣的,我可能會添加一些更多的信息。

一般爲標杆的戰略將是這樣的:

  • 提供與您感興趣的領域它
  • 註釋部分,以指示什麼應該被召回的語料庫。這可能是兩組 - 一個與信息(正面)和一個沒有(負面)
  • 將其分爲兩部分 - 一個訓練您的應用程序和一個測試它(有更復雜的方法,需要更多)
  • 在測試集上運行評估軟件。

您將需要提供TREC格式的格式,我懷疑。

+0

非常感謝,現在對我很清楚。但我擁有超過700個文件的語料庫。據我瞭解,基於我的IR系統,我必須爲每個查詢指定與它相關的文件列表(作爲搜索結果),並將這些信息寫入topicsFile和qrlis文件。這是正確的?非常感謝你的幫助。 – Abreal