-1

我想計算我需要提取的正確數據記錄,提取的數據記錄總數和不正確的數據記錄的召回和精度。如何計算提取的正確數據記錄的數量?

我輸入html頁面,我從中提取有用的數據並使用包裝器生成輸出html頁面。

+0

你需要一些東西來比較你的輸出。如果你正在評估一個檢索系統,你需要一個「理想的」(a.k.a黃金標準)檢索到的文件,你將會與之比較。在這種情況下,您需要有一組正確的數據記錄,可能是由人工完成的。 – jksnw

+1

請詳細寫下你的問題,並解釋你想做什麼。 –

+0

我同意@Nilesh,可以有更多的細節添加到您的問題。另外,爲什麼對答案進行投票?如果發生錯誤,可能是爲什麼或編輯發表評論。 – jksnw

回答

-1

要計算已提取多少正確的數據記錄,您需要有一個reference set正確的數據記錄。參考數據是您將輸出與之比較的參考數據,參考數據是您的輸出應匹配的理想輸出。參考集也稱爲"gold standard"集。

參考集可能是手動創建的,或者如果您的目的存在更好的IR系統,可能由另一個系統生成。

要計算提取的正確數據記錄的數量,您只需計算系統輸出和黃金標準輸出中的記錄數。