我的系統從一組句子中生成問題。根據句子的質量,可以爲單個句子生成多個問題。人類也被賦予相同的句子來產生問題。如何計算產生問題的系統的精度和召回率?
例如:
句子:俄羅斯的首都是莫斯科。
============#系統生成的問題#=============
問題1:俄羅斯的首都是什麼?
問題2:什麼是莫斯科?
============#人類產生的問題#=============
問題1:什麼是俄羅斯的首都?
問題2:什麼是莫斯科?
問題3:俄羅斯首都莫斯科?
我想評估我的系統的精度,召回率和準確性。但我不知道如何計算問題生成系統案例中的這些措施。
數據
- 註釋一套系統生成的問題(接受,不接受)
- 人類產生的問題(同組的句子)
鑑於這一數據,怎麼辦我計算這些措施?
註釋過的系統生成的問題集是否包含_all_可能的問題? – gudok
系統爲特定的WH-詞生成問題。它遵循以下策略:在句子中查找_answers_,然後爲每個_answer_生成_question_。 – dryleaf
你能假設人爲問題包含該句子的所有可能問題嗎? – NBartley