我想提出一個測驗系統,當quizmakers插入到問題的試題庫,我檢查DB重複/非常非常類似的問題。全文檢索相關性在?
測試MySQL的MATCH() ... AGAINST(),我得到最高的相關性是30+,當我測試針對100%相似的弦。
那麼究竟什麼是相關性?引用manual:
相關性值是非負浮點數。零相關意味着沒有相似性。相關性的計算基於行中單詞的數量,該行中唯一字的數量,集合中單詞的總數以及包含特定單詞的文檔(行)的數量。
我的問題是如何測試的相關值,如果一個字符串是重複的。如果它是100%重複,請阻止它插入問題庫。但是,如果它只是如此相似,請提示測驗者驗證,插入與否。那我該怎麼做?對於100%相同的字符串,30+不是百分比,所以我是殘缺的。
在此先感謝。
我更喜歡儘可能使用MySQL搜索引擎。如果我要比較自己,我需要做很多準備和檢查,例如刪除所有的空格和特殊字符,將全部轉換爲大寫,以及不要。這是我的最後一招。 – syaz 2008-10-26 13:23:59