2017-09-13 44 views
0

感謝您的時間。正確格式化Watson Retrieve的數據&排名

我想知道您對將格式化特定數據上傳到Watson Retrieve和Rank的最佳做法的想法。

我正在建立一個服務,回答關於市法律和法令的問題,以幫助培訓資源/網絡貧困農村地區的新當選官員。

這裏是我面臨的難題:

比方說,有200個鄉鎮中,我提供服務的區域。每個鎮都有類似但不同的法令和條例。每個向系統提出問題的人都會根據他們想要完成的事情提出「相對」相似的問題。但是,根據城鎮的不同,答案會有很大的不同。

I.E.分區規定在各個城鎮之間是相似的,但檢索錯誤的城鎮條例將是完全無用的,儘管相當接近。

「Smallville的挫折條例是什麼?」可能會拉起任何城鎮挫折條例或與Smallville有關的事情,但不是他們的挫折條例。

我有所有的文件詳細說明所需的法令和法規。我只是想找一些關於如何構建它的建議,以確保人們獲得準確的數據。

我應該爲每個鎮的一組文檔創建一個單獨的集羣嗎?我是否應該把所有東西都放在一起,只是嚴格訓練以提高準確性,或者還有另一條路我沒有想到。再次

感謝,

馬特

回答

1

這只是一點點幫助你找到你的解決方案。

Suppond,你有許多問題映射到一個單一的應答文件表明,這裏的用例可能是一個很好的適合Natural Language Classifier或NLC和Retrieve-and-Rank(RnR)的某種組合。

我真的建議你看看這個文章在介質內部:

  • Part I - 與IBM沃森檢索和等級發展:Solr的配置

  • Part II - 與IBM沃森開發檢索和等級:培訓和評估

  • Part III - 使用IBM Watson進行檢索並排名:自定義功能 (對你的問題很重要)。

鏈接以供參考:

  • 看到官方documentation有關RNR準備訓練數據
  • 參閱使用NLC的正式文件。
+0

NLC看起來正是我所需要的。謝謝! –