2010-09-20 59 views
0

現在我有一個看似簡單但具有挑戰性的task.I需要發展問題的數據集,我的問題分爲兩類:雅虎商品分類答

  1. FACTOID問題:「誰是法國現任總統。 「
  2. 免費問題:「您能評價下面的相機嗎?

現在我需要知道這兩個類別的百分比在雅虎!回答,以便我可以相應地維護我的數據集,但是我不知道做這種統計的好方法。手動執行看起來真的不可能,有沒有人有想法?我會非常感激,謝謝。

回答

1

你的意思是,從另一個認識一個?自動,沒有從網站的任何分類結束?這可能是不可能的。

我認爲你可以做的最好的是比較一些指標。 「免費」問題可能傾向於對更多文本做出更多貢獻;如果Y!Answers有一個討論系統......「Factoid」問題,他們會被更多地討論。可能更多時候以「什麼是......」開頭......等等。

也許會提取100個隨機問題,進行手動檢查並寫下百分比。

+0

好的,我其實是想更多的文字問題將歸類爲免費問題 – Kevin 2010-09-20 09:48:53

+1

@Robert是的,但它永遠不會是完全可靠的。對示例數據集進行手動研究可能是您最好的選擇 – 2010-09-20 09:52:09