1

我想從網站用戶那裏收集某種地理信息 - 對於給定的一組數據,他們將標記複選框,指示地點是否已經給予屬性。是否有任何工具/框架基於整個收集的數據集(可能還有其他信息)來檢測欺詐或垃圾郵件提交?我想獲得過濾,更可靠的數據。衆包可靠性測量 - 垃圾郵件/欺詐檢測

+0

有現有的衆包工具,如亞馬遜的Mechanical Turk(大多數,順便說一句,是不免費的)一些服務/工具/框架。你對此感興趣嗎?或者你想自己做點什麼? – etov

+0

@etov - 我認爲從收集投票中提取「真相」假設欺詐投票是次要的,並且可以進行統計上的區分 – tomash

回答

2

不知道如果這是你要求什麼,但這裏有使用Amazon土耳其人從我的經驗的一些技巧:

有幾個學術論文處理這樣的問題。 here是一個不錯的選擇。 此外,根據以下一般建議,我創建了一個處理我的數據的自定義過程:

a。包括一個未解決的問題,並過濾掉未被回答的情況。自動回答這樣的問題很難,對於欺詐者來說,這也可能更加耗時,因而不太吸引人。

b。如果可能的話,不要使用二進制標度(即複選框),而要使用一些等級(例如1-4或1-6)。這會給你更多的數據。

℃。如果可用,請過濾掉填寫表單所用時間太短的情況。 (尤其有用的,如果你包括那個未解決的問題)

d。如果您有多個用戶輸入,請檢查重複答案,以及始終如一地給出遠超平均答案的用戶。 如果每個用戶只提交一個「表單」,請考慮在其中放置多個單元/問題,以便每個用戶獲得多個提交。

e。如果您每個用戶或用戶標識只有一個提交,則您的選項更受限制。如果您有足夠的數據,我可以建議過濾outliars(例如數據點遠離平均值3個標準偏差)。

f。在所有過濾之後,檢查數據中的一致或不一致(例如,通過檢查數據點的多少比例落在平均值的x個標準偏差範圍內)。在達成一致的情況下,使用平均值;如果不同意,請收集更多數據。

希望它能幫助,

+0

我在考慮自定義數據收集和過濾(不使用MTurk),但所有建議也非常有價值,謝謝! – tomash