這是不是我的區域,所以我很抱歉,如果這不是在這個堆棧的範圍。如何從損壞的數據集中恢復貨幣信息?
我正在清理(用於個人娛樂並使可視化與他人分享)調查數據(download, 9MB),這些調查數據在發佈之前經過了一些匿名操作。
其中一個問題是關於小時支付率和允許自由形式的文本答案。其中一些答案了嚴重破字,下面的圖像顯示的兩個最常見的情況:
我不願意丟棄這些問題的答案,但我的損失如何將其恢復到有意義的狀態。
要求更好的數據轉儲 - 戳了相關人員,但不太有希望。
嘗試確定哪些字符以這種方式結束。處理編碼總是很麻煩,而且這些看起來不像我以前見過的任何破碎的角色,所以我不知道從哪裏開始,並且是否有工具可以幫助解決這個問題。這可能甚至不是有效的字符或貨幣符號。
嘗試將破損的字符與有效的貨幣字符匹配。我強烈懷疑這兩個人中的一個可能是€字符,其他可能是£,因爲該調查傾向於講英語的國家。但是,我能夠通過相對數量的人物可靠地備份這樣的猜測到其他答案嗎?不幸的是沒有提供地理數據,所以我無法將答案與國家相匹配。
由於這類腐敗現象是很普遍的,你怎麼能甚至確信*數據的任何*是正確的?例如,可能大部分記錄都被刪除了,因此一條(原始)行中的值現在與下一行(原始)行中的貨幣相關聯。這似乎是一個數據取證問題,最好通過「操作」重新正確解決。 – whuber
@whuber在上下文中似乎有理智的地方有答案,例如「每小時ЊЈ20 - ЊЈ30取決於客戶端」。如果能夠更好地獲得數據轉儲,那將是非常好的事情,但直到發生這種情況時(如果發生的話),我想嘗試從我擁有的東西中拯救我所能做到的。 – Rarst
我不認爲它是Unicode的;如果你在Windows上有Textpad,Textpad非常擅長識別它所在的編碼。稍後當我啓動Windows時,我會看看它。 – jbowman