2012-01-06 52 views
0

這是不是我的區域,所以我很抱歉,如果這不是在這個堆棧的範圍。如何從損壞的數據集中恢復貨幣信息?

我正在清理(用於個人娛樂並使可視化與他人分享)調查數據(download, 9MB),這些調查數據在發佈之前經過了一些匿名操作。

其中一個問題是關於小時支付率和允許自由形式的文本答案。其中一些答案了嚴重破字,下面的圖像顯示的兩個最常見的情況:

enter image description here

我不願意丟棄這些問題的答案,但我的損失如何將其恢復到有意義的狀態。

  1. 要求更好的數據轉儲 - 戳了相關人員,但不太有希望。

  2. 嘗試確定哪些字符以這種方式結束。處理編碼總是很麻煩,而且這些看起來不像我以前見過的任何破碎的角色,所以我不知道從哪裏開始,並且是否有工具可以幫助解決這個問題。這可能甚至不是有效的字符或貨幣符號。

  3. 嘗試將破損的字符與有效的貨幣字符匹配。我強烈懷疑這兩個人中的一個可能是€字符,其他可能是£,因爲該調查傾向於講英語的國家。但是,我能夠通過相對數量的人物可靠地備份這樣的猜測到其他答案嗎?不幸的是沒有提供地理數據,所以我無法將答案與國家相匹配。

+0

由於這類腐敗現象是很普遍的,你怎麼能甚至確信*數據的任何*是正確的?例如,可能大部分記錄都被刪除了,因此一條(原始)行中的值現在與下一行(原始)行中的貨幣相關聯。這似乎是一個數據取證問題,最好通過「操作」重新正確解決。 – whuber

+0

@whuber在上下文中似乎有理智的地方有答案,例如「每小時ЊЈ20 - ЊЈ30取決於客戶端」。如果能夠更好地獲得數據轉儲,那將是非常好的事情,但直到發生這種情況時(如果發生的話),我想嘗試從我擁有的東西中拯救我所能做到的。 – Rarst

+0

我不認爲它是Unicode的;如果你在Windows上有Textpad,Textpad非常擅長識別它所在的編碼。稍後當我啓動Windows時,我會看看它。 – jbowman

回答

0

確認這是由調查軟件中的出口錯誤引起的,字符確實對應於歐元和英鎊。

正如您懷疑的那樣。

enter image description here

這是一個@Polldaddy導出爲CSV格式錯誤

Pete Davies

+0

嗯......數據的顯示有些奇怪。使用寫字板或Excel,「歐元」顯示爲「ä‰å」(大多數字體,無論如何),英鎊顯示正確。 – whuber

+1

@whuber可能必須與我的Windows設置爲俄語區域設置。在你的情況下,歐元損壞的符號看起來拉丁文,在我的情況下(如圖),他們看起來像西里爾文。 – Rarst

相關問題