如何有效地確定兩個.csv文件之間的顯着差異

-1

有沒有辦法快速確定爲什麼兩個.csv文件應該是可以互換的？如何有效地確定兩個.csv文件之間的顯着差異

就像差異/驗證類型機制的關鍵評估。

我有我想要做一些可視化數據的d3.js地圖，當我用我initial data set它完美的作品，但在new set I created其與Uncaught RangeError: Maximum call stack size exceeded錯誤崩潰。

我最初的猜測是：

，因爲頭被命名爲differently-也許這就是問題 - >但是他們爲了生成是彼此，所以我懷疑這個兼容。
新的比舊的更大一點，可以嗎？

不幸的是，我不是很熟悉web開發，也不符合大ISH數據集這個以自然我一直在四處尋找一個解決方案的工作，但我似乎無法弄清楚。

來源

2016-01-28 s.matthew.english

無法看到您的代碼時發生了什麼。我注意到新的CSV在逗號前有空格（這將成爲代碼中字段名稱的一部分），所以這可能是需要看的東西。 –

刪除它的方法是什麼？與正則表達式？ 'perl'什麼的？ –

再一次，這取決於你在做什麼。你可以正確地處理這個問題，或者根本不重要。 –

處理任務的正確方法是將兩個CSV文件標準化（例如，使用其中一個csv2tsv工具），然後進行比較。假設字段以相同的順序，比較可能在bash環境中完成，像這樣：

diff <(sort FILE1.tsv) <(sort FILE2.tsv)

（或者你可能想使用-bw選擇：DIFF-Bw ....）

如果幸運的話，你也許可以跳過正常化的步驟，只需運行獲得一些洞察差異：

diff <(sort FILE1.csv) <(sort FILE2.csv)

如果列不是以相同的順序，那麼你會很明顯在執行diff之前必須重新排列它們。如何做到這一點部分取決於你沒有提供的一些細節（關於CSV文件）。

來源

2016-01-28 22:22:25 peak

對於CSV（或標準化）文件的高級視圖，查看字段數量的直方圖通常很有用，實際上您的ANCIENT和X .csv文件就是如此。將它們轉換爲.tsv後，字段數量的直方圖明顯不同。

$ awk -F\\t '{print NF}' X.tsv | sort -n | histogram 
9 57260 ########################################################## 
10 3080 =============================== 
11 2090 ===================== 
12 1103 =========== 
13 632 ======= 
14 304 ------------------------------ 
15 69 ------ 
16 116 ----------- 
17 42 ---- 
18 17 - 
19 10 - 
21 2 

$ awk -F\\t '{print NF}' ANCIENT*.tsv | sort -n | histogram 
88 12633 #############

：下面，它們被用在不需要在這裏詳細描述的，除了注意直方圖中的每一行示出了反映該頻率的值，它的頻率，和水平杆的格式水平地顯示很明顯，ANCIENT文件是格式良好的矩形CSV文件，而X文件具有不同的格式。它看起來像X文件有一個分層佈局，「，」作爲字段分隔符和「|」作爲子字段分隔符。

來源

2016-01-29 07:55:14 peak

如何有效地確定兩個.csv文件之間的顯着差異

回答

相關問題