如何使用C/C++有效地連接巨大的csv文件（1000列x 1000行）？

我有幾個（1-5）非常寬（〜50,000列）.csv文件。文件大小（.5GB-1GB）（平均大小約500MB）。我需要對預先指定的列上的文件執行連接。效率當然是關鍵。任何可以擴展以有效地允許多個連接列的解決方案都是一種獎勵，儘管目前尚不需要。下面是我輸入：如何使用C/C++有效地連接巨大的csv文件（1000列x 1000行）？

-Primary文件

-secondary文件（S）

主文件（名稱或山坳位置。）

輔助文件 - 加入柱 - 加入柱（姓名或職位）

-Left加入或內部加入？

輸出= 1個文件與多文件的結果加入

我期待解決使用基於C語言的問題，但當然的算法解決方案也將是非常有益的。

來源

2011-08-08 Joel

「Yikes」是我可以貢獻給這一個... – Alex

有一個C++實現已經這樣做：http://code.google.com/p/csvfix/該源可供下載。 – Cheesebaron

如果你的CSV文件很簡單（不需要引用，沒有逗號），而且你在Linux世界，你可以通過剪切，粘貼和排序來獲得 - 無需編寫C代碼。 – Arkadiy

如果您需要使用C或C++，請打開該文件並將該文件直接加載到數據庫（如MySQL）中。 C和C++語言沒有足夠的數據表結構，也沒有用於處理數據的功能。電子表格應用程序可能很有用，但可能無法處理這些能力。

這就是說，我建議每個字段（列）的對象。將一個記錄（文件特定）定義爲字段集合。從文件讀取文本行到字符串。讓記錄從字符串中加載字段數據。將記錄存儲到vector。

爲目標文件創建新記錄。對於來自輸入文件的每條記錄，使用這些字段加載新記錄。最後，對於每個記錄，使用分隔字符打印每個字段的內容。

另一種方法是掀起一個2維矩陣的矩陣。

您的性能瓶頸將是I/O。您可能想要讀取大量數據。效率的刺激是CSV文件的可變記錄長度。

我仍然建議使用數據庫。有很多免費的，如MySQl。

來源

2011-08-08 19:46:23

到目前爲止，你最好的選擇就像Sqlite，它有C++的綁定，它是爲照明快速插入和查詢量身定做的。

爲了實際讀取數據，您可以逐行訪問並在Sqlite中插入字段，不需要緩存破壞對象的對象:)作爲優化，您應該將多個插入操作合併到一個語句中（insert into table(...) select ... union all select ... union all select ...）。

來源

2011-08-08 19:52:30 Blindy

如果您打算使用SQLite，請注意'SQLITE_MAX_COLUMN'默認爲2000，所以您可能會遇到大約50k列的問題。它可以在編譯時設置爲最多32,767列。請參閱https://sqlite.org/limits.html – captainpete

這取決於你的意思是「加入」。文件1中的列是否與文件2中的相同？如果是這樣，你只需要一個合併排序。基於合併排序的解決方案很可能是「最好的」。但是我同意上面的@Bindy，你應該使用像Sqlite這樣的現有工具。這樣的解決方案可能更適合未來對列列表的更改。

來源

2011-08-08 20:01:52 jmucchiello

假設你有一個很好的理由不使用數據庫（據我所知，這5萬列可能構成這樣一個原因），你可能別無選擇，只能咬緊牙關，爲自己建立一個索引文件。依次讀取它以填充散列表，其中每個條目僅包含鍵列和整個行開始的文件中的偏移量。索引本身應該很好地適應內存，如果你有足夠的地址空間（即，除非你被32位地址卡住），你應該對實際的文件數據進行內存映射，這樣你就可以訪問和輸出適當的行就像順着離開文件一樣。

來源

2011-08-09 13:35:54

實際上，我將在32位體系結構上執行此操作。我的用戶預計不會超過32位或超過2GB的總內存。我認爲你必須對每個文件進行內存映射是正確的，因爲我可以有兩個以上的文件來執行加入/合併。你認爲我仍然可能用完地址空間？......是不是內存映射點？ – Joel

不知道如何不用完地址將是mmapping的點。如果映射5 GB，則32位地址中沒有足夠的位來告訴哪個字節要訪問哪個文件。在32位體系結構中，通常只有2 GB的用戶空間地址，這些地址受到在請求mmap之前已經映射的東西的影響。所以我會說這是一個折騰，你是否能夠mmap甚至一個1 GB的文件。您仍然可以在內存中使用索引，但是您必須在文件中來回查找記錄。 –

如何使用C/C++有效地連接巨大的csv文件（1000列x 1000行）？

回答

相關問題