Python的數據分割成多個文件與規則

我需要一些想法，解決我的問題在Python分割文件。Python的數據分割成多個文件與規則

我超過1.000.000行的文件有2列：「ACCOUNTID」和「屬性」。一個「accountid」可以有多個屬性，但每個屬性是一行。看起來像這樣： Example

我需要將此數據拆分爲每個文件50.000行（這不是問題）。但是，我一個文件也只允許每個「accountid」50個「屬性」。而且有很多屬性超過50。

你有什麼想法如何從技術上解決這個最好？我不需要任何代碼;）

感謝

弗洛

2016-09-16 flo west

所以，如果用ACCOUNTID = 1的項目有13萬點的屬性（即13萬行顯示出來），你想讓它3個單獨的文件（前兩個文件將包含50,000行與ACCOUNTID = 1，而3號文件將剩餘30,000行以及20,000行其他項目）？ – shahins

是的，但分裂本身不是問題。它變得複雜，因爲每個文件只允許每個單一ID有50個屬性。我已經有一個複雜的ID來解決這個問題。就像首先分裂成40,000個批次一樣，然後分割，然後運行第二個腳本，將具有超過50個屬性的ID移動到其他文件。 –

下面是我想到一個解決辦法：

首先你要確定你將多少個分區需要的基礎上，兩個參數X和Y. X由具有最大數量屬性的會計確定。假設accountid = 7的屬性的最大數量等於270個屬性。這意味着您將需要至少6個分區來確保存在解決方案，其中沒有任何分區將具有超過50個的acountid = 7行（基於鴿子的原理）。 Y取決於你所擁有的總行數和每個分區的大小（在你的例子中Y是1000,000/50,000 = 20）。我們將X和Y的最大值作爲我們需要的分區數量。在這種情況下：分區= MAX（6,20）的數= 20

現在，您可以使用ACCOUNTID排序整個表。我們假設我們知道每行的行號。然後我們將分區k定義爲：

P_k = {row | row_number % 20 = k}

這應該滿足您的兩個要求。

注意，如果MAX（X，Y）= X，你將不得不讓一些分區與小於50K行。否則，這個問題沒有解決辦法。

來源

2016-09-18 19:29:25 shahins

謝謝你！我已經在考慮這種方法，但是從具有更多經驗的人那裏獲得這種反饋是非常棒的。我會盡力將這一點納入其中。祝我好運 ;） –

Python的數據分割成多個文件與規則

回答

相關問題