我有一個大小爲10MB的文本文件,我想將文本文件拆分爲2個相同的大小(5MB每個)在scala中按大小進行分區。有沒有辦法按照大小對文本文件進行分區?我有一個大小爲10MB的文本文件,我想將文本文件拆分爲2個相同大小(每個5MB)分區
在此先感謝
我有一個大小爲10MB的文本文件,我想將文本文件拆分爲2個相同的大小(5MB每個)在scala中按大小進行分區。有沒有辦法按照大小對文本文件進行分區?我有一個大小爲10MB的文本文件,我想將文本文件拆分爲2個相同大小(每個5MB)分區
在此先感謝
rdd.repartition(2)
將數據交叉成2個分區,它會使用默認的散列分區這可能不會讓你完全相等大小,但足夠接近。
雖然10MB已經很小了,但我不會過分擔心分區文件。
如果您的目標是簡單地拆分文件,請考慮使用命令行工具split
而不是編寫自己的程序來執行此操作。
謝謝。但如果我想根據需要的大小進行分區,就像我想設置的那樣,我收到的文件的大小和當我完成該文件的分區時,每個文件的大小必須爲2MB(不應超過那)..是否可以動態設置文件大小? – Prak
你到目前爲止嘗試過什麼?如果可能,請包含代碼或其中的片段 – JoeG