我有一個使用bzip2壓縮的wikipedia轉儲(從http://dumps.wikimedia.org/enwiki/下載),但我不想解壓縮它:我想在進行解壓縮的同時處理它。 我知道可以用普通的Java來完成它(例如見Java - Read BZ2 file and uncompress/parse on the fly),但是我想知道它在Apache Flink中是如何做到的?我可能需要的是
從存儲器流BZ2我有CSV數據bz2壓縮的數據的塊在存儲器 compressed = load_from_network_service(...)
我想迭代解壓縮線的流。 for line in bz2_decompress_stream(compressed):
...
這樣的功能是否存在? 原則上,我可以寫入到磁盤,然後使用bz2.BZ2File,這似乎只需要消耗一個文件名