apache-flink

    7熱度

    1回答

    我有一個使用bzip2壓縮的wikipedia轉儲(從http://dumps.wikimedia.org/enwiki/下載),但我不想解壓縮它:我想在進行解壓縮的同時處理它。 我知道可以用普通的Java來完成它(例如見Java - Read BZ2 file and uncompress/parse on the fly),但是我想知道它在Apache Flink中是如何做到的?我可能需要的是

    4熱度

    1回答

    有沒有類似於Mahout's XmlInputFormat但是對於Flink? 我有一個很大的XML文件,我想提取特定的元素。在我的情況下,這是一個維基百科轉儲,我需要得到所有<page>標籤。 I.e.如果我有一個文件 <mediawiki> <siteinfo>...</siteinfo> <page>...</page> <page>...</page>