1

我想在使用Google數據流時讀取文件時跳過前導行。該功能是否可用於最新版本? 這些文件保存在谷歌存儲。 我將這些文件寫入大查詢。在讀取Google數據流中的文件時跳過前導行

bq加載命令有選項--skip_leading_rows。從文件讀取時,此選項跳過前導行。

我想在google數據流中使用類似的功能。 我的輸入格式如下。

我想谷歌的數據流忽略第一線,只有線的其餘部分寫入大查詢

enter image description here

+1

一般來說,內置的TextIO轉換不支持這一點,但讓我們嘗試找到有效的東西。你可以編輯這個問題,並給出你想要讀取的輸入格式的簡短示例片段嗎? – jkff

+1

可能重複的[跳過標題行 - 是否可以使用Cloud DataFlow?](http://stackoverflow.com/questions/28450554/skipping-header-rows-is-it-possible-with-cloud-dataflow) –

+0

嘿嘿但是這個問題在大約1。5年前得到了回答。因此,自那時以來,新功能可能已添加到數據流中。 –

回答

2

此功能在數據流/帕爾多的直接支持。

您需要使用Filter.byPredicate()來實現此目的。

例如

PCollection<X> rows = ...; 
PCollection<X> nonHeaders = 
    rows.apply(Filter.by(new MatchIfNonHeader())); 
相關問題