0
我有一個簡單tsv
文件結構如下:dplyr:如何在跳過某些行的同時讀取帶有標頭的tsv文件?
0 - headerline
1 - empty line
2 - PIG schema
3 - empty line
4 - 1-st line of DATA
5 - 2-nd line of DATA
我想讀它,可能使用readr::read_tsv
但這裏的問題。
如您所見,第一行包含標題。然後,我有三行,我做不想要讀取它(它們包含來自Apache PIG一些超級怪異的數據),並在第4行的數據開始。在Pandas
,我會做類似
df = pd.read_csv('/localpath/data.tsv', sep='\t', skiprows=[1,2,3])
,讓我讀頭和跳過一排,二,三。
我在readr::read_tsv
中看不到類似的選項。那就是:
df = read_tsv('/localpath/data.tsv', col_names = TRUE, skip = 4)
不解析頭...
任何想法?
也許在第一行讀取一個單獨的對象,然後讀取其餘行? – bouncyball
你會如何編碼?有沒有其他的替代品與其他包?我想盡可能減少玩數據 –
使用普通的'read.table'? – rawr