是否可以使用read_csv來只讀特定行？

我有一個CSV文件看起來像這樣：是否可以使用read_csv來只讀特定行？

TEST 
2012-05-01 00:00:00.203 ON 1 
2012-05-01 00:00:11.203 OFF 0 
2012-05-01 00:00:22.203 ON 1 
2012-05-01 00:00:33.203 OFF 0 
2012-05-01 00:00:44.203 OFF 0 
TEST 
2012-05-02 00:00:00.203 OFF 0 
2012-05-02 00:00:11.203 OFF 0 
2012-05-02 00:00:22.203 OFF 0 
2012-05-02 00:00:33.203 OFF 0 
2012-05-02 00:00:44.203 ON 1 
2012-05-02 00:00:55.203 OFF 0

，不能擺脫"TEST"字符串。

是否可以檢查一行是否以日期開始，只讀取那些行嗎？

來源

2012-05-23 user1412286

from cStringIO import StringIO 
import pandas 

s = StringIO() 
with open('file.csv') as f: 
    for line in f: 
     if not line.startswith('TEST'): 
      s.write(line) 
s.seek(0) # "rewind" to the beginning of the StringIO object 

pandas.read_csv(s) # with further parameters…

來源

2012-05-23 10:23:48 eumiro

謝謝！這工作。 – user1412286

當您從csv.reader得到row，以及何時可以肯定的是，第一個元素是一個字符串，那麼你可以使用

if not row[0].startswith('TEST'): 
    process(row)

來源

2012-05-23 10:10:06 pepr

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html?highlight=read_csv#pandas.io.parsers.read_csv

skiprows：類似列表或整數要跳過的行號（0索引）或要跳過的行數（int）

通過[0, 6]跳過「TEST」行。

來源

2012-05-23 10:17:15

恐怕他知道這些線條是怎麼樣的，而不是它們的索引。 – eumiro

另一種選擇，因爲我只是碰到了這個問題也是：

import pandas as pd 
import subprocess 
grep = subprocess.check_output(['grep', '-n', '^TITLE', filename]).splitlines() 
bad_lines = [int(s[:s.index(':')]) - 1 for s in grep] 
df = pd.read_csv(filename, skiprows=bad_lines)

它比@ eumiro的（閱讀：可能不工作在Windows上）便攜式少，需要讀取文件的兩倍，但具有的優點是您不必將整個文件內容存儲在內存中。

你當然可以和Python中的grep做同樣的事情，但它可能會變慢。

來源

2013-04-09 19:49:29 Dougal

是否可以使用read_csv來只讀特定行？

回答

相關問題