閱讀CSV與大熊貓有這種數據集

2017-06-16 80 views 1 likes

# title 
# description 
# link (could be not still active) 
# id 
# date 
# source (nyt|us|reuters) 
# category

例如：

court agrees to expedite n.f.l.'s appeal\n 
the decision means a ruling could be made nearly two months before the regular season begins, time for the sides to work out a deal without delaying the 
season.\n 
http://feeds1.nytimes.com/~r/nyt/rss/sports/~3/nbjo7ygxwpc/04nfl.html\n 
0\n 
04 May 2011 07:39:03\n 
nyt\n 
sport\n

我想：

columns = ['title', 'description', 'link', 'id', 'date', 'source', 'category'] 
df = pd.read_csv('news', delimiter = "\n", names = columns,error_bad_lines=False)

但它將所有信息放入列標題中。

有人知道一種方法來解決這個問題嗎？

謝謝！

來源

2017-06-16 Nico2rdj

回答

不能使用\n爲CSV分隔符，你可以做的是設置等於列名的索引，然後調換，即

df = pd.read_csv('news', index=columns).transpose()

來源

2017-06-16 01:05:34 maxymoo

這裏有幾點需要注意：

1）長度超過1個字符的任何分隔符由Pandas解釋爲正則表達式。 2）由於'c'引擎不支持正則表達式，我已經明確地將引擎定義爲'python'來避免警告。

3）我不得不添加一個虛擬列，因爲在文件末尾有一個'\ n'，後來我用drop刪除了該列。

因此，這些行將有望得到你想要的結果。

columns = ['title', 'description', 'link', 'id', 'date', 'source', 'category','dummy'] 
df = pd.read_csv('news', names=columns, delimiter="\\\\n", engine='python').drop('dummy',axis=1) 
df

我希望這有助於:)

來源

2017-06-16 02:52:53

相關問題

11. 從現有的數據集大熊貓
12. 順利讀取Movielens 1M數據集ratings.dat與大熊貓文件
13. 在熊貓csv閱讀器中指定數據類型
14. 閱讀在熊貓
15. 保持在閱讀大熊貓據幀與NROWS列名和skiprows
16. 讀取與timestamp列的CSV，與熊貓
17. 如何閱讀熊貓的大json？
18. 子集大熊貓據幀
19. 閱讀大數據子集
20. 用大熊貓閱讀空間分隔的數據
21. 在大熊貓閱讀器中創建新的數據庫
22. 閱讀的IIS日誌大熊貓數據幀
23. 熊貓數據框到csv與類
24. Csv與熊貓數據框缺失列
25. 大熊貓與熊貓
26. 閱讀csv文件使用熊貓有關閉列的問題
27. 數據科學熊貓CSV
28. 熊貓數據框爲CSV
29. Python讀物蜱數據大熊貓
30. 閱讀網址爲熊貓數據框與列名（python3）