我正在使用yelp數據集,當然這是數百萬條目,所以我想知道是否有任何方法可以下載你需要的東西,或者你必須手動選擇它?例如,yelp對從汽車修理到美容院的所有事情都有評論,但我只想要在餐廳進行評論。所以我必須閱讀整個內容,然後刪除不需要的行嗎?在使用read_csv將數據下載到熊貓數據框之前,是否有預過濾數據的方法?
0
A
回答
0
0
通常是,加載所有內容,然後過濾數據集。
但是,如果您確實想要進行預過濾,並且您使用的是unix系統,則可以在啓動Python之前使用grep
進行預過濾。
它們之間的折衷方案是使用Python和Pandas編寫預過濾器,這樣您下載數據,預過濾它們(將預過濾的數據寫入另一個csv)並使用您的預過濾數據進行播放。
要走的路要取決於你需要載入整個數據集的次數,如果你想讀取一次並放棄它,不需要預過濾器,但是在處理代碼時,如果你想測試很多時候,預過濾可能會爲您節省幾秒鐘。但是在這裏,還有另外一種可能性:使用ipython筆記本,這樣你就可以加載你的數據集,對它進行過濾,然後執行你當前在這個已經加載的數據集上工作任意時間的代碼塊,它比加載預先過濾的數據集還要快。
所以這裏沒有真正的答案,這取決於你的使用和個人口味。
+0
實際上與ipython筆記本一起被證明比我預期的要快得多!謝謝! – mmera
相關問題
- 1. 如何過濾熊貓數據框使用read_csv()或read_excel()後
- 2. 用熊貓過濾數據
- 3. 使用熊貓數據框將數據集加載到python
- 4. 在加載到熊貓數據框之前從CSV中過濾出行
- 5. 熊貓read_csv和數據框 - 如何使用加載一次
- 6. 過濾日期的熊貓數據框
- 7. 熊貓數據框的條件過濾
- 8. 使用熊貓過濾數據並將數值放入數據框
- 9. 熊貓數據框過濾對象列?
- 10. 將此數據讀入熊貓數據框的優雅方法?
- 11. 基於groupby過濾熊貓數據框(只有前3)
- 12. 將網絡數據文件加載到熊貓數據框
- 13. 與熊貓下載財政部的數據read_csv
- 14. 帶有塊大小的熊貓read_csv正在跳過數據
- 15. 熊貓:使用數據類型過濾數據幀
- 16. 熊貓 - 使用read_csv從發生器對象創建數據框
- 17. 熊貓數據框到RDD
- 18. 熊貓數據框到AnguarJS
- 19. 用熊貓過濾Excel數據
- 20. 過濾在熊貓數據幀
- 21. 過濾數據幀在熊貓上行
- 22. 乘法使用Python熊貓數據框
- 23. 過濾穩定速度條件下的熊貓數據框
- 24. python:pandas - 如何將前兩行的熊貓數據框結合到數據框頭?
- 25. 將數據加載到熊貓
- 26. 將熊貓數據框添加到列
- 27. 從python變量載入數據到熊貓數據框中
- 28. Python熊貓數據框:使用列表過濾列?
- 29. 無法使用數據框的元素的平方在熊貓
- 30. 熊貓數據幀索引過濾
你從哪裏下載? –
我從yelp數據集中下載了一個json文件,然後使用他們的轉換器將其更改爲csv文件 – mmera
您可以共享一個鏈接到您從中獲取它的位置,我想有一種方法可以進行過濾。 –