我試圖從Yelp數據集挑戰網站(https://www.yelp.com/dataset_challenge)打開文件。我已經成功完成了這一任務,但是,我無法打開該文件,因爲它沒有擴展名。它大約是4 GB。我認爲這可能是一個JSON文件,因爲當我搜索時,過去是這樣。但是,我無法弄清楚如何打開它或將其轉換爲CSV。我想在這些數據上用Python進行一些分析。誰能幫我?謝謝。Yelp數據文件類型
回答
我有同樣的問題。原來tar裏面的文件(沒有擴展名的文件)也是一個tar文件 - 所以下載基本上是一個tar文件中的tar文件。提取原始文件後,將焦油擴展添加到它,然後解壓。解壓後,你將擁有數據集的所有不同的json文件。
Yelp數據集示例的github項目有幾個樣本,其中一個是「json_to_csv_converter」,它應該可以幫助您完成要求的任務。
Yelp's Academic Dataset Examples
讓我知道,如果這有助於!
我看着這個,但我的印象是它必須是一個json文件。我會嘗試一下,我會看看這是否有效。謝謝。 –
從我可以告訴下載的是一個TAR文件(壓縮像一個ZIP文件夾)。您可能需要提取內容才能查看數據集。 請確保您的計算機設置爲顯示所有文件擴展名,我沒有親自看過數據,但聽起來好像它可能有一個擴展程序,只是在您的計算機上沒有顯示。我可能是錯的,但這是我的直覺。 –
我用7-zip來提取它。我不確定這是否是正確的工具。它似乎工作,但文件出來沒有擴展名。我想嘗試以某種明文形式查看內容,但文件太大。當我在諸如pycharm的IDE中打開它時,它會詢問它是什麼類型的文件,如果我選擇文本或JSON,它仍會顯示很多奇怪的字符。感謝您的答覆。 –
- 1. Yelp API顯示數據
- 2. Oracle數據類型的文本文件?
- 3. 存儲文件的數據類型
- 4. Excel文件導入 - 數據類型
- 5. 閱讀文件多數據類型(C++)
- 6. 數據類型和文件結構
- 7. C++:文件,編碼和數據類型
- 8. 映射CSV文件的數據類型
- 9. XML架構:數據類型(文本數據類型)
- 10. 附件Access數據類型?
- 11. pySpark數據幀「斷言isinstance(數據類型數據類型),‘數據類型應該是數據類型’
- 12. 寫入.csv文件(Excel類型文件)的數據在C#.csv文件(Excel類型文件)
- 13. 獲取關於API yelp的數據
- 14. 將大型分類數據文件插入數據庫
- 15. C#.NET - 用於映射CSV文件數據的數據類型
- 16. 如何將文件插入到文件流數據類型
- 17. 基於文件名而不是數據類型讀取文件
- 18. 類型轉換,從DB數據類型的Java數據類型
- 19. 類型'char *'但參數的類型'char'也有數據不打印到文件
- 20. 檢索yelp類別和子類別
- 21. 數據類型
- 22. 數據類型
- 23. 數據類型
- 24. 數據類型
- 25. 類型類Haskell中的數據類型
- 26. 類型類多態數據類型
- 27. 創建從一個文本文件與多個數據類型
- 28. 從C++中的文本文件讀取多個數據類型
- 29. 甲骨文嵌套數據類型作爲平面文件
- 30. C#和文本文件到類型化的數據集
哇!這工作!謝謝。我已經接受了這個答案。這工作完美。再次感謝你。 –