2017-04-26 81 views
2

我試圖從Yelp數據集挑戰網站(https://www.yelp.com/dataset_challenge)打開文件。我已經成功完成了這一任務,但是,我無法打開該文件,因爲它沒有擴展名。它大約是4 GB。我認爲這可能是一個JSON文件,因爲當我搜索時,過去是這樣。但是,我無法弄清楚如何打開它或將其轉換爲CSV。我想在這些數據上用Python進行一些分析。誰能幫我?謝謝。Yelp數據文件類型

回答

1

我有同樣的問題。原來tar裏面的文件(沒有擴展名的文件)也是一個tar文件 - 所以下載基本上是一個tar文件中的tar文件。提取原始文件後,將焦油擴展添加到它,然後解壓。解壓後,你將擁有數據集的所有不同的json文件。

+0

哇!這工作!謝謝。我已經接受了這個答案。這工作完美。再次感謝你。 –

1

Yelp數據集示例的github項目有幾個樣本,其中一個是「json_to_csv_converter」,它應該可以幫助您完成要求的任務。

Yelp's Academic Dataset Examples

讓我知道,如果這有助於!

+0

我看着這個,但我的印象是它必須是一個json文件。我會嘗試一下,我會看看這是否有效。謝謝。 –

+0

從我可以告訴下載的是一個TAR文件(壓縮像一個ZIP文件夾)。您可能需要提取內容才能查看數據集。 請確保您的計算機設置爲顯示所有文件擴展名,我沒有親自看過數據,但聽起來好像它可能有一個擴展程序,只是在您的計算機上沒有顯示。我可能是錯的,但這是我的直覺。 –

+0

我用7-zip來提取它。我不確定這是否是正確的工具。它似乎工作,但文件出來沒有擴展名。我想嘗試以某種明文形式查看內容,但文件太大。當我在諸如pycharm的IDE中打開它時,它會詢問它是什麼類型的文件,如果我選擇文本或JSON,它仍會顯示很多奇怪的字符。感謝您的答覆。 –