我是Analytics和Amazon的新用戶。我發現了一些在AWS S3上公開的數據集。我下載了s3fox收費但無法使用它。有什麼其他的方式來下載這些數據?我不想使用EC2實例或Hadoop。我只是想下載這些文本文件並運行R.如何訪問Amazon S3中的公共數據
我想下面的文件下載: S3:// AWS-publicdatasets /共爬行/解析輸出/段/ 1341690169105 /的TextData-00112
問候 巴巴
我是Analytics和Amazon的新用戶。我發現了一些在AWS S3上公開的數據集。我下載了s3fox收費但無法使用它。有什麼其他的方式來下載這些數據?我不想使用EC2實例或Hadoop。我只是想下載這些文本文件並運行R.如何訪問Amazon S3中的公共數據
我想下面的文件下載: S3:// AWS-publicdatasets /共爬行/解析輸出/段/ 1341690169105 /的TextData-00112
問候 巴巴
你可以下載使用imiperalix提到的鏈接及以下線路運行至L以表格形式填充數據。
textdata = read.table(「{path} textData-00112」);
嗨薩蒂希,謝謝你的進一步的一步。我試了這個,最終發現只有1行,即「V1 1 SEQ \ 006 \ 031org.apache.hadoop.io.Text \ 031org.apache.hadoop.io.Text \ 001 \ 001'org.apache.hadoop.io。 compress.GzipCodec」。我絕對迷失在這裏。我將文件轉換爲.csv格式並打開它以查找大約250000行Corrupt數據。是否我可以在這方面做更多的事情? – baba