問題很簡單:您有一個本地spark實例(集羣或只是在本地模式下運行)並且您想從gs://從谷歌存儲中讀取gs://本地spark實例中的文件系統
1
A
回答
4
我提交這裏的解決方案,我想出了通過組合不同的資源:
下載谷歌的雲存儲連接器:gs-connector並將其存儲在
$SPARK/jars/
文件夾(檢查替代1在底部)從here下載
core-site.xml
文件,或者從下面複製文件。這是hadoop使用的配置文件,(由spark使用)。將
core-site.xml
文件存儲在一個文件夾中。我個人創建$SPARK/conf/hadoop/conf/
文件夾並將其存儲在那裏。在spark-env.sh文件中加入下面一行表示的Hadoop的conf fodler:
export HADOOP_CONF_DIR= =</absolute/path/to/hadoop/conf/>
創建一個從谷歌的相應頁面(
Google Console-> API-Manager-> Credentials
)OAuth2用戶密鑰。將憑據複製到
core-site.xml
文件。
選擇1:相反,將文件複製到該文件夾$SPARK/jars
的,你可以在罐子存放任何文件夾中,並在類路徑火花添加文件夾。一種方法是在spark-env.sh``folder but
中編輯SPARK_CLASSPATH
SPARK_CLASSPATH`現已被棄用。因此,你可以看看here如何在火花類路徑中添加一個罐子
<configuration>
<property>
<name>fs.gs.impl</name>
<value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem</value>
<description>Register GCS Hadoop filesystem</description>
</property>
<property>
<name>fs.gs.auth.service.account.enable</name>
<value>false</value>
<description>Force OAuth2 flow</description>
</property>
<property>
<name>fs.gs.auth.client.id</name>
<value>32555940559.apps.googleusercontent.com</value>
<description>Client id of Google-managed project associated with the Cloud SDK</description>
</property>
<property>
<name>fs.gs.auth.client.secret</name>
<value>fslkfjlsdfj098ejkjhsdf</value>
<description>Client secret of Google-managed project associated with the Cloud SDK</description>
</property>
<property>
<name>fs.gs.project.id</name>
<value>_THIS_VALUE_DOES_NOT_MATTER_</value>
<description>This value is required by GCS connector, but not used in the tools provided here.
The value provided is actually an invalid project id (starts with `_`).
</description>
</property>
</configuration>
相關問題
- 1. 將Spark工作寫入本地文件系統還是從本地文件系統讀取?
- 2. Spark獨立羣集無法讀取本地文件系統中的文件
- 3. 使用java從谷歌雲存儲中讀取文件
- 4. 從本地窗口存儲文件夾中讀取js文件
- 5. Spark(Scala)從驅動程序寫入(和讀取)到本地文件系統
- 6. 谷歌存儲文件名必須與/ GS前綴/
- 7. 如何從本地存儲的文件中讀取JSON?
- 8. Android/java無法從本地存儲中的.txt文件讀取
- 9. Dojo使用dojo.xhrGet從本地文件系統讀取json文件
- 10. 從本地計算機讀取文件並使用谷歌數據流寫入BigQuery或谷歌存儲
- 11. 在火花中讀取谷歌存儲桶文件
- 12. 檢查谷歌本地客戶端文件系統中是否存在目錄?
- 13. 無法讀取上傳到谷歌雲存儲存儲桶中的csv文件
- 14. 從谷歌地圖搜索中讀取文件json的問題
- 15. 緩存讀取系統存儲器VS CPU讀取系統存儲器
- 16. 使用谷歌腳本訪問本地文件系統
- 17. 本地文件系統作爲Django中的遠程存儲
- 18. 無法加載本地存儲在系統中的JSON文件
- 19. 真實文件系統中存儲的html5文件系統在哪裏?
- 20. 將存儲庫從github遷移到本地文件系統?
- 21. Spark SBT程序嘗試從本地文件系統中讀取而不是在IntelliJ項目中使用hdfs
- 22. 如何從本地文件系統和hdfs系統讀取Apache Samza中的文件
- 23. 如何將spark mllib模型存儲到本地文件系統(windows)
- 24. 當容器運行時,Docker從本地系統讀取文件
- 25. Ipad的閃存生成器,從本地文件系統讀取圖像
- 26. 從文件夾中的谷歌雲存儲下載文件
- 27. 無法從本地文件路徑讀取文本文件 - Spark CSV閱讀器
- 28. 從本地JavaScript文件中讀取本地文本文件?
- 29. 從Azure blob存儲中讀取文件
- 30. 如何從hbase獲取映像(以avro格式存儲)並存儲在本地文件系統中