SparkSQL和locality

2015-09-09 62 views 0 likes

我在hdfs上使用sparksql。
每個hdfs節點都有一個火花從機運行。
當我運行一個大型查詢時，hdfs似乎在節點之間發送數據以激發從屬。
爲什麼HDFS沒有爲本地數據提供本地火花？
所有任務均顯示ANY的地點級別。
我甚至設置了spark.locality.wait = 10000。

任何我失蹤或需要看看？

感謝，
SparkSQL和locality

來源

2015-09-09 Younes

回答

星火需要問紗線執行人它的工作運行之前。因此，紗線爲執行者分配容器而不知道數據在哪裏。爲了解決這個問題，你需要告訴激發你要創建這樣SparkContext（假設你使用的Scala）時創建的文件：

val locData = InputFormatInfo.computePreferredLocations(
    Seq(new InputFormatInfo(conf, classOf[TextInputFormat], new Path(「myfile.txt」))) 

val sc = new SparkContext(conf, locData)

來源

2015-09-09 20:29:12

對不起，我沒有提到，我使用sparksql在thrify服務器上。 – Younes

相關問題

1. Locality-aware Mergesort
2. PySpark如何在SparkSql和Dataframes
3. SQL和SQL沒有在SparkSQL
4. SparkSQL：幀內SparkSQL應用表登記
5. CLLocationManager爲Xcode中的locality返回null
6. 懶評價SparkSQL
7. Pyspark sparkSql問題
8. SparkSQL四倍表
9. 相當於SparkSQL
10. SparkSQL中的Concat

11. sparksql drop hive表
12. 如何使用PySpark，SparkSQL和Cassandra？
13. 日期和間隔增加在SparkSQL
14. sparksql：禁用INFO StatsReportListener
15. 保存JSON從SparkSQL
16. SparkSQL PostgresQL Dataframe分區
17. Spark新手（ODBC/SparkSQL）
18. HBase表上的SparkSQL
19. sparkSQL的SBT依賴
20. SparkSQL日期時間函數
21. 使用SparkSQL閱讀Impala表
22. sparkSql .registerTempTable：ERROR表未找到
23. SparkSQL：我正在做對嗎？
24. SparkSQL跨越Cassandra邏輯行
25. SparkSQL拆分字符串
26. Hive/SparkSQL的Hibernate方言？
27. Geomesa + SparkSQL集成問題
28. 如何從MySQL和Oracle加入SparkSQL數據？
29. 如何使用SparkSql和Hive爲maven創建pom.xml？
30. Hive和SparkSQL不支持日期時間類型？