使用R Server時,我想簡單地從Azure Data Lake中讀取原始文本(如baseLine)。我可以連接並獲取數據,像這樣:readline等效於將Azure Data Lakes和R Server一起使用時
library(RevoScaleR)
rxSetComputeContext("local")
oAuth <- rxOAuthParameters(params)
hdFS <- RxHdfsFileSystem(params)
file1 <- RxTextData("/path/to/file.txt", fileSystem = hdFS)
RxTextData
實際上並沒有去,一旦執行該行獲得的數據,它可以作爲一個多符號鏈接。當您運行類似:
rxSummary(~. , data=file1)
然後的數據從數據檢索湖。但是,它總是被讀入並作爲分隔文件處理。我想要:
- 下載該文件並使用R代碼(最好不要)在本地存儲它。
- 使用某種
readLines
相當於從'raw'中讀取數據,以便我可以執行自己的數據質量檢查。
此功能是否存在?如果是這樣,這是如何完成的?
編輯:我也曾嘗試:
returnDataFrame = FALSE
內RxTextData
。這將返回一個列表。但正如我所說的,數據不會立即從數據庫中讀取,直到我運行諸如rxSummary
之類的東西,然後嘗試將其作爲常規文件讀取。
上下文:我有一個「壞」的CSV文件,其中包含雙引號內的換行符。這會導致RxTextData中斷。但是,我的腳本檢測到這些事件並相應地修復它們。因此,我不希望RevoScaleR讀取數據並嘗試解釋分隔符。
我有同樣的問題。 Azure無法做到這一點很簡單,這似乎是不真實的。如果你只能導入CSV文件,他們應該停止吹噓Azure如何運行R! –