2016-04-26 20 views
0

我正在處理大型數據集。我可以使用read.table命令閱讀其中的一些命令,但使用參數fill=TRUE,因爲這些數據集有一些代表NA的空格。標題行與第一個數據行之間的尺寸不匹配。 Bigmatrix

現在,我有一個高達35GB的數據庫,所以通常的read.table命令是無用的,所以我發現read.big.matrix函數進入bigmemory包。問題是它返回以下錯誤:

"Dimension mismatch between header row and first data row." I think it is because it is not reading the blanks as NA's.

你知道我該如何解決這個問題?謝謝。

+0

您可以使用較小的文件來測試這個理論,比如數據集的前10行或50行。 – lmo

+0

@lmo謝謝。使用read.table,我可以使用參數nrows來做你的建議,你知道read.big.matrix的類似參數嗎? – vmgarciag

+0

我查過了,它似乎沒有'read.big.matrix'類似的參數。你在使用Linux嗎?如果是這樣,你可以嘗試一下'head -50 filename> tempFile'。我認爲這會奏效,但仔細檢查纔是安全的。 – lmo

回答

0

我也有這個問題。我最終找到了解決方案,使用head = FALSE和read.big.matrix函數。這適用於我,但結果的第一行big.matrix對於所有列都有NA,因爲它不能將colnames轉換爲整數類型(如果已選擇整數作爲big.matrix的類型)。