從混合數據文件中提取二進制數據

我想從使用R的混合數據文件（ascii和binary）中讀取二進制數據，數據文件是以僞xml格式構造的。我的想法是使用掃描功能，閱讀具體的行，然後將二進制轉換爲數值，但我似乎無法在R中做到這一點。我有一個Python腳本來做到這一點，但我想做R中的作業，python腳本如下。數據文件中的二進制部分由開始和結束標記以及。從混合數據文件中提取二進制數據

數據文件是包含光譜數據的專有格式，下面包含指向示例數據文件的鏈接。引用用戶手冊：

BinData元素的數據被寫爲二進制字節數組。每個二進制數組的8個字節表示一個雙精度浮點值。因此二進制數組的大小是 NumberOfPoints * 8個字節。對於二維數組，數據佈局遵循由SafeArrays使用的行主窗體。這意味着移動到下一個數組元素遞增最後一個索引。例如，如果以這樣的一維二進制字節數組形式寫入二維數組（例如Data（i，j）），則向二進制數組的下一個8字節元素遞增原始的最後索引二維數組（即Data（i，j + 1））。在的最後一個元素之後，寫入回車符和換行符字符（ANSI字符13和10）的組合。

感謝您提前提出任何建議！

鏈接到示例數據文件：

https://docs.google.com/file/d/0B5F27d7b1eMfQWg0QVRHUWUwdk0/edit?usp=sharing

Python腳本：

import sys, struct, csv 
f=open(sys.argv[1], 'rb') 
# 
t = f.read() 
i = t.find("<BinData>") + len("<BinData>") + 2 # add \r\n line end 
header = t[:i] 
# 
t = t[i:] 
i = t.find("\r\n</BinData>") 
bin = t[:i] 
# 
doubles=[] 
for i in range(len(bin)/8): 
    doubles.append(struct.unpack('d', bin[i*8:(i+1)*8])[0]) 
# 
footer = t[i+2:] 
# 
myfile = open("output.csv", 'wb') 
wr = csv.writer(myfile, quoting=csv.QUOTE_ALL) 
wr.writerow(doubles)

來源

2013-07-31 user2638366

如果二進制數據碰巧隨機包含終止字符串''，會發生什麼？ - XML文件中的二進制數據應該是base64編碼或類似的。 – Roddy

我寫的pack package使它更容易些。儘管如此，您仍然需要搜索二進制數據的開始/結束。

b <- readBin("120713b01.ols", "raw", 4000) 
# raw version of the start of the BinData tag 
beg.raw <- charToRaw("<BinData>\r\n") 
# only take first match, in case binary data randomly contains "<BinData>\r\n" 
beg.loc <- grepRaw(beg.raw,b,fixed=TRUE)[1] + length(beg.raw) 
# convert header to text 
header <- scan(text=rawToChar(b[1:beg.loc]),what="",sep="\n") 
# search for "<Number of Points"> tags and calculate total number of points 
numPts <- prod(as.numeric(header[grep("<Number of Points>",header)+1])) 

library(pack) 
Data <- unlist(unpack(rep("d", numPts), b[beg.loc:length(b)]))

來源

2013-07-31 16:54:16

這真是太好了，太簡單了。謝謝。 – user2638366

從混合數據文件中提取二進制數據

回答

相關問題