2012-09-28 60 views
1

我是新來的大數據文件的世界,我想知道我的數據的格式可能是什麼。數據位於非常大的文本文件中,其中包含一些匿名醫療記錄。下面粘貼了一個樣本。未知的數據庫格式

我瞭解每列是什麼,除了第四列,似乎是一個代碼相關的相似行。這種類型的數據來自關係數據庫嗎?如果是這樣,這種格式是否有名字?

任何幫助將不勝感激。

649|183|Vital Signs|33877743-BE2A-48EE-A53C-D507D59CE540|1169|Blood Pressure (Diastolic)|80 
649|183|Vital Signs|33877743-BE2A-48EE-A53C-D507D59CE540|1170|Blood Pressure (Systolic)|140 
649|183|Vital Signs|33877743-BE2A-48EE-A53C-D507D59CE540|1174|Vital Signs Delta|0 
649|183|Vital Signs|33877743-BE2A-48EE-A53C-D507D59CE540|1175|Pulse|64 
649|183|Vital Signs|33877743-BE2A-48EE-A53C-D507D59CE540|1176|Respiratory Rate|14 
649|183|Vital Signs|33877743-BE2A-48EE-A53C-D507D59CE540|1178|Weight|73.7 
649|183|Vital Signs|33877743-BE2A-48EE-A53C-D507D59CE540|1180|Weight Units|Kilograms 
649|183|Vital Signs|ACEFCC5F-C6FA-426F-AC26-7A23D7E6B26E|1169|Blood Pressure (Diastolic)| 
649|183|Vital Signs|ACEFCC5F-C6FA-426F-AC26-7A23D7E6B26E|1170|Blood Pressure (Systolic)| 
+2

看起來像一個GUID:http://en.wikipedia.org/wiki/Globally_unique_identifier。 – Mansfield

+0

第4列包含一個GUID。沒有一個模式不可能說出它的相關性。可能是另一個文件中定義的外鍵。 –

+0

應向提供文件的個人或組織或希望您使用該文件的客戶端請求定義文件中的列。雖然它看起來好像是我們的GUID,但爲什麼他們提供了它,他們期望您如何處理它,這些都是需求定義過程的一部分。 – HLGEM

回答

1

看起來像使用|作爲分隔符的正常分隔樣式文本文件。

它不是一個特定的標準,但許多不同的程序可以產生和使用這些文件。不可能告訴哪些特定的軟件產生了這種情況。

根據平臺和語言的不同,您將能夠很容易地解析該文件 - 它看起來像每行一條記錄,每個字段由|分隔。

第四欄是GUID。 GUID在許多應用程序中非常常見,並且在很大數據庫和斷開連接的數據庫場景中多次用作標識符(因爲它們的本質意味着重複數據不可能被創建)。

+0

非常感謝您的回覆。解析文件,因爲我會解析csv並不困難。但是,該文件表示更豐富的結構,即可以更好地表示爲結構而不是矩陣的結構。我被告知這是一種JSON格式,但它與我已經能夠找到的任何JSON樣本看起來非常不同...... – Gregor

+0

@Gregor - 這當然不是JSON。我也沒有看到發佈示例的層次結構(或豐富的結構)。 – Oded

+0

我同意樣本可能不是很完整。在這裏,我們正在看病人649和兩個不同日子的生命體徵(GUID與在同一天進行的測量相同)。例如,我將這樣的數據:患者(649).VitalSigns(1).BloodPressDias = 80,患者(649).VitalSigns(1).BloodPressSyst = 140等和患者(649).VitalSigns(2) .BloodPressDias = NaN。 – Gregor