我有各種包含數百萬條記錄的日誌文件。我想把記錄從這些文件推送到mongodb,我必須在插入MongoDb之前對數據進行規範化處理,並在文件中的每行/記錄中使用作爲常用變量的ID。數據在MongoDB中GB的數據攝入
MY_MONGO_DB_SCHEMA =
{
"ID" : "common in all the files",
"LOG_FILE_1":[{
# variable from LOG_FILE_1
"var1" : "contains the value matching with ID in
record",
"var2": "contains the value matching with ID in
record"
}],
"LOG_FILE_2" :[{# variable from LOG_FILE_2
"var3: "contains the value match with ID in record"
"var4": "contains the value match with ID i record"
}]
}
我寫的Python腳本,但它會佔用大量的內存,或者需要大量的時間,如果我用我的劇本限制內存的使用。有人可以建議使用APACHE STORM,APACHE KAFKA或任何其他類型的要求嗎?我從來沒有在卡夫卡和風暴之前使用它
如果它正在消耗「大量內存」,那麼當你應該用「塊」處理時,你可能只是「sl」「整個文件到內存中,相當肯定會有大量的讀取你的日誌文件的例子, 「大數據」不是「創可貼」或任何真正有形的東西,它更像是一種「哲學」,只有當你已經瞭解基礎知識時纔會有所幫助, –
那麼,你需要找出什麼我們不知道你的情況有什麼問題,你的代碼是否寫得很糟糕?你的數據庫索引太多了嗎?你的數據庫服務器服務不足?等等。 –