我有很多來自運行網絡測試的文本報告和日誌文件。我想將這些報告和日誌存儲在數據存儲中,我可以根據解析的數據解析它們並運行報告。我還希望這個系統可以擴展,無論是在報告類型中,還是在它可以接受的日誌數量和查詢/報告數量方面都是如此。存儲和解析文本日誌和報告的理想系統
一個同事建議Hadoop
爲可能滿足這種需求,而另一個團隊在我的組織說,他們使用Cassandra
一個類似的項目(但有更多的數據,其中大部分是機器產生的)。我一直在閱讀關於Hadoop and Cassandra
,我真的不確定使用類似的東西是否過分,並且每個日誌/報告類型是否具有定製解析器的關係數據庫會更加理智。
從我的理解Hadoop
,我需要寫MapReduce
功能反正解析每個類型的輸入數據,我想我需要做同樣的事情,如果我用Cassandra
。我也讀了一些關於Hive
的信息,聽起來好像可能有用,但我沒有深入研究它。
在我的情況下使用Hadoop或Cassandra(或其他)有什麼好處(如果有的話)?
任何形式的意見,將不勝感激。
我打算在系統中使用的單個結果文件從幾K到500K到1.5MB。整個數據集的大小目前並不太大,不適合單個驅動器。正確的,我不需要分析生成的數據,因爲它(大部分)是由運行測試的人員手動創建的。是的,你的第三點是最重要的一點。我希望有一個設置,可以輕鬆地將新類型的測試結果集成到現有配置中,並且如果我們決定將其用於更多數據(包括數量和類型),就可以進行擴展。 – dooz 2013-03-07 16:15:39
感謝您的建議。我會更多地關注蜂巢和豬。我希望最終產品擁有一個至少讓一個視圖報告的Web前端,儘管在飛行中生成它們是理想的。現在,這個系統可能最多隻會被100個人(比如說)一次查詢,我懷疑它會超過幾TB的數據。 Hadoop + Hive/Pig在關係數據庫中設計表格併爲每種新數據類型編寫解析器方面有什麼優勢? – dooz 2013-03-07 16:23:30