2013-10-03 30 views
7

有沒有人有使用Stata和Hadoop的經驗?現在Stata 13有Java Plugin API,所以我認爲應該讓他們玩的很好。Hadoop和Stata

我特別感興趣的是能夠解析weblog數據,將其轉換爲適合統計分析的表單。

這個問題最近出現了on Statalist,但沒有迴應,所以我想我會在這裏嘗試一下,在這裏觀衆更可能有這種技術的經驗。

+0

作爲一個長期Statalist偉岸,我覺得比較,雖然善意,有點令人反感。我自己的猜測是你沒有得到答案,因爲答案是「不」。 –

+0

@尼克考克斯我的意思是沒有侮辱。我對Statalist及其成員有很大的尊重。我會改變我的尷尬措辭。 –

+0

很好,謝謝。 –

回答

1

德米特里,

我認爲這將是更容易做這樣的事情使用ELK堆棧(http://www.elastic.co)。 Logstash(中間層)有一些基於Apache Lucene引擎構建的解析器/標記器/分析器,用於清理和格式化日誌數據,並可將結果數據推送到elasticsearch中,從而公開一個HTTP API,您可以輕鬆捲曲以獲取結果(例如,使用insheetjson並傳遞HTTP GET請求作爲URL,並且應該將它導入到Stata中,而沒有太多問題)。

我一直在拼湊一個程序,使用Jackson JSON庫從Stata內部構建出更強大的JSON I/O功能,絕對不會介意嘗試與其他人合作來完成它。

希望這有助於 比利

0

我會接受一個(聯合國)受過教育的刺傷。從Java API的外觀來看,調用者似乎將Stata視爲基本的數據存儲。如果是這樣的話,那麼我會想象Stata會適合作爲數據庫的hadoop世界,並且可以通過它自己的InputFormat和OutputFormat進行訪問。在你的具體情況下,我想你會寫一個StataOutputFormat,你的reducer將用它來寫解析數據。唯一的缺點似乎是你引用的評論說,Stata的應用往往是I/O限制,所以我不知道使用Hadoop是真的要幫你,因爲

  • 你必須編寫所有的數據都無論如何,和
  • 寫入將被I/O綁定,無論您是否使用hadoop。