Hadoop和Stata

有沒有人有使用Stata和Hadoop的經驗？現在Stata 13有Java Plugin API，所以我認爲應該讓他們玩的很好。Hadoop和Stata

我特別感興趣的是能夠解析weblog數據，將其轉換爲適合統計分析的表單。

這個問題最近出現了on Statalist，但沒有迴應，所以我想我會在這裏嘗試一下，在這裏觀衆更可能有這種技術的經驗。

來源

2013-10-03 Dimitriy V. Masterov

作爲一個長期Statalist偉岸，我覺得比較，雖然善意，有點令人反感。我自己的猜測是你沒有得到答案，因爲答案是「不」。 –

@尼克考克斯我的意思是沒有侮辱。我對Statalist及其成員有很大的尊重。我會改變我的尷尬措辭。 –

很好，謝謝。 –

德米特里，

我認爲這將是更容易做這樣的事情使用ELK堆棧（http://www.elastic.co）。 Logstash（中間層）有一些基於Apache Lucene引擎構建的解析器/標記器/分析器，用於清理和格式化日誌數據，並可將結果數據推送到elasticsearch中，從而公開一個HTTP API，您可以輕鬆捲曲以獲取結果（例如，使用insheetjson並傳遞HTTP GET請求作爲URL，並且應該將它導入到Stata中，而沒有太多問題）。

我一直在拼湊一個程序，使用Jackson JSON庫從Stata內部構建出更強大的JSON I/O功能，絕對不會介意嘗試與其他人合作來完成它。

希望這有助於比利

來源

2015-09-10 09:07:58 BBuchanan

我會接受一個（聯合國）受過教育的刺傷。從Java API的外觀來看，調用者似乎將Stata視爲基本的數據存儲。如果是這樣的話，那麼我會想象Stata會適合作爲數據庫的hadoop世界，並且可以通過它自己的InputFormat和OutputFormat進行訪問。在你的具體情況下，我想你會寫一個StataOutputFormat，你的reducer將用它來寫解析數據。唯一的缺點似乎是你引用的評論說，Stata的應用往往是I/O限制，所以我不知道使用Hadoop是真的要幫你，因爲

你必須編寫所有的數據都無論如何，和
寫入將被I/O綁定，無論您是否使用hadoop。

來源

2014-04-20 01:34:11

回答

相關問題