我要尋找一個解決方案來構建具有以下特點的應用程序:是Python和Hadoop的一個很好的選擇嗎?
的-potentially-百萬錶行的數據庫的化合物,可能有一些小的相關。
快速單的查詢,如「SELECT * FROM表WHERE LIKE字段值%」
將Linux服務器上運行:單個節點,但在未來可能的多個節點。
您認爲Python和Hadoop是不錯的選擇嗎?
我在哪裏可以找到一個用Python編寫的快速示例來向Hadoop添加/檢索信息,以便查看運行我的一隻眼睛並做出決定的概念證明?
在此先感謝!
這是一個太寬泛的問題,但它的聲音Hadoop似乎矯枉過正。支持SQL的傳統內存中框架(例如用於Web應用程序的Django,用於數據分析的Pandas等)應該足夠快速。 – jdehesa
當你說hadoop你的意思是HDFS? 如果是這樣,那麼你會想看看Apache Parquet。 「無論數據處理框架,數據模型或編程語言的選擇如何,Apache Parquet都是Hadoop生態系統中任何項目可用的列式存儲格式。」 https://parquet.apache.org/ –
我同意這個問題很廣泛,但幸運的是有一個直截了當的答案,所以我認爲它不需要關閉。 –