是否有人知道任何鏈接,論文,演示文稿或博客文章描述了建立在分佈式鍵/值存儲上的大型全文搜索引擎?基於分佈式鍵/值存儲的搜索引擎的體系結構?
我對索引的組織特別感興趣。數據結構究竟是什麼?字典和帖子在哪裏以及如何存儲?查詢處理的工作流程是什麼?如何處理查詢以便不需要在網絡上傳輸大量數據?
我收集Blekko是這樣構建的。我想知道他們或他們的競爭對手實際上做了什麼。
是否有人知道任何鏈接,論文,演示文稿或博客文章描述了建立在分佈式鍵/值存儲上的大型全文搜索引擎?基於分佈式鍵/值存儲的搜索引擎的體系結構?
我對索引的組織特別感興趣。數據結構究竟是什麼?字典和帖子在哪裏以及如何存儲?查詢處理的工作流程是什麼?如何處理查詢以便不需要在網絡上傳輸大量數據?
我收集Blekko是這樣構建的。我想知道他們或他們的競爭對手實際上做了什麼。
我不知道有任何博客文章或文章可以回答你的問題恰恰是。但是,這裏有一些我認爲與您的問題相關的資源,我希望他們能幫助您提供答案。
首先,傑夫·迪恩對谷歌的體系結構的發展基調,
接下來,還有名爲Lucandra千伏商店之上的開源搜索引擎 - 顧名思義,Lucene在Cassandra之上,都是Apache項目。
爲了瞭解Lucandra是如何工作的,檢查出的實施和所做的是談論如何卡桑德拉Lucene索引的數據呈現。
同樣,你也可以看到Lucene和HBase是如何共存的。這裏有一個鏈接到Apache提交/補丁,它集成了使用一個在其他搜索層,
對Redis的
另一個類似的文章接下來,查看可伸縮搜索系統的操作要求
獨聯體實驗室有關於這個問題的一些優秀的研究論文,你應該看看,
對於通用搜索引擎假設可能在上面製作,這裏有指向書籍的鏈接,
Google MapReduce可能會讓你感到很滿意。