的NoSQL或YesSQL

我有話的巨大詞典：的NoSQL或YesSQL

"word1" => [value1] 
"word2" => [value2] 
"word3" => [value3, value2] 
... 
"word400000000" => [value455, value3435, ..., value3423]

數量的單詞是非常大的。

現在我希望能夠檢索到所有正在被word指向的values。 word是字符串值。

什麼是最好的工具使用？我想到了簡單的數據庫解決方案，但DBA的人說，它不會工作真的很快。

因此，在我打開Cormen的書之前，是否有一些針對該問題的現成解決方案？

2011-01-31 David

在RDMSs（YesSQL），你將最有可能與LIKE或=運營商在所有記錄搜索值，即搜索將耗費爲O（n）。您實際需要的是一種稱爲inverted index的數據結構，它允許您在O（1）中查找所需值的列表。有關結構和算法的說明，請參閱維基百科文章，以瞭解隨時可用的工具。

有大量反向索引的實施方式的在搜索引擎像Lucene/Solr，Sphinx（其中，順便說一下，支持幾個數據庫作爲數據源），以及在一些鍵值存儲像Berkeley DB或Apache Cassandra。搜索引擎和關鍵值存儲之間的區別在於：

搜索引擎實行倒排索引更直接（據我所知，鍵值數據塊使用BigTable樣結構，是複雜得多，然後倒排索引本身）。
搜索引擎有大量的文本分析工具（解析，詞幹）。我不知道，如果你真的需要它，但如果你這樣做，使用搜索引擎。
鍵值DB是真實的數據庫。也就是說，與搜索引擎不同的是，他們有真實數據類型，不僅是字符串。此外，一些這樣的DB（例如Berkeley DB）可以存儲編程語言本地數據類型而不將它們轉換爲任何內部格式。因此，如果您需要一個包含所有功能的真實數據庫，請使用鍵值存儲。

另請注意，倒排索引結構非常簡單，所以如果以前的選項都不適合您，您可以輕鬆地自行實現它。

2011-01-31 22:57:35 ffriend