SOLR中倒排索引的數據結構究竟是什麼樣子

全部，請原諒我剛開始學習如何使用SOLR。強大的SE。而且我已經知道Inverted Index是SOLR中搜索速度如此之快的原因。在很多人看來。像Solr in action，Apache Solr search pattern。倒像索引如下所述和描述。SOLR中倒排索引的數據結構究竟是什麼樣子

而且我也知道Document由Fields。在我對上述數據結構的理解。當用像「哈利」這樣的特定術語進行搜索時。 SE將返回結果文件1,2。我對此毫無疑問。當我讀guide from apache。它說

分析發生在兩個上下文中。在索引時，當創建一個字段時，分析結果得到的標記流將被添加到索引中，併爲該字段定義一組術語（包括位置，大小和等等）。在查詢時間，搜索的值是分析和結果的條款匹配存儲在字段的索引。

我對這個閱讀感到困惑。

倒排索引是否指向文檔或字段？在我提到的圖中。它沒有提到有關領域的任何事情。它只是說索引指向文檔ID。但在我引用的閱讀。它確實告訴我們倒排索引指向的是字段而不是文檔。（如果我錯了，請糾正我。）謝謝。

來源

2015-11-26 Joe.wang

我可能會理解你的困惑，如果你想理解solr搜索，索引，分析，我認爲你必須先學習lucene。
爲什麼？因爲solr是基於lucene的，所以這是一個lucene的wiki網址，它可以幫助你！ lucene wiki

來源

2015-11-26 08:11:02

讓我們用你上面提到的例子。我們有2個文件：

Doc1: Harry Potter And The Half Blood Prince 

Doc2: Harry Potter And The Deathly Hallows

要建立倒排索引

步驟1 - 我們需要這些記號化文檔與一個標記條款。所以，我們說，我們使用標記生成器一個，並得到如下結果：

文檔1：Harry，Potter，And，The，Half，Blood，Prince

文檔2：Harry，Potter，And，The，Deathly， Hallows
第2步 - 建立倒排索引

Harry - >文檔1，文檔2

Potter - >文檔1，文檔2

And - >文檔1，文檔2

The - >文檔1，文檔2

Half - >文檔1

Blood - > Doc1

Prince - >文檔1

Deathly - >文檔2

Hallows - >文檔2

要查詢/搜索

步驟1 - 我們還需要首先標記搜索詞

例如，我們的搜索詞是Harry Potter。你有兩個標記器可供選擇。 Tokenizer A與我們在索引過程中使用的一樣，會將我們的詞彙分成兩個字詞：Harry和 Potter。但Tokenzier B可以將它們標記爲Harry Potter。
步驟2 - 做查詢

如果選擇分詞器A，你Harry和Potter，他們都在我們的倒排索引，那麼你就可以得到搜索結果：文檔1和文檔2。但是，如果您選擇Tokenizer B，則會獲得不在我們的倒排索引中的術語Harry Potter，這意味着您無法從倒排索引檢索任何結果。

結論：Solr中/ Lucene的一切都索引和搜索是基於術語。您可以選擇不同的斷詞/過濾器或索引或搜索過程中一起將它們組合起來，你會得到不同方面的輸出。請參閱此 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters/。它可以幫助您設計您的solr取決於您的具體要求。

來源

2015-11-27 09:09:10

是的，它是從action'像'Solr的教程最流行的例子，'AppacheSolrSearchPattern'試圖解釋有關搜索如何工作的問題，以及如何索引結構的模樣。但我認爲這只是一些理論上的例子。這不是反映現實世界的人。我相信它應該比你向我展示的例子更復雜。謝謝。 –

我的問題是在做搜索時。場的用途是什麼？你給我看的例子沒有提到有關該領域的任何信息。 –

在第一次近似中，倒排索引只是按照（從法律到高度）排列的文檔id數組。它允許您在搜索幾個詞時快速交叉和組合文檔ID。爲了提供更快的交集，甚至比線性時序，它包含了skip pointers，你可以在一本書Introduction to Information Retrieval讀到它。本書對普通搜索引擎如何工作有很好的介紹。爲了減少磁盤操作和索引大小的I/O，使用了一些壓縮機制，本書中還可以閱讀introduction to them。

來源

2015-11-27 15:33:19

我明白你的困惑，這是地方文獻解釋過在手，簡化這些案件之一。大多數文獻使用文本解釋和倒排索引，因此（如圖所示），一個文檔只是一個字符序列，並且不存在其他「字段」。

這時候你解釋倒排索引是什麼，但是當你有一個實際的實施方式進行交互（如通過Lucene的/ ES/Solr中提供的一個），現實的情況是有點不同變得非常有用。

也許this post可能是有用的，如果你一路下來，閱讀是有點密集的，但如果你只是試圖掌握要領，並不試圖在一次閱讀中理解所有內容。請指教，Lucene實現包含更多技術細節，以確保性能和減少磁盤使用量等。底線是基本上每個領域本身就像一個「迷你倒排索引」，並允許知道文檔中哪個特定的「部分/字段」與您的查詢發生匹配，因此您可以影響您的相應地得分（通常是如何排序結果）。如果你總是有平面文件，那麼搜索引擎就不會那麼有用。

來源

2015-12-01 08:00:10

謝謝你的理解。 +1第一句話。 –

你能查看鏈接嗎？它被打破。返回404 .. Thanks.http：//hackerlabs.org/blog/2011/10/01/hacking-lucene-the-index-format/ –

WOW！對此感到遺憾，當我發佈回覆時，網站沒有問題，嘗試使用緩存的Google版本，爲我工作。 –

SOLR中倒排索引的數據結構究竟是什麼樣子

回答

相關問題