fts文檔級索引，獲得頁面級結果（使用dtSearch示例）

這不一定是一個dtSearch特定的問題（例如它更像是一個fts引擎問題），但會處理索引由多個頁面並獲得頁面級命中結果。fts文檔級索引，獲得頁面級結果（使用dtSearch示例）

我GOOGLE了搜查，並沒有發現什麼，所以我的問題：

我們有一大堆的M書籍掃描ňTIFF頁。我們對它們進行OCR-全文索引並執行搜索。

我們希望搜索結果是圖書級別（例如，搜索結果中應包含一本書），而且還能夠在頁面級獲得找到的項目（爲了能夠有效地進行點擊高亮，例如在第1頁，第2頁和第7頁中找到術語SomeTerm）。

在這裏，問題來了：

如果我們索引的網頁的文字，一次一個，和第1頁從BookA包含長期起租1，和第2頁，也BookA，包含長期字詞2，搜索Term1 AND Term2將不會產生任何結果，這是正常的
如果我們將所有頁面的文本索引在一個大的文本塊中，都屬於同一本書，我們將無法獲得找到的術語所屬的頁面。

的dtSearch桌面對PDF索引這樣的功能：它能夠指數從單個文檔的所有頁面的文字，也可以告訴在命中使用%%頁％發生在頁面％符號。

我們使用自定義數據源來提供索引器，但我們無法確定要使用的文檔結構以實現所需結果。

如果您正在使用的任何其他FTS引擎（例如Lucene的/獅身人面像），你會如何接近上述問題（有重複的風險，我自己）：

感謝您的任何建議，喬治

PS：很抱歉的長消息

2012-05-21 George

蠻力的方法是有2個索引文件的類型：

您將首先僅搜索書籍級別的文檔以查找匹配的書籍。然後，您只需搜索匹配書籍的頁面級文檔即可找到匹配的頁面級文檔。這可以讓你說：「termX和termY出現在Z書中，第2，第47和第293頁的termX，第1,3,5和293頁的termY出現。」

這種方法的一個缺點是，你最終索引每個頁面的內容兩次。

2012-05-22 11:50:46

作爲一名dtsearch用戶很長一段時間，我想通過生成和索引一個分頁的pdf文件，其中的每個頁面對應於您書中的ocr文本頁面，我將回到基礎知識。

這樣，你完全獨立於搜索引擎技術，讓它在衆所周知的PDF格式上做到最好。

您的索引不會被無意義的單頁文檔溢出，其中的數量會在搜索圖書時打破最佳結果排序。

希望這會有所幫助，對不起我破碎的英文

2012-05-23 09:57:06 jbl

回答