2012-05-21 16 views
2

這不一定是一個dtSearch特定的問題(例如它更像是一個fts引擎問題),但會處理索引由多個頁面並獲得頁面級命中結果。fts文檔級索引,獲得頁面級結果(使用dtSearch示例)

我GOOGLE了搜查,並沒有發現什麼,所以我的問題:

我們有一大堆的M書籍掃描ňTIFF頁。 我們對它們進行OCR-全文索引並執行搜索。

我們希望搜索結果是圖書級別(例如,搜索結果中應包含一本書),而且還能夠在頁面級獲得找到的項目(爲了能夠有效地進行點擊高亮,例如在第1頁,第2頁和第7頁中找到術語SomeTerm)。

在這裏,問題來了:

  • 如果我們索引的網頁的文字,一次一個,和第1頁從BookA包含長期起租1,和第2頁,也BookA,包含長期字詞2,搜索Term1 AND Term2將不會產生任何結果,這是正常的
  • 如果我們將所有頁面的文本索引在一個大的文本塊中,都屬於同一本書,我們將無法獲得找到的術語所屬的頁面。

的dtSearch桌面對PDF索引這樣的功能:它能夠指數從單個文檔的所有頁面的文字,也可以告訴在命中使用%%頁%發生在頁面%符號。

我們使用自定義數據源來提供索引器,但我們無法確定要使用的文檔結構以實現所需結果。

如果您正在使用的任何其他FTS引擎(例如Lucene的/獅身人面像),你會如何接近上述問題(有重複的風險,我自己):

  1. 你需要指數頁內容
  2. 頁面被邏輯分組到文檔
  3. 您需要通過文件
  4. 的HIG獲得結果hlight結果必須包含頁碼

感謝您的任何建議, 喬治

PS:很抱歉的長消息

回答

0

蠻力的方法是有2個索引文件的類型:

  • 頁級文檔包含頁面文本,頁面n棕褐色,書的名稱,以及表示這是頁面級文檔的標誌。
  • 書級文檔包含書本文本,書名以及表示這是書級文檔的標誌。

您將首先僅搜索書籍級別的文檔以查找匹配的書籍。然後,您只需搜索匹配書籍的頁面級文檔即可找到匹配的頁面級文檔。這可以讓你說:「termX和termY出現在Z書中,第2,第47和第293頁的termX,第1,3,5和293頁的termY出現。」

這種方法的一個缺點是,你最終索引每個頁面的內容兩次。

1

作爲一名dtsearch用戶很長一段時間,我想通過生成和索引一個分頁的pdf文件,其中的每個頁面對應於您書中的ocr文本頁面,我將回到基礎知識。

這樣,你完全獨立於搜索引擎技術,讓它在衆所周知的PDF格式上做到最好。

您的索引不會被無意義的單頁文檔溢出,其中的數量會在搜索圖書時打破最佳結果排序。

希望這會有所幫助,對不起我破碎的英文