這不一定是一個dtSearch特定的問題(例如它更像是一個fts引擎問題),但會處理索引由多個頁面並獲得頁面級命中結果。fts文檔級索引,獲得頁面級結果(使用dtSearch示例)
我GOOGLE了搜查,並沒有發現什麼,所以我的問題:
我們有一大堆的M書籍掃描ňTIFF頁。 我們對它們進行OCR-全文索引並執行搜索。
我們希望搜索結果是圖書級別(例如,搜索結果中應包含一本書),而且還能夠在頁面級獲得找到的項目(爲了能夠有效地進行點擊高亮,例如在第1頁,第2頁和第7頁中找到術語SomeTerm)。
在這裏,問題來了:
- 如果我們索引的網頁的文字,一次一個,和第1頁從BookA包含長期起租1,和第2頁,也BookA,包含長期字詞2,搜索Term1 AND Term2將不會產生任何結果,這是正常的
- 如果我們將所有頁面的文本索引在一個大的文本塊中,都屬於同一本書,我們將無法獲得找到的術語所屬的頁面。
的dtSearch桌面對PDF索引這樣的功能:它能夠指數從單個文檔的所有頁面的文字,也可以告訴在命中使用%%頁%發生在頁面%符號。
我們使用自定義數據源來提供索引器,但我們無法確定要使用的文檔結構以實現所需結果。
如果您正在使用的任何其他FTS引擎(例如Lucene的/獅身人面像),你會如何接近上述問題(有重複的風險,我自己):
- 你需要指數頁內容
- 頁面被邏輯分組到文檔
- 您需要通過文件
- 的HIG獲得結果hlight結果必須包含頁碼
感謝您的任何建議, 喬治
PS:很抱歉的長消息