我正致力於重構文檔存儲服務的網站,以從專有存儲系統轉到SQL。一切都很順利,但我需要找到一種方法來搜索我們的存儲庫中特定的文本字符串。我們使用多種不同的文件類型(.xls,.xlsx,.doc,.txt等)。首先通過使用PDFSharp逐行重建將它們轉換爲PDF,然後顯示給用戶。如何高效地實時搜索數千個文件到文本
速度不是查看/搜索單個文件的考慮因素,但我擔心可伸縮性。我能夠通過複製功能進行正常的文本搜索,然後將其掛接到我們的轉換過程中,但我相當確信,這不適用於搜索客戶的整個文檔列表(成千上萬的文檔)。如果這些文件都是統一的文件類型,可能會更容易些,但它們不是。
有沒有一種有效的方法來做到這一點,我不知道?
編輯:文檔存儲在服務器上,並通過文件的URL引用在DB
您知道SQL Server中的全文搜索功能嗎?你試過了嗎? – TomTom
我不是。我查看了全文搜索,但是我們的文件不是以文本文件的形式存儲的,所以我不知道SQL服務器是否可以索引這些文件(它們必須先被轉換)。 這純粹是一個無知點,但不會全文索引需要將整個東西存儲在數據庫文本中?我怎樣才能從中得到頁碼? –
你的問題不清楚給我。你有專有格式的文件,什麼?你需要「實時」將它們導入到SQL中?我無法想象任何需要這樣的場景,所以我必須誤解你的需要。 –