日安創建谷歌,像文檔搜索頁面
我已經徹底搜查互聯網(與本網站),但還沒有找到一個(完整的)答案,至今尚未能實現自己的解決方案。 如果看起來我錯過了已發佈在Stackoverflow上的解決方案;我提前道歉。
我的公司掃描所有收到的郵件。 這些由ABBYY Finereader進行OCR數據處理。 所有這些文檔駐留在數據中心的NAS中,並可通過WEBDAV連接進行訪問。我想要的是爲所有這些文件建立索引(讓我們現在只使用PDF),並讓它們可供搜索,並可通過谷歌搜索網站訪問,其中可以點擊結果在瀏覽器中打開相應的pdf文件以供查看/下載。
這是問題; 我已經設置了SOLR/Tika並且可以索引一個pdf文件,搜索它並找到結果。 索引掃描文檔保存到的整個文件夾的最佳方式是什麼? 理想情況下,所有這些都運行在Linux服務器上,這樣我就可以掛載這個目錄。
我該如何看這個目錄中的新文件,以便它們被自動編入索引?
如何將文件移動到根目錄(或刪除/重命名)中的(新)目錄並自動更新索引時跟蹤文件?
什麼是爲用戶創建前端的首選方式?我可以自定義Solr/browse,但我寧願使用Rails來構建站點(因爲我熟悉它),並且希望向查詢數據發送一個請求給Solr,並獲得一個響應/數組返回給用戶。
最後但並非最不重要; 如果有人對提供此功能的商業產品有很好的建議,我想聽聽它。我無意重新發明輪子,但是我的搜索並沒有讓我有太多的想法。