2017-04-12 102 views
0

我有很多pdf文件(文本里面),我想構建一個簡單的搜索引擎來搜索包含給定關鍵字的句子。經過幾個小時的搜索,我選擇了solr作爲工具。如何在文件搜索時顯示文件內容而不是文件名

我是solr的新手。我下載了最新的solr 6.5.0並將其設置爲windows 7。 我用下面的命令來創建一個名爲gettingstarted收集和可以通過訪問該鏈接http://localhost:8983/solr/gettingstarted/browse

bin\solr.cmd start 
bin\solr.cmd create -c gettingstarted 
java -Dauto -Dc=gettingstarted -Drecursive -jar example/exampledocs/post.jar *.pdf 

但是搜索操作,那隻能說明其中包含的關鍵字,而不是文件的明細行的文件名。下面的圖片顯示了這種情況:Only filename rather than sentences which contains keywords

我也試過集成的例子叫techproducts,令我驚訝的是,它可以顯示包含關鍵字的確切句子。下面的圖片顯示了這種情況:show the sentences

所以我有一個問題,如果我可以做一些事情,使包含確切關鍵字的句子顯示在第一張圖片。我不知道速度,配置文件甚至是底層原理。我只是想要它的工作,給出詳細的搜索結果。我不關心安全問題,也不在意它顯示的方式(醜陋是好的)。

這是我玩solr的第一天,所以也許我在描述上犯了一些錯誤。謝謝你的耐心。我需要你的幫助。

回答

0

http://localhost:8983/solr/gettingstarted/browse 這是示例UI應用程序(solritas),它默認與solr一起使用。

您應該使用/ select請求處理程序進行查詢,這會處理您查詢和檢索結果。 http://localhost:8983/solr/gettingstarted/select?q=keyword

對於索引PDF。

當您索引pdf時,默認情況下pdf內的所有內容都會轉到名爲content的字段。

示例:

假設您已經創建了啓動集合。

導航到目錄example/exampledocs/並點擊此命令。

java -Dauto -Dc=gettingstarted -jar post.jar solr-word.pdf 

如果它成功索引。去管理和搜索PDF裏面的關鍵字,它應該給內容字段值(內部PDF文本)

例如查詢請求URL

http://localhost:8983/solr/gettingstarted/select?q=solr&wt=json&indent=on

相關問題