2013-11-28 34 views
0

我對Apache SOLR/Lucene完全陌生,但希望將其用於索引PDF文檔。配置索引pdf文檔的SOLR應用程序

我已經開始按照官方教程學習:

[Apache SOLR 4.6.0 Tutorial][1] 

我能夠用標題爲「索引數據」,他們索引大二.xml文件來達到本教程中的點。

但是,我不能遵循以下後線在該節之後,所有的東西節。

You have now indexed two documents in Solr, and committed these changes. You can now search for "solr" by loading the "Query" tab in the Admin interface, and entering "solr" in the "q" text box. Clicking the "Execute Query" button should display the following URL containing one result... 

它太混亂,信息太少。

任何人都可以請點上SOLR一些基本的教程,教你如何到那裏後配置SOLR和索引.pdf文檔。

從似乎Solr的細胞(ExtractingRequestHandler)是要走的路教程。但那是什麼以及如何使用它,我已經提到的教程中的步驟是我不理解/理解的。

上有堆棧溢出的一些問題,以及與SOLR PDF索引,但它們要麼過於具體或答案是我的理解過於高的水平。我需要使用SOLR進行pdf索引的基本分步教程。

感謝您的閱讀!

回答

1

首先,你應該看看Solr是如何工作的。

不是真的,但一些接近:

- >:可譯爲

Solr中的一個核心 - 在SQL

Solr中的文檔>表 - 表>記錄

文檔可以包含任意數量的字段(如表中的列)。 (ID,NAME,EMAIL等)

一個字段有一個類型(像一個變量(來自Lucene的類)(字符串,UUID等)) 字段可以索引(可搜索)並存儲(按原樣檢索)。

現在你必須決定你想要什麼實現。單核(表)實現是最容易的,但對於Solr幾乎所有的用例來說,您都需要使用多核設置。

在您下載的Solr 4.6.0目錄,瀏覽到示例,用下面的命令start.jar運行:java -Dsolr.solr.home=multicore -jar star.jar

打開了http://localhost:8983/solr瀏覽四周,你會通過觀察學到很多東西。

下次再去例如下multicore目錄。

您將看到一個solr.xml文件。打開它。在底部,您將定義核心。添加一行YOUR_CORE_NAME

一旦你有了,保存文件,運行solr。你會看到一堆關於以下方面的錯誤:找不到solrconfig.xmlschema.xmlYOUR_CORE_NAME

這些文件是重要的,因爲:

solrconfig.xml:包含如何同時Solr的運行你的核心(表)的行爲。極其可定製,非常有用,但對於啓動Solr的人來說太多了(您即將學習)。現在我需要從其他內核中複製一個solrconfig.xml

schema.xml:這就像你的表定義。這是您定義「字段」(列)的位置。看看架構的其他核心和閱讀

http://wiki.apache.org/solr/SchemaXml

做一個簡單的模式,3場。密切關注分析儀,現在使用Lucene標準分析儀。它非常好,適用於大多數用例。

現在的目錄結構:裏面multicore,使一個文件夾名爲YOUR_CORE_NAME

根據YOUR_CORE_NAME:製作一個conf文件夾,並將您的solrconfig.xmlschema.xml置於此文件夾內。

開始solr。它應該現在啓動沒有任何錯誤。

一旦你有了這個,不斷調整schema.xml,直到你想出你想要的東西。

+0

謝謝你的詳細解答! :)馬上潛水! :) :) – Nik

+0

評論如果你遇到任何困難:) –