2016-09-20 110 views
3

我正在使用此項目:https://github.com/lucidworks/hadoop-solr 有誰知道在哪個值中保存了正在處理的文檔的名稱(或路徑)。我想將此值檢索到Solr Admin(將其名稱添加到我的模式中)。這可能嗎?「Hadoop-Solr Lucidworks Project」檢索輸入名稱路徑

示例:我希望能夠看到文檔的名稱,從中查詢返回相同的結果。

我運行此命令的項目:

hadoop jar solr-hadoop-job-2.2.5.jar 
    com.lucidworks.hadoop.ingest.IngestJob 
    -Dlww.commit.on.close=true -DcsvDelimiter= 
    -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c spyros1 
    - i /usr/local/hadoop/input 
    -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 
    -s http://127.0.1.1:8983/solr 

回答

2

這爲我工作:

hadoop jar solr-hadoop-job-2.2.5.jar com.lucidworks.hadoop.ingest.IngestJob 
    -Dlww.commit.on.close=true 
    -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.regex="\\w+" 
    -Dcom.lucidworks.hadoop.ingest.RegexIngestMapper.groups_to_fields=0=match_ss 
    -cls com.lucidworks.hadoop.ingest.RegexIngestMapper 
    -c collection1 -i /path/* -s http://127.0.1.1:8983/solr 
    -of com.lucidworks.hadoop.io.LWMapRedOutputFormat 

另見this獲取更多信息。

1

對於CSVIngestMapper文件路徑當前未添加到任何Solr的領域。

隨意在回購中創建一個問題。 https://github.com/lucidworks/hadoop-solr

而且永久居民的歡迎

編輯:(該解決方案見https://github.com/lucidworks/hadoop-solr/issues/16

+0

那麼有什麼方法可以檢索結果所屬文檔的名稱或路徑嗎?如果我使用2個txt文檔,我應該從哪個txt中知道結果來自哪裏。是否可用於其他Ingest Mapper? @acesar –

+1

>適用於其他Ingest Mapper? 是的,RegexIngestMapper/GrokIngestMapper添加一個名爲path的字段。但是我不完全確定我是否遵循你的用例。 – acesar

+0

我正在使用「data_driven_schema_configs」作爲我的收藏。該字段必須添加到data_driven_schema_configs的managed-schema中? @acesar –