使用Cloudera索引PDF文檔搜索

我一直在嘗試使用Cloudera搜索又名Apache Solr來索引pdf文檔。首先，我能夠對Twitter推文進行索引。後來我嘗試索引PDF文件。我已使用默認架構使用solrctl創建了相應的集合。我使用的morphline文件（我已經掩蓋zkHost這裏的IP地址）...使用Cloudera索引PDF文檔搜索

solrLocator : { 
    # Name of solr collection 
    #collection : collection1 
    collection : pdfs 

    # ZooKeeper ensemble 
    #zkHost : "127.0.0.1:2181/solr" 
    zkHost : "xxx.xxx.xxx.xxx:2181,xxx.xxx.xxx.xxx:2181/solr" 

    # The maximum number of documents to send to Solr per network batch (throughput knob) 
    # batchSize : 100 
} 
morphlines : [ 

{ 

id : morphlinepdfs 

importCommands : ["org.kitesdk.**", "org.apache.solr.**"] 

commands : [ 

{ detectMimeType { includeDefaultMimeTypes : true } } 

{ 

solrCell { 

solrLocator : ${solrLocator} 

captureAttr : true 

lowernames : true 

capture : [id, title, author, content, content_type, subject, description, keywords, category, resourcename, url, last_modified, links] 

parsers : [ { parser : org.apache.tika.parser.pdf.PDFParser } ] 

} 

} 

{ generateUUID { field : id } } 

{ sanitizeUnknownSolrFields { solrLocator : ${solrLocator} } } 

{ loadSolr: { solrLocator : ${solrLocator} } } 

] 

} 

]

PDF格式的元數據字段在Schema.xml文件，如...

<field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/> 
    <field name="subject" type="text_general" indexed="true" stored="true"/> 
    <field name="description" type="text_general" indexed="true" stored="true"/> 
    <field name="comments" type="text_general" indexed="true" stored="true"/> 
    <field name="author" type="text_general" indexed="true" stored="true"/> 
    <field name="keywords" type="text_general" indexed="true" stored="true"/> 
    <field name="category" type="text_general" indexed="true" stored="true"/> 
    <field name="resourcename" type="text_general" indexed="true" stored="true"/> 
    <field name="url" type="text_general" indexed="true" stored="true"/> 
    <field name="content_type" type="string" indexed="true" stored="true" multiValued="true"/> 
    <field name="last_modified" type="date" indexed="true" stored="true"/> 
    <field name="links" type="string" indexed="true" stored="true" multiValued="true"/>

但在solr/select查詢輸出中，我只獲取內容和內容類型字段。我如何獲得solr前端查詢中的所有元數據？我是否需要修改schema.xml或相應的morphline文件？我也可以索引PDF內容中的字段嗎？

我用於索引PDF文件中的命令是：

hadoop --config /etc/hadoop/conf.cloudera.yarn jar /usr/lib/solr/contrib/mr/search-mr-1.0.0-cdh5.8.2-job.jar org.apache.solr.hadoop.MapReduceIndexerTool -D 'mapred.child.java.opts=-Xmx500m' --log4j /usr/share/doc/search-1.0.0+cdh5.8.2+0/examples/solr-nrt/log4j.properties --morphline-file /usr/share/doc/search-1.0.0+cdh5.8.2+0/examples/solr-nrt/test-morphlines/solrPDF.conf --output-dir hdfs://xxxxxx:8020/user/root/outdir --verbose --go-live --zk-host xxxxx:2181/solr --collection pdfs hdfs://xxxxxx:8020/user/root/indir

預先感謝。

來源

2017-05-19 Sri Harsha Chennavajjala

我發現了這個問題。實際上，我使用的PDF文件沒有任何元數據。我已經嘗試過使用其他PDF文件並獲得結果。希望它能幫助別人。

來源

2017-05-22 13:13:13

使用Cloudera索引PDF文檔搜索

回答

相關問題