0
我正在與Apache的Nutch和Solr工作來解析FLV和EPUB文件的內容,我的要求是要分析FLV和EPUB文件的內容,我使用下面的命令來解析文件無法使用Nutch的
bin/nutch crawl urls -solr http://localhost:8983/solr/
我已將文件url保存在nutch的urls文件夾中。上述命令正在工作,但當我試圖查看解析的內容使用solr與下面的命令它只是顯示文件的URL。
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
請建議我....
感謝
感謝您的回覆,我已經將內容提交到store = true,但是當我在太陽能搜索中獲得相同的結果時,如下所示:「www.epingsoft.com/epub/examples/AChristmasCarol.epub/AChristmasCarol AChristmasCarol AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub「請澄清一件事是否可以使用nutch從flv文件中獲取文本?如果沒有,請給我建議任何其他工具.... – user2353439 2013-05-15 04:26:58
在這種情況下,您將需要編寫自己的插件來提取和解析epub文件中的數據。恐懼的Tika語法分析器不這麼做。 – nimeshjm 2013-05-15 10:59:54