1
保存抓取結果時,我需要Nutch將網頁分割成句子。原因是Solr在索引時將每個句子看作一個文檔。Nutch中的文檔句子
我需要的結果是能夠搜索「單詞」,並獲得包含「一個」和/或「單詞」的所有句子的列表。
我是新來的Nutch這樣一些指針會真的有用...
- 我應該看看Nutch的配置文件?
- 我需要更改Nutch源代碼嗎?
- 或者我可以編寫一個單獨的應用程序,它可以在Nutch完成爬網後編輯爬網結果?
保存抓取結果時,我需要Nutch將網頁分割成句子。原因是Solr在索引時將每個句子看作一個文檔。Nutch中的文檔句子
我需要的結果是能夠搜索「單詞」,並獲得包含「一個」和/或「單詞」的所有句子的列表。
我是新來的Nutch這樣一些指針會真的有用...
是的,你可以查看Nutch的任務。
1)單獨的配置文件不會爲你完成這項工作。見上面的要點。 2)你需要編寫你自己的解析器插件,它可以抓取抓取之後的nutch解析階段,將你的HTML頁面拆分成句子並從單個頁面返回N個結果。這很奇怪,因爲通常一頁是一個結果。查看FeedParser以查看如何從一個頁面返回多個結果。
3)原則上,您可以遍歷nutch獲取的頁面,獲取文本,將它們拆分爲句子,並使用SOLR api爲您的句子編制索引,就好像它們是文檔一樣。這甚至可以很容易地成爲一個mapreduce工作。
作爲一般的參考,我建議你看看這篇文章中的句子分割文本:
http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html