2011-10-30 30 views
1

保存抓取結果時,我需要Nutch將網頁分割成句子。原因是Solr在索引時將每個句子看作一個文檔。Nutch中的文檔句子

我需要的結果是能夠搜索「單詞」,並獲得包含「一個」和/或「單詞」的所有句子的列表。

我是新來的Nutch這樣一些指針會真的有用...

  1. 我應該看看Nutch的配置文件?
  2. 我需要更改Nutch源代碼嗎?
  3. 或者我可以編寫一個單獨的應用程序,它可以在Nutch完成爬網後編輯爬網結果?

回答

1

是的,你可以查看Nutch的任務。

1)單獨的配置文件不會爲你完成這項工作。見上面的要點。 2)你需要編寫你自己的解析器插件,它可以抓取抓取之後的nutch解析階段,將你的HTML頁面拆分成句子並從單個頁面返回N個結果。這很奇怪,因爲通常一頁是一個結果。查看FeedParser以查看如何從一個頁面返回多個結果。

3)原則上,您可以遍歷nutch獲取的頁面,獲取文本,將它們拆分爲句子,並使用SOLR api爲您的句子編制索引,就好像它們是文檔一樣。這甚至可以很容易地成爲一個mapreduce工作。

作爲一般的參考,我建議你看看這篇文章中的句子分割文本:

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html