Q

Nutch中的文檔句子

2011-10-30 76 views 1 likes

1

保存抓取結果時，我需要Nutch將網頁分割成句子。原因是Solr在索引時將每個句子看作一個文檔。Nutch中的文檔句子

我需要的結果是能夠搜索「單詞」，並獲得包含「一個」和/或「單詞」的所有句子的列表。

我是新來的Nutch這樣一些指針會真的有用...

我應該看看Nutch的配置文件？
我需要更改Nutch源代碼嗎？
或者我可以編寫一個單獨的應用程序，它可以在Nutch完成爬網後編輯爬網結果？

2011-10-30 Michael

A

回答

1

是的，你可以查看Nutch的任務。

1）單獨的配置文件不會爲你完成這項工作。見上面的要點。 2）你需要編寫你自己的解析器插件，它可以抓取抓取之後的nutch解析階段，將你的HTML頁面拆分成句子並從單個頁面返回N個結果。這很奇怪，因爲通常一頁是一個結果。查看FeedParser以查看如何從一個頁面返回多個結果。

3）原則上，您可以遍歷nutch獲取的頁面，獲取文本，將它們拆分爲句子，並使用SOLR api爲您的句子編制索引，就好像它們是文檔一樣。這甚至可以很容易地成爲一個mapreduce工作。

作爲一般的參考，我建議你看看這篇文章中的句子分割文本：

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html

2011-11-03 02:48:47 marcorossi

相關問題