2012-03-19 55 views
0

我使用nutch 1.4並爬網。 我成功抓取了該網站,並將所有網頁都轉成了細分市場。 我將所有片段合併爲一個片段,然後使用readseg命令獲取所有已爬網頁面的文本版本。 現在我需要找出頁面的URL和存儲在該頁面的元數據。 我不知道要使用哪個命令,或者我需要做一些不同的事情。從使用Apache Nutch 1.4進行爬網和解析後獲得的HTML文檔獲取特定標記

在google上做了很多努力有人說你必須爲它編寫一個單獨的插件。請有人能告訴我。

非常感謝:) :)

+0

我想獲取與所有已爬網的html文檔的url相對應的元數據。請任何幫助! – 2012-03-20 05:06:52

回答

0

做爬行。之後,進入終端。

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata 

如果它運行,您將有一個帶有標題信息和文件內容的文件。之後,您可以輕鬆修改該文件,並通過字符串操作獲取所需的任何信息。

相關問題