從使用Apache Nutch 1.4進行爬網和解析後獲得的HTML文檔獲取特定標記

我使用nutch 1.4並爬網。我成功抓取了該網站，並將所有網頁都轉成了細分市場。我將所有片段合併爲一個片段，然後使用readseg命令獲取所有已爬網頁面的文本版本。現在我需要找出頁面的URL和存儲在該頁面的元數據。我不知道要使用哪個命令，或者我需要做一些不同的事情。從使用Apache Nutch 1.4進行爬網和解析後獲得的HTML文檔獲取特定標記

在google上做了很多努力有人說你必須爲它編寫一個單獨的插件。請有人能告訴我。

非常感謝:) :)

來源

2012-03-19 Lina Clark

我想獲取與所有已爬網的html文檔的url相對應的元數據。請任何幫助！ – 2012-03-20 05:06:52

最後，我能夠做到這一點。在別人需要的情況下共享。您可以使用此插件提供的索引元標記： http://wiki.apache.org/nutch/IndexMetatags

它會解決這個問題乾杯:)

來源

2012-03-21 13:35:19

做爬行。之後，進入終端。

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata

如果它運行，您將有一個帶有標題信息和文件內容的文件。之後，您可以輕鬆修改該文件，並通過字符串操作獲取所需的任何信息。

來源

2012-04-20 11:19:46

從使用Apache Nutch 1.4進行爬網和解析後獲得的HTML文檔獲取特定標記

回答

相關問題