我使用nutch 1.4並爬網。 我成功抓取了該網站,並將所有網頁都轉成了細分市場。 我將所有片段合併爲一個片段,然後使用readseg命令獲取所有已爬網頁面的文本版本。 現在我需要找出頁面的URL和存儲在該頁面的元數據。 我不知道要使用哪個命令,或者我需要做一些不同的事情。從使用Apache Nutch 1.4進行爬網和解析後獲得的HTML文檔獲取特定標記
在google上做了很多努力有人說你必須爲它編寫一個單獨的插件。請有人能告訴我。
非常感謝:) :)
我使用nutch 1.4並爬網。 我成功抓取了該網站,並將所有網頁都轉成了細分市場。 我將所有片段合併爲一個片段,然後使用readseg命令獲取所有已爬網頁面的文本版本。 現在我需要找出頁面的URL和存儲在該頁面的元數據。 我不知道要使用哪個命令,或者我需要做一些不同的事情。從使用Apache Nutch 1.4進行爬網和解析後獲得的HTML文檔獲取特定標記
在google上做了很多努力有人說你必須爲它編寫一個單獨的插件。請有人能告訴我。
非常感謝:) :)
最後,我能夠做到這一點。在別人需要的情況下共享。 您可以使用此插件提供的索引元標記: http://wiki.apache.org/nutch/IndexMetatags
它會解決這個問題 乾杯:)
做爬行。之後,進入終端。
bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata
如果它運行,您將有一個帶有標題信息和文件內容的文件。之後,您可以輕鬆修改該文件,並通過字符串操作獲取所需的任何信息。
我想獲取與所有已爬網的html文檔的url相對應的元數據。請任何幫助! – 2012-03-20 05:06:52