2014-04-04 54 views
0

我是新的nutch概念。 我已經盡我所能配置了一切。 能夠抓取鏈接,我也可以抓取網頁。如何使用nutch數據庫獲得特定網址的內容

我的問題是,想要爲每個鏈接單獨提取網頁內容,並且無法找到它的解決方案。

任何人都可以請幫助我?

謝謝。

回答

0

解析網頁的內容和選擇鏈接的引入nokogiri寶石http://rubygems.org/gems/nokogiri我有單獨通過logic..as我能夠得到的所有URL的內容在一個單一的文件文件具有特定的模式重複每個記錄或網址..我有單獨的行場內容。

0

用途使用引入nokogiri選擇

+0

感謝您的回覆Sanjiv ..但我無法獲得網頁的內容..我已經爬過數據庫使用nutch,無法找到每個鏈接的內容分開從它。 – Lussi