2012-05-10 76 views
1

我想知道nutch 1.4是否能夠立即抓取表格。例如,如果有下拉列表,它會嘗試從下拉列表中的項目中獲取所有可能的頁面嗎?nutch是否爬過窗體?

謝謝

回答

1

Nutch通過HTTP請求獲取所需頁面的html源代碼。現在,頁面的html源代碼可以包含編碼在其中的下拉列表。如果使用像dojo/ajax這樣的複雜腳本編碼,那麼它將無法像瀏覽器那樣對其進行解釋。如果下拉列表的鏈接直接在html源代碼中看到,那麼nutch將獲得這些網頁的抓取。除了正常的文本內容,Nutch還爲HTML頁面的Java腳本部分進行解析。

現在要驗證這一點,請打開bowser/wget中的頁面。在文本編輯器中查看頁面源碼,如記事本/ vi。你可以在那裏看到下拉框的鏈接嗎?如果是的話,那麼nutch將會抓取那些沒有鏈接的鏈接。