2012-10-09 32 views
5

我有抓取我的網站的問題......有兩個下拉列表的表單......當我開始抓取時,抓取工具只抓取表單中的部分鏈接....從第一個下拉列表中選擇部分選項,從第二個下拉列表中選擇....我試着在nutch-defaults.xml文件中更改一些配置,但所有內容都是一樣的...Nutch不會抓取表格中的所有鏈接

I change 
fetcher.threads.per.queue 1 - 10   
db.ignore.internal.links true - false 
db.ignore.external.links false - true 
http.content.limit 65536 - 65536000 
file.content.limit 65536 - 65536000 
db.update.max.inlinks 10.000 - 100.000 

有沒有其他的選擇,可以幫我抓取我表格中的所有選項......? 感謝您的回答。

+0

我想在第一個下拉列表中添加我有大約150個選項,第二個下拉列表中的每個主題都有30-100個選項。可能是它以某種方式連接數量的鏈接..? –

回答

1

對不起,發表評論太低代表發表評論!

你有鏈接。

也是下降阿賈克斯或一些幻想。 Nutch從內存中只會抓取頁面上的內容。即如果您在頁面加載時加載前10個,並且只有在用戶滾動時才加載剩下的服務,我相信它找不到那個。

一些更多的信息將是一件好事重新頁面....

乾杯 羅賓

+0

它會出現你正在做一個Ajax調用來填補第二個領域。正如已經提到[http://stackoverflow.com/questions/6507040]它不會工作...也許看到犀牛討論[http://www.codata.org/Taipei/Abstracts/%2828% 29%20%20%20%20%20Ajax%20動態%20Parse%20和%20%20%20Ajax%20Plugin%20in%20Nutch.pdf] ....我會再想一想,但你需要某種方式的鏈接從我的理解... –

0

謝謝您的回答。這是[鏈接](auto.am/en),爬行後,我只有大約100個品牌,並不是所有車型都讓我擁有。 ...我希望在獲得鏈接後,您會建議抓取所有車型和解決方案的解決方案:)。謝謝。

+0

鏈接中提到的答案,但沒有給予實際 – Shafiq