我需要一個基於開放源碼的基於java的網絡crwaler,我可以擴展以進行價格比較嗎? 如何進行價格比較? 是否有任何開源代碼?使用網絡爬蟲進行價格比較
回答
看看網站的收穫,你將不得不使用它的稍微奇數和特殊的語法處理網頁,但它應該是相當延長它做一些價格比較:
這個應用程序似乎非常酷,易於使用,但不幸的是,在現實中(我的措施)的表現非常糟糕。 – javamonkey79 2010-12-18 20:49:06
任何原因你不能從數百個價格比較網站中的任何一個獲得你的數據?似乎會更簡單地刮nextag或froogle或其他任何東西,而不是寫一個抓取工具來抓取數十億的商店網站。
Thx回覆。是的,我已經評論過網頁收穫。是的,我也有關於只是刮價格比較網站的想法?所以它應該是一個爬蟲權利?接下來的價格比較網站讓你克服他們的網站?我在這裏錯過了什麼嗎? 如果它很簡單,你需要的只是10-20個網站的權利? – yeskay 2010-02-16 00:44:54
大廈的東西,從大量不同網站的價格刮信息將是大量的工作,無論你從商店本身刮或從現有比較網站。
每個人的網站佈局都會有所不同,因此您需要爲每個網站分別配置抓取工具。
某些網站可能存在的價格信息的方式,使刮困難;例如使用AJAX。
一些網站所有者就會把相關的網頁到他們robots.txt
文件來告訴你要遠離。如果你忽視這一點,他們可以做許多事情來讓你生活變得困難。
刮很多人的網站未經許可很可能會讓你不受歡迎。這可能會吸引訴訟的威脅,或者來自認爲您正在損害其商業模式的人的實際訴訟。或其他反應...
你真的確定要這麼做嗎?真??
沒有人希望自己的網站以沒有得到任何好處超載。我認爲你應該爲你的需要創建一個爬蟲。但是,請注意,它們中的大多數可能會阻止您或使您的響應速度變慢。你需要表現得像你是不是一個,吃它們的帶寬......這裏
有人寫了一篇關於法律問題。法律問題並不簡單。斯蒂芬C寫了關於訴訟,但這是雙向的。有很多與反競爭行爲有關的法律體系。如果有人希望他們的價格不被報告,因爲他們涉及價格欺詐或虛假聲明,那麼這些網站本身就面臨嚴厲的處罰。法律不是可以引用的。你可以谷歌價格修復,並看到已對無數公司施加的大額罰款。
- 1. 網絡爬蟲
- 2. 在網絡爬行,價格比較後確定產品
- 3. C++網絡爬蟲
- 4. PHP網絡爬蟲
- 5. Python網絡爬蟲
- 6. java網絡爬蟲
- 7. 網絡爬蟲類
- 8. 網絡爬蟲應用
- 9. 使用python beautifulsoup進行網頁爬蟲
- 10. 網絡爬蟲文本格式
- 11. 使用perl的網絡爬蟲
- 12. 使用vb.net的網絡爬蟲/蜘蛛
- 13. 使用網絡爬蟲的道德
- 14. 網絡爬蟲使用雙絞線
- 15. 錯誤使用C#網絡爬蟲
- 16. 自動網絡爬蟲
- 17. 網絡爬蟲的功能
- 18. 網絡爬蟲,反饋?
- 19. 網絡爬蟲的Java
- 20. 遞歸網絡爬蟲perl
- 21. 簡單的網絡爬蟲
- 22. Python中的網絡爬蟲
- 23. 需要網絡爬蟲
- 24. 網絡爬蟲文本雲
- 25. 硒與python網絡爬蟲
- 26. 網絡爬蟲從Android Market
- 27. 網絡爬蟲不打印
- 28. 網絡爬蟲提取
- 29. 網絡爬蟲在哪裏獲取他們的網站列表進行爬網?
- 30. Erlang中的並行HTTP網絡爬蟲
請勿自行抓取網頁。它只會導致痛苦和麻煩(代碼和法律方面)。您應該聯繫價格表供應商以獲取有關其公共Web服務的更多信息,然後利用它。 – BalusC 2010-02-16 01:55:00
@BalusC麻煩(法律條款)?如何和爲什麼? – Lite 2016-04-12 18:01:57