2010-02-16 53 views
6

我需要一個基於開放源碼的基於java的網絡crwaler,我可以擴展以進行價格比較嗎? 如何進行價格比較? 是否有任何開源代碼?使用網絡爬蟲進行價格比較

+0

請勿自行抓取網頁。它只會導致痛苦和麻煩(代碼和法律方面)。您應該聯繫價格表供應商以獲取有關其公共Web服務的更多信息,然後利用它。 – BalusC 2010-02-16 01:55:00

+0

@BalusC麻煩(法律條款)?如何和爲什麼? – Lite 2016-04-12 18:01:57

回答

3

看看網站的收穫,你將不得不使用它的稍微奇數和特殊的語法處理網頁,但它應該是相當延長它做一些價格比較:

http://web-harvest.sourceforge.net/samples.php?num=2

+0

這個應用程序似乎非常酷,易於使用,但不幸的是,在現實中(我的措施)的表現非常糟糕。 – javamonkey79 2010-12-18 20:49:06

1

任何原因你不能從數百個價格比較網站中的任何一個獲得你的數據?似乎會更簡單地刮nextag或froogle或其他任何東西,而不是寫一個抓取工具來抓取數十億的商店網站。

+1

Thx回覆。是的,我已經評論過網頁收穫。是的,我也有關於只是刮價格比較網站的想法?所以它應該是一個爬蟲權利?接下來的價格比較網站讓你克服他們的網站?我在這裏錯過了什麼嗎? 如果它很簡單,你需要的只是10-20個網站的權利? – yeskay 2010-02-16 00:44:54

2

大廈的東西,從大量不同網站的價格刮信息將是大量的工作,無論你從商店本身刮或從現有比較網站。

  • 每個人的網站佈局都會有所不同,因此您需要爲每個網站分別配置抓取工具。

  • 某些網站可能存在的價格信息的方式,使刮困難;例如使用AJAX。

一些網站所有者就會把相關的網頁到他們robots.txt文件來告訴你要遠離。如果你忽視這一點,他們可以做許多事情來讓你生活變得困難。

刮很多人的網站未經許可很可能會讓你不受歡迎。這可能會吸引訴訟的威脅,或者來自認爲您正在損害其商業模式的人的實際訴訟。或其他反應...

你真的確定要這麼做嗎?真??

0

沒有人希望自己的網站以沒有得到任何好處超載。我認爲你應該爲你的需要創建一個爬蟲。但是,請注意,它們中的大多數可能會阻止您或使您的響應速度變慢。你需要表現得像你是不是一個,吃它們的帶寬......這裏

0

有人寫了一篇關於法律問題。法律問題並不簡單。斯蒂芬C寫了關於訴訟,但這是雙向的。有很多與反競爭行爲有關的法律體系。如果有人希望他們的價格不被報告,因爲他們涉及價格欺詐或虛假聲明,那麼這些網站本身就面臨嚴厲的處罰。法律不是可以引用的。你可以谷歌價格修復,並看到已對無數公司施加的大額罰款。