我需要從商業網站獲取產品ID。產品ID是URL末尾的數字序列。刮Python需要建議
例如:http://example.com/sp/123170/
有產品ID 123170
。
一些要求:
- 代碼必須被Python
- 由於產品的數量很大寫的,我希望軟件能夠重新啓動停止由於一些原因後。
- 可以每天運行一次。
- 新產品每天更新/添加,因此軟件需要能夠處理該問題。 如果可能,我很樂意使用谷歌應用引擎
請推薦我一些想法和這個工作的開源代碼。我發現scrapy.org和Beautifulsoup。請給我一些建議,哪一個更適合這個目的?
http://whathaveyoutried.com/ – Andbdrew
@好,他是要求推薦,而不是代碼。所以我認爲它是一個真正的問題。 –
@SushantGupta足夠公平,雖然scrapy和BeautifulSoup做不同的事情,他們可以一起使用。 http://doc.scrapy.org/en/0.16/faq.html#how-does-scrapy-compare-to-beautifulsoup-or-lxml – Andbdrew