2013-11-10 108 views
1

我試圖從亞馬遜提取諸如價格和供應商等信息。從python提取特定信息來源:

我現在這樣做的方式是找到關鍵詞,如價格,然後找到我想要的信息。

問題是,如果像亞馬遜這樣的網站改變他們的框架一點點,代碼可能不再工作。

我想知道是否有一些更好的方法/算法做類似的事情。

謝謝!

回答

1

您想從網站訪問數據。您建議的是手工API或應用程序編程接口。

手工API的主要缺陷之一就是您提到的,或者網頁供應商可能會做出一些小改變,導致您的API無法使用。

通常,使用可直接訪問屬於網站所有者的數據的API是一個更好的主意。這些API是由網站所有者自己創建的,因此他們可以直接訪問數據,並且可以解決使用HTML抓取時需要的所有混亂格式。


具體來說,亞馬遜的價格API位於here

重要:

如前所述here,請閱讀許可協議第4B:

(b)您會以合法的方式使用產品廣告內容只(I) (ii)根據本許可協議的條款以及在第6節中授予的許可的明確範圍內;和(iii)發送最終用戶到亞馬遜網站並推動銷售。 您不得在任何網站或應用程序或任何其他方式下使用產品廣告API,數據饋送或產品廣告內容,但這些方式不具有廣告和營銷亞馬遜網站以及推動產品銷售和亞馬遜網站上的服務。