2015-06-17 62 views
1

刮刮是我的一個新話題,我正在努力去理解它。注意:我正在使用wordpress。刮刮價格標題產品圖片來自網站

例如,說我的鞋博客我想通過刮來顯示FootLocker產品。我將如何從 Footlocker中提取產品的價格,標題和圖像?

從我的研究,這似乎是 DOM文檔在PHP 或 Python的BeautifulSoup 可用於這一目的,但我不確定。對於我的情況(提取價格,標題,圖像)哪種方法可行?

DOMdocument會爲此工作嗎?真的需要一些指導。

EDIT

下面是試樣HTML

產品名稱

<div class="title" data-info="product_title"> 
<h1 tabindex="698">Jordan Flight Origin 2 - Men's</h1> 
</div> 

PRODUCT PRICE

<div class="regular_price"> 
<span class="label" tabindex="-1"></span> 
<span class="value">$114.99</span> 
</div> 

PRODUCT IMAGE

<div class="regular_price"> 
<span class="label" tabindex="-1"></span> 
<span class="value">$114.99</span> 
</div> 

產品URL

http://www.footlocker.com/product/model:234353/sku:05155015/jordan-flight-origin-2-mens/grey/multicolor/?cm=newarrivalsshoessupercat

+0

是BeautifulSoup可以幫助您......您能否提供您需要提取數據的標本HTML代碼。 –

+0

@pyAna請參閱我的編輯。希望我複製正確的HTML。 BeautifulSoup是否使網站運行緩慢? – leko

回答

0
import urllib2 
import re 
result = [] 
response = urllib2.urlopen('http://www.footlocker.com/product/model:234353/sku:05155015/jordan-flight-origin-2-mens/grey/multicolor/?cm=newarrivalsshoessupercat') 
html = response.read() 
m = re.search('<link rel="image_src" href="(.+?)"', html) 
if m: 
    image = m.group(1) 
result.append(image) 
m = re.search('<meta name="title" content="(.+?)"', html) 
if m: 
    product = m.group(1) 
result.append(product) 
print result 

我沒用過BeautifulSoup,只是寫了一個簡單的代碼,以完成您的工作....希望它工作正常,如果需要,讓我知道這些變化......坦率地說,我從來沒有想到與BeautifulSoup有關的時間複雜性問題。

+0

謝謝這有助於!但我不明白......你如何在Wordpress網站上顯示這些數據?我會在哪裏保存你的美麗的代碼?我是否將它保存在我的WordPress主題中作爲一個PHP文件? – leko

+0

@leko坦率地說,我對Wordpress沒有太多的想法,也許Wordpress的人會幫助你解決同樣的問題,併發布關於同一個bro的問題。 –