我正在使用python scrapy刮一個網站。 該網頁的格式爲http://www.cuponation.in/myntra-coupons#voucher-13537 它包含'#'。在將此網頁作爲start_url進行抓取時,會忽略#後面的部分。如何刮#包含#使用python scrapy
有沒有一種方法,我可以使用python scrapy
我正在使用python scrapy刮一個網站。 該網頁的格式爲http://www.cuponation.in/myntra-coupons#voucher-13537 它包含'#'。在將此網頁作爲start_url進行抓取時,會忽略#後面的部分。如何刮#包含#使用python scrapy
有沒有一種方法,我可以使用python scrapy
雖然拼搶很平常,它忽略#
後的部分用刮的#在fullurl它。該符號通常會將您帶到id
等於'憑證-13537'的網頁上的<div>
標記,就是這一切。所以一旦你刮的頁面,你應該嘗試尋找類似的東西:
<div id="voucher-13537">
,這就是你要尋找的。
談到解析html文件,如果你還沒有使用它,我建議你看看BeautifulSoup4
模塊。
提及BeautifulSoup4可能更適合OP –
'#'只會帶你到頁面上的某個地方。 – BrenBarn
我要說實話,我不明白是什麼造成了所有的仇恨。這似乎是一個非常簡單的問題陳述。 – Veedrac
@Veedrac,真實,但它顯示了一個非常根本的刮擦誤解,我不知道OP期望結果是什麼。 – OGHaza