我想在scrapy中獲取最終的重定向URL。例如,如果一個錨標記具有特定的格式:scrapy - 獲取最終重定向的URL
<a href="http://www.example.com/index.php" class="FOO_X_Y_Z" />
然後我需要獲得URL重定向到URL(如果是的話,如果200然後OK)。例如,我得到相應的錨標記是這樣的:
def parse (self, response)
hxs = HtmlXPathSelector (response);
anchors = hxs.select("//a[@class='FOO_X_Y_Z']/@href");
// Lets assume anchor contains the actual link (http://...)
for anchor in anchors:
final_url = get_final_url (anchor); // << I would need something like this
// Save final_url
所以,如果我訪問了http://www.example.com/index.php
並會送我到10個重定向,最後它將在http://www.example.com/final.php
停止 - 這就是我需要get_final_url()
返回。
我想到了通向解決方案的途徑,但我在這裏要求看看scrapy是否已經提供了一個解決方案?
其實,這就是我剛剛得到的資源所在的URL。我需要href屬性中鏈接的最終網址。我想我還不夠清楚。不管怎樣,謝謝你。 – vanneto