我正在做網絡抓取,作爲學術項目的一部分,重要的是所有鏈接都要遵循實際內容。令人煩惱的是,在「社交媒體管理」網站中存在一些重要的錯誤情況,用戶在其中發佈鏈接以檢測對他們的點擊。訪問社交媒體管理網站上的原始網址
例如,考慮鏈接到http:// + bit.ly +/1P1xh9J的this link on linkis.com(由於SO發佈限制而分開的鏈接),該鏈接又鏈接到http://conservatives4palin.com。出現此問題的原因是linkis.com上的原始鏈接不會自動向前重定向。相反,用戶必須點擊右上角的十字,才能轉到原始網址。
此外,似乎有不同的變化(例如,請參閱linkis.com link 2,其中十字架位於網站的左下角)。這些是我找到的唯一兩個版本,但可能會有更多。請注意,我使用的網絡抓取工具與this one非常相似。由於這是一次性的學術項目,因此通過實際鏈接的功能無需穩定/運行。
如何自動轉到原始網址?最好的方法是設計一個能找到相關鏈接的正則表達式嗎?
沒有時間寫一個答案,但尋找「unshorten URL蟒蛇」可能會給你提示 – Josay