我正在使用機械化來從雅虎搜索獲得最佳結果並從它們中提取數據,但雅虎只提供dirtyurls,這會給進一步處理帶來錯誤,任何獲得原創的解決方案鏈接?Web Scrapping:雅虎提供dirtyurl,而不是普通的url
例如:對於結果stackoverflow.com,我得到下面的標籤
<a dirtyhref="http://r.search.yahoo.com/_ylt=A0SO8zEuKGZUteYAEHRXNyoA;_ylu=X3oDMTEzODh2cDk0BHNlYwNzcgRwb3MDMQRjb2xvA2dxMQR2dGlkA1ZJUDI0NF8x/RV=2/RE=1416009903/RO=10/RU=http%3a%2f%2fstackoverflow.com%2f/RK=0/RS=a.mWRIy6IMjJQysgixByd8053hE-" id="link-1" class="yschttl spt" href="http://r.search.yahoo.com/_ylt=A0SO8zEuKGZUteYAEHRXNyoA;_ylu=X3oDMTEzODh2cDk0BHNlYwNzcgRwb3MDMQRjb2xvA2dxMQR2dGlkA1ZJUDI0NF8x/RV=2/RE=1416009903/RO=10/RU=http%3a%2f%2fstackoverflow.com%2f/RK=0/RS=a.mWRIy6IMjJQysgixByd8053hE-" target="_blank" data-bk="5054.1"> <b>Stack Overflow</b> - Official Site </a>
謝謝先生!它的工作 – T90 2014-11-16 11:47:37
重複使用這個,我喜歡索引5不是一直都是一樣的,所以我想把這個添加到@Mikk的答案中,以防其他人需要它在字段中的一部分:if part.startswith('RU ='): url = urllib2.unquote(str(part).split('=')[1])' – T90 2014-11-17 11:33:02