Q

從Scrapy爬行中刪除「＃」鏈接

2017-02-20 45 views -1 likes

-1

我是網站上的running this spider。它工作正常，但我遇到的一個問題是有許多帶有「＃」作爲鏈接的hrefs。從Scrapy爬行中刪除「＃」鏈接

如何跳過或放棄這些＃鏈接？我正在輸出指向當前文件的鏈接，並使用lstrip轉儲文件「」。我也試過i.replace，但它仍然在文件中留下一條空行。

2017-02-20 Christopher Smith

+0

你能澄清你的意圖嗎？你想從字符串中刪除'＃'嗎？忽略這一切？ –

+0

在這裏發佈代碼*的相關部分通常是一個好主意，而不是將它們放在某個第三方鏈接上。 –

A

回答

1

對於與您的選擇器匹配的所有內容，您是yield ing。有條件yield，所以轉換：

for i in selector.extract(): 
    yield {"url": i.lstrip('#')}

成類似

for i in selector.extract(): 
    url = i.lstrip('#') 
    if url: 
     yield {"url": url}

2017-02-20 23:07:56

0

爲了跳過這些鏈接，您需要更改XPath表達式提取href屬性，只有當他們不含有「＃」

selector = response.xpath('//*/a[not(contains(@href, "#"))]/@href')

2017-02-22 08:24:56 zet5

+0

完美的工作！我以前實際上已經嘗試過'not（contains（））'，但看起來我的語法錯了。謝謝！ –

相關問題

11. Scrapy，從第二組鏈接中刪除頁面
12. 從鏈接中刪除lightbox行爲
13. 刪除？從鏈接
14. Scrapy Scrapy中的10個鏈接，然後停止爬行域，並從另一個開始
15. 我如何排除一切，但從heritrix爬行鏈接/ outlinks？
16. Scrapy - 基於條件爬行
17. 用scrapy廣泛爬行
18. Scrapy爬行但不刮刮
19. Python - Scrapy爬行myrecipes.com問題
20. Scrapy不是爬行網頁
21. Scrapy網絡爬行不好
22. Scrapy只爬行1頁
23. Scrapy蜘蛛不爬行
24. Scrapy中的爬網和連接
25. 在scrapy中的Json響應中爬行
26. 刪除前端從鏈接
27. 在Scrapy中爬行多個級別
28. 在Scrapy中爬行的順序
29. 以下鏈接，Scrapy網頁爬蟲框架
30. scrapy遞歸鏈接爬蟲與登錄 - 幫助我提高