我想使用Scrapy遞歸地抓取數據 - 在下一頁之後從一頁中抓取數據。我的蜘蛛需要按照「下一頁」按鈕。原則上,「下一頁」網址可以通過response.xpath("a[@title = 'next page']")
進行標識。然而,由於網站是中文(http://bxt.harbin.gov.cn/hrb_bzbxt/list_hf.php),我使用的選擇器命令是response.xpath("a[@title = '下一頁']")
。下一頁的意思是「下一頁」。這不起作用,錯誤消息是「ValueError:所有字符串必須是XML兼容的:Unicode或ASCII,沒有NULL字節或控制字符。」該網站的編碼是gbk。那麼我怎樣才能選擇這個中文網站的「下一頁」網址?任何幫助讚賞。我想通過屬性來識別某些url,但是如果感興趣的屬性是外來字符呢?
0
A
回答
1
嘗試使用Unicode代碼點表示關於 '下一頁'(其爲u '\ u4e0b \ u4e00 \ u9875'),如下所示:
next_page_link = response.xpath(u'//a[@title="\u4e0b\u4e00\u9875"]/@href')
if next_page_link: yield Request(next_page_link.extract()[0])
0
相關問題
- 1. 如何通過自定義屬性來選擇某個屬性的某些屬性
- 2. jQuery通過識別屬性確定選定元素的CSS是否具有某些屬性
- 3. 屬性是用來
- 4. 當使用反射來獲取屬性時,如何限制我的搜索到我感興趣的子類?
- 5. train LUIS瞭解「我感興趣」和「我不感興趣」之間的區別
- 6. WPF - 沒有回調的依賴屬性的興趣是什麼
- 7. 有沒有辦法通過AuditQuery來識別哪些屬性已被修改?
- 8. img標題屬性顯示塊而不是外來字符
- 9. 識別屬性
- 10. getstream.io是否有自己的API來獲取一些感興趣的數據?
- 11. 我(想)我想使用BItWise運算符來檢查useraccountcontrol屬性!
- 12. 只是通過引用extjs的隱藏屬性來隱藏html屬性
- 13. IE8是否可以通過jQuery識別狀態屬性更改?
- 14. 在NHibernate中插入數據但對標識符不感興趣
- 15. 通過僅傳遞屬性來修改JS對象的屬性?
- 16. Woocommerce折扣如果有某些屬性
- 17. 如何修復WebStorm無法識別某些Node.js Express屬性?
- 18. 可識別屬性
- 19. 我想通過css背景屬性
- 20. 哪些HTML5屬性可以是URL?
- 21. 通過添加屬性來擴展屬性
- 22. 我們是否應該使用-webkit和-moz來識別CSS3屬性?
- 23. 當是CollectionViewSource來源屬性集,如果viewSource是靜態資源
- 24. 是否可以通過XML中的屬性來查找節點?
- 25. 是否可以通過屬性來做同樣的事情?
- 26. 如何通過Rails 4中的hstore屬性來排序結果?
- 27. 如果屬性名稱是空字符串,如何檢查對象的屬性?
- 28. 通過兩個屬性來訂購SQLite
- 29. Javascript功能來通過其屬性
- 30. 通過繼承來更改G_PARAM_CONSTRUCT_ONLY屬性