我在Vista 64位上使用Python.org版本2.7 64位來運行Scrapy。我正在嘗試從這個網頁上抓取一些文本,並設法清除大部分文本,刪除換行符和HTML標記。但是標籤似乎仍然被包含在文本輸出到命令shell:刪除<u>使用Scrapy的文本中的字符
u' British Grand Prix practice results ', u'
這是從以下網頁:
http://www.bbc.co.uk/sport/0/formula1/28166984 上面的字符串表示超鏈接到另一個頁面。我曾嘗試使用下面的正則表達式來刪除「U」標記嘗試,但並未奏效:
body = response.xpath("//p").extract()
body2 = str(body)
body3 = re.sub(r'(\\[u]|\s){2,}', ' ', body2)
任何人都可以提出一個方法或刪除這些標籤?另外,如果可能的話,您是否可以使用正則表達式來移除兩個標籤之間的所有內容?
感謝
寧可去做,我相信'u'有表示字符串是unicode,並且似乎還有另一個只有unicode指示符被刪除的內容。 – Jerry