2011-08-25 44 views
1

我確實使用scrapy從網頁上抓取文本。在蜘蛛,我有這樣的代碼:國際文本的Scrapy問題

title = hxs.select("//h1/text()").extract() #1 
final_text = title[0].encode('utf-8') #2 

這裏的問題是 線#1給出[u'Puerto潘基文\ xfas'] 線#2給出了波多黎各潘基\ XC3 \ xbas

但原文是波多黎各巴努斯。我怎樣才能得到這個原始的保存和顯示?

回答

1
>>> print u'Puerto Ban\xfas' 
Puerto Banús 
>>> print 'Puerto Ban\xc3\xbas' 
Puerto Banús 

我在這裏沒有看到問題。