2014-06-09 82 views
0
a_string = soup.find(text='圍') 

soup.find_all('title', limit=1) 
# [<title>The Dormouse's story</title>] 

soup.find('title') 
# <title>The Dormouse's story</title> 

有反正我可以用中文字符處理使用美麗的發現嗎?美麗的湯。尋找中國字

試了一下,似乎無法檢測到角色。英文字符工作網站的精細

來源我與

<!DOCTYPE html> 
<html lang="zh-CN"> 
    <head> 
     <meta charset="gbk" /> 

回答

1

封閉。

如果你想找到一個包含特定字母文字,或匹配任何其他的正則表達式,你必須使用正則表達式模式,而不是(像@Yannis說):

soup.find(text=re.compile(u'定')) 

注意的re.U標誌不需要,因爲您不會更改\ s或\ w等特殊字符的行爲。如果那樣的話,你可能需要提供它。有關正則表達式的更多信息here

1

工作試着這麼做:

a_string = soup.find(text=re.compile(u'圍', re.U)) 

換句話說搜索字符串方面,應是Unicode。也許工作不re.compile()但至少確保當您使用find(text='something')它將搜索包含完全文本「東西」,並沒有別的文本節點的中國字符串內u''