簡化我的任務,可以說我想在某些網頁中找到用希伯來語寫的任何單詞。 所以我知道希伯來字符代碼是U+05D0
到U+05EA
。 我想寫類似:在正則表達式中使用unicode char代碼
expr = "[\u05D0-\u05EA]+"
url = "https://en.wikipedia.org/wiki/Category:Countries"
web_handle = urllib2.urlopen(url)
website_text = website_handle.read()
matches = sre.findall(exp, website_text)
for item in matches:
print item
我所期望的輸出是:
עברית
但代替了把很多中國/日本字符的。
@stribizhev它什麼也找不到。也許我應該使用HTML代碼呢? – Sanich