從文本文件或網頁中選擇Unicode字符

我能夠對devnagari單詞進行syllabalise，如下頁所示。從文本文件或網頁中選擇Unicode字符

但我想要做的就是找到那些開始從以下網頁「ह」字樣。

如何可以使用Python做些什麼？

2011-10-05 shantanuo

調查beautifulsoup包，它是專爲處理HTML文檔而設計的。使用它來搜索梵文文本應該與英文文本不同。 – wberry

如果你的話是Unicode字符串，在列表中words收集，然後將下面的代碼片段顯示了所有單詞，"x"

for word in words: 
    if word.startswith(u"x"): 
     print word

開始或者，如果你想要得到的開始u"x"所有單詞的列表，你可以使用列表理解：

selected_words = [ w for w in words if w.startswith(u"x") ]

2011-10-05 10:04:16 rocksportrocker

回答