0
我能夠對devnagari單詞進行syllabalise,如下頁所示。從文本文件或網頁中選擇Unicode字符
https://gist.github.com/950405
但我想要做的就是找到那些開始從以下網頁「ह」字樣。
http://www.sacred-texts.com/hin/mbs/mbs12030.htm
如何可以使用Python做些什麼?
我能夠對devnagari單詞進行syllabalise,如下頁所示。從文本文件或網頁中選擇Unicode字符
https://gist.github.com/950405
但我想要做的就是找到那些開始從以下網頁「ह」字樣。
http://www.sacred-texts.com/hin/mbs/mbs12030.htm
如何可以使用Python做些什麼?
如果你的話是Unicode字符串,在列表中words
收集,然後將下面的代碼片段顯示了所有單詞,"x"
for word in words:
if word.startswith(u"x"):
print word
開始或者,如果你想要得到的開始u"x"
所有單詞的列表,你可以使用列表理解:
selected_words = [ w for w in words if w.startswith(u"x") ]
調查beautifulsoup包,它是專爲處理HTML文檔而設計的。使用它來搜索梵文文本應該與英文文本不同。 – wberry