2017-10-20 61 views
0

我正在嘗試解析一些網域(數以萬計)以查看它們是否包含任何英文單詞。如何查找英文單詞是否存在於字符串中

我很容易解析域名以獲取tldextract域的主要部分,然後嘗試使用enchant來查看它們是否存在於英文字典中。

問題是我不知道如何將域分割成多個單詞來檢查,即latimes返回False,但times會返回True。

有沒有人知道一個聰明的方法來看,如果在字符串中包含任何英語單詞?

謝謝!

+1

這肯定不是解決您嘗試解決的任何問題的最佳方法......並且在許多情況下,它可能總是含糊不清 –

+0

有什麼建議嗎?我試圖將英文和西班牙文域名列表分成兩個列表。 – Mojo713

+1

與whois有什麼不同嗎? –

回答

0

除非您急需這樣做,否則您只需從字符串開頭中剔除字母,並檢查它是否是已知單詞;如果是,請將其切斷並重復。例如, 50k字每個20個字母,最糟糕的是你會做1M查找。通過查找例如5ms(每次點擊一次硬盤),它需要5000秒(約1.5小時),比您花費更好的算法要短。

相關問題