我正在尋找一種方法來自動確定網站頁面使用的自然語言,因爲它的URL。根據URL自動確定網站頁面的自然語言
在Python中,函數,如:
def LanguageUsed (url):
#stuff
它返回一個語言說明(例如, 'en' 代表英語, 'JP' 的日本,等...)
彙總結果: 我有一個合理的解決方案,使用code from the PyPi for oice.langdet在Python中工作。 它在辨別英語與非英語方面做得不錯,這是我目前所需要的。請注意,您必須使用Python urllib獲取html。另外,oice.langdet是GPL許可證。
有關使用Python中Trigrams的更一般解決方案,請參見Python Cookbook Recipe from ActiveState。
Google Natural Language Detection API工作得很好(如果不是我見過的最好的)。但是,它是Javascript和他們的TOS禁止自動使用它。
地理位置是完全無用的。世界上有很多地方有多種語言共存。網站也可能有多種語言版本 – 2009-07-22 19:25:43