我只是想知道一個網頁是否是英文的。有沒有什麼好的方法來做到這一點?如何知道網頁的語言是否是英文?
我發現的最接近的是Detect language from string in PHP但一些使用我的..
有什麼建議?
我有一個樣品的非英語site:
我只是想知道一個網頁是否是英文的。有沒有什麼好的方法來做到這一點?如何知道網頁的語言是否是英文?
我發現的最接近的是Detect language from string in PHP但一些使用我的..
有什麼建議?
我有一個樣品的非英語site:
似乎有幾乎所有/很多possiblities的檢測你的鏈接問題的語言。爲什麼你不能使用其中一個建議的答案?
還有一個解決方案(但不可靠的)北京時間尋找meta標籤中包含的語言信息:
<meta name="DC.language" content="en" scheme="DCTERMS.RFC3066">
<meta name="keywords" lang="en" content="some content">
<meta http-equiv="content-language" content="en">
我有這個樣本網站沒有lang字在頁面中:http://24-support.com/ – AgA 2012-03-20 17:52:30
我用http://www.alchemyapi.com/來檢測語言。您將文本的片段傳遞給他們的API。它檢測大多數語言並且相當準確。他們提供一個免費的API,允許每天有1,000個請求,這對於適度使用是可以接受的。否則,價格會突然上漲。
您也可以嘗試在谷歌翻譯API:
http://code.google.com/apis/language/translate/v2/getting_started.html#language_detect
然後有這樣一條:
http://langid.net/identify-language-from-api.html
他們免費提供相當多的要求,但我不知道他們有多準確。絕對值得一看。
可能感興趣的一些項目包括:
我會搜索單詞「the」。如果是英語,應該有很多「the」。 – marvin 2012-03-20 18:25:06
儘管上面的俄文樣本網站確實包含了一些「the's」。 – AgA 2012-03-21 04:10:27
相關/重複問題:http://linguistics.stackexchange.com/questions/1871/efficient-linguistic-algorithms-for-detecting-language-of-a-website – 2013-03-11 06:35:39