2016-02-04 40 views
1

我有一個網站的網址,需要找出網站使用哪種語言(無論是西班牙語,法語,意大利語等)。如何確定網站的語言

該網站的域頂高級爲.com,這完全沒有幫助。我不能簡單地檢查字符串是否包含「.de」,「.fr」或任何其他國家代碼。

我試圖獲得html標記的lang屬性,但有很多網站沒有它。此外,我發現here,我可以檢查meta標籤,這將是這樣的:

<meta name="language" content="english"> 

但同樣,並非所有網站使用這個標記。

你知道任何其他方式來確定網站的語言嗎?

謝謝。

+0

只能通過分析文本。這不是一件容易的事。 –

+1

有沒有簡單的方法來確定網站的語言,短缺使用某種語言檢測算法。可能會有一些SaaS提供商專門從事這方面的工作; Google是你的朋友。 –

+0

沒有單一的,可靠的方法。您必須應用啓發式算法,因此需要對多個標記進行多次測試,然後計算語言的概率。 – arkascha

回答

1

很遺憾,很多開發人員不認爲在他們的網頁中添加語言元信息是有用的。也可能是頁面上有多種語言 - 據我所知 - 強制使用<div>參數lang或其他類似的東西。以下是一些可以幫助你:

  1. 檢查的<meta name="language" content="...">標籤
  2. 檢查內部<div> S和看,如果這些包含lang參數
  3. 檢查菜單(如果有的話) - 這些通常含有太多,少於文本正文的文本
  4. 尋找更小的HTML數據塊,您可以輕鬆解析,並且可以爲您提供有關頁面使用的語言的更多信息
  5. 最後啓動heuristicall Ÿ分析大的文本塊

這其實很可悲的事情現在怎麼都因爲提供這些信息並不難,也不需要投入到做很多額外的時間,但優點是肯定有的特別是當涉及搜索引擎,最重要的是 - 改善有各種殘疾的人們的無障礙環境。

+0

是的,許多開發人員忽略語言元數據是一種遺憾。 –

0

您可以使用谷歌翻譯,微軟翻譯或語言層的服務進行語言文本檢測。

我已經瀏覽了這些apis文檔和限制和價格,並選擇了languagelayer personnaly,因爲它是最便宜的,並且易於使用。