2016-04-25 50 views
2

我正在進行網頁語言檢測,並且設法通過我開發的其他中間件檢索頁面的內容。因爲沒有標準化的內容位置。但是,我不知道如何檢測我嘗試使用lang和xml:lang標記的語言,但是它們效率不如我預期的那樣高,因爲我看到某個網站除了標記中指定的語言之外還有其他語言,幫助將不勝感激? (環境java日食)網頁基於內容的語言檢測

回答

1

這是一個在nlp中的經典問題,並給出了相當不錯的預測。這篇文章看起來類似於這個:link並且有一些很好的答案。 我並不熟悉那裏提到的解決方案,但我確實使用過Apache Tika來處理另一個問題,它是一個很好的開源代碼。希望有所幫助..

+0

我正在研究java,我已經檢查了鏈接,但他們提到的庫(特別是語言檢測器)有一些準確性問題,它給出了相同文本的不同結果並支持有限的語言 –