2011-08-11 77 views
4

首先,我有很多可用的文本。比方說,每次嘗試我都有10000個字符。 該腳本是基於PHP的,但我可以使用任何我想要的。 C++,java,沒問題。什麼是最好的語言檢測庫或網頁API? [即使付費]

谷歌語言API無法使用:他們的使用限制很低。

我6個小時,我試圖出來什麼偉大的,但沒有現在。有人能指給我最好的機會嗎?

回答

6

Language Detection API它提供免費和高級服務。

它通過GET或POST接受文本並提供帶有分數的JSON輸出。

+2

它安全可靠嗎?什麼隱私? – bart

0

如果你願意給蟒蛇去...看看nltk。 我希望你確實通過了this

7

基於Java的工具是:

Apache Tika:不是 「所有」 語言配置文件,但你可以add them yourself

public String detectLangTika(String text) throws SystemException { 
    LanguageIdentifier li = new LanguageIdentifier(text); 
    if (li.isReasonablyCertain()) 
     return li.getLanguage(); 
    else 
     throw new Exception("Tika lang detection not reasonably certain"); 
} 

language-detection:很多語言配置文件,對我的偉大工程。

DetectorFactory.loadProfile(new File(LangDetector.class.getClassLoader().getResource("profiles").toURI())); 

public String detectLangLD(String text) throws SystemException { 

    Detector detector; 
    String lang; 
    try { 
     detector = DetectorFactory.create(); 
     detector.append(text); 
     lang = detector.detect(); 
    } catch (LangDetectException e) { 
     throw new SystemException("LangDetector Failure", e); 
    } 
    return lang; 
} 

最精確的工具是Google API lang detection,該工具已停產並由付費的Google翻譯API取代。

-1

您可以使用Rosoka。它檢測230種不同的語言。您可以通過亞馬遜AWS市場在Rosoka Cloud

之間進行試用您支付所用時間。

-1

還有一個免費增值API這裏: Language Detection API

您可以輕鬆地從網頁測試中的端點。

它接受GET和POST請求(再輸入) ,具有這種結構的響應JSON:

{ 
    language: "eng", 
    isReliable: "true", 
    confidence: "0.9979894639898946" 
} 

免責聲明:我提供的API。

+0

爲什麼downvote? – gidim

+0

關於堆棧溢出的離線資源或工具的推薦請求不屬於主題。如果你回答它們,你特別強調了Stack Overflow是回答這些問題的好地方。不是這樣。即使你知道一個很好的答案,也不要回答這些問題,因爲大多數答案都會被高度評價(「我個人喜歡......」)。您可以打開關於該問題的標誌對話,並在** off-topic **類別下或[help/on-topic]中查看完整的原因。你甚至不應該在評論中回答,因爲效果與實際答案類似。 –

-1

我推薦使用languagelayer.com,他們提供免費的RESTful JSON API Web服務,可以檢測大約170種語言。也提供批量請求。

一個GET API請求(POST鼓勵)看起來是這樣的:

https://apilayer.net/api/detect 
    ? access_key = YOUR_ACCESS_KEY 
    & query = I like apples and oranges 

而這裏的JSON響應:

{ 
    "success": true, 
    "results": [ 
    { 
    "language_code": "en", 
    "language_name": "English", 
    "probability": 83.896703655741, 
    "percentage": 100, 
    "reliable_result": true 
    } 
    ] 
} 

5000每月請求是免費的,如果你需要更多的(像我),那麼最便宜的訂閱是50,000美元請求$ 4.99 /月。 (更多信息here

+0

關於堆棧溢出的離線資源或工具推薦請求不屬於主題。如果你回答它們,你特別強調了Stack Overflow是回答這些問題的好地方。不是這樣。即使你知道一個很好的答案,也不要回答這些問題,因爲大多數答案都會被高度評價(「我個人喜歡......」)。您可以打開關於該問題的標誌對話,並在** off-topic **類別下或[help/on-topic]中查看完整的原因。你甚至不應該在評論中回答,因爲效果與實際答案類似。 –

相關問題