我正在構建一個使用Twitters公共時間線上的推文的網站。PHP Twitter推文Langauge
http://twitter.com/statuses/public_timeline.xml
我不想在中國,俄羅斯等鳴叫我想要的一切,但都寫在符號的tweet。
這裏是不希望我的例子: スポーツブランドPR,マーケティング0.2児の母好きなもの:。ユニコーン,着物,駅伝
我試過mb_detect_encoding UTF8但不工作...
任何想法?
感謝
我正在構建一個使用Twitters公共時間線上的推文的網站。PHP Twitter推文Langauge
http://twitter.com/statuses/public_timeline.xml
我不想在中國,俄羅斯等鳴叫我想要的一切,但都寫在符號的tweet。
這裏是不希望我的例子: スポーツブランドPR,マーケティング0.2児の母好きなもの:。ユニコーン,着物,駅伝
我試過mb_detect_encoding UTF8但不工作...
任何想法?
感謝
所有的編碼是一樣的,英語的職位是UTF-8太;)
有兩種選擇,要麼找到Twitter的API,你只能過濾英文的解決方案帖子。
或者您可以使用正則表達式和循環來過濾非羅馬/拉丁字符的帖子。
preg_match('/[^\00-\255]+/u', $post);
希望這有助於
尼科
我不認爲有查詢公共時間表時申報一個語言過濾器的方法。
但是,language
字段在發佈該推文的用戶的公共時間表查詢中返回。你可以用非常高的信心過濾這個問題。
您可以簡單地使用谷歌語言API:
GET https://www.googleapis.com/language/translate/v2?key=INSERT-YOUR-KEY&target=de&q=Hello%20world
,它會返回JSON的語言:從official documentation採取
{
"data": {
"translations": [
{
"translatedText": "Hallo Welt",
"detectedSourceLanguage": "en"
}
]
}
}
例如,搜索「這是另一個例子其中源文本的語言是自動檢測的:「
Pritty很酷!謝謝我可以使用它。 – 3rown9rince 2011-03-11 13:33:48