我有一個很長的腳本,涉及到將大量的文本文件分割成單獨的單詞和處理它們。使我的腳本UTF-8兼容?
我小寫一切然後刪除除了字母和空格與所有字符:
$content=preg_replace('/[^a-z\s]/', '', $content); // Remove non-letters
這然後分解和每個字進入相關聯的陣列與occurances作爲值的號碼的鍵:
$words=array_count_values($content);
我想將腳本轉換爲能夠使用英語以外的語言。 PHP會對此好嗎?我可以使用UTF-8字符作爲數組鍵嗎?我怎麼preg_replace刪除除了任何語言的信件之外的一切? (所有數字,標點符號和隨機字符仍然需要被刪除。)
您可能不想刪除「除字母之外的所有內容」,因爲在大多數語言中,單詞不僅僅由字母組成(認爲是重音和其他變音符號)。 – Artefacto
我建議你閱讀http://unicode.org/reports/tr29/不幸的是,我認爲PHP只展示了ICU的字形邊界功能,而不是字邊界。 – Artefacto