使用全文搜索可以忽略搜索短語中的波蘭字符嗎?例如,我在我的數據庫中有一部電影。這部電影的標題是:「Pięćdziesiąttwarzy Greya」。如果訪問者搜索短語「piecdziesiat」,我的腳本應該找到一個包含短語「piecdziesiat」(並忽略任何波蘭字母)的電影。全文搜索 - 忽略搜索短語中的波蘭語字母
這可能嗎?
使用全文搜索可以忽略搜索短語中的波蘭字符嗎?例如,我在我的數據庫中有一部電影。這部電影的標題是:「Pięćdziesiąttwarzy Greya」。如果訪問者搜索短語「piecdziesiat」,我的腳本應該找到一個包含短語「piecdziesiat」(並忽略任何波蘭字母)的電影。全文搜索 - 忽略搜索短語中的波蘭語字母
這可能嗎?
您可以使用strtr()
到字符串變音符號轉換爲字符串沒有變音符號。例如,它可以將'Pięćdziesiąt'轉換爲'piecdziesiat'。有一個comment on the PHP documentation page有一個有用的功能,包含一個很好的翻譯表。
爲後人的緣故,那就是:
function normalize ($string) {
$table = array(
'Š'=>'S', 'š'=>'s', 'Đ'=>'Dj', 'đ'=>'dj', 'Ž'=>'Z', 'ž'=>'z', 'Č'=>'C', 'č'=>'c', 'Ć'=>'C', 'ć'=>'c',
'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E',
'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O',
'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss',
'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e',
'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o',
'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b',
'ÿ'=>'y', 'Ŕ'=>'R', 'ŕ'=>'r',
);
return strtr($string, $table);
}
所以對於「Pięćdziesiąt」你把它轉換成「piecdziesiat當用戶搜索」和(你可以通過strtolower()
運行它)。然後在你的數據庫中你有一個'canonicalised version'的字段,它已經刪除了任何變音符號。在數據庫中搜索時,您將在規範字段而不是標題字段上進行搜索。
另一個選項取決於您正在使用的數據庫。 PostgreSQL具有unaccent
功能,可以讓您在數據庫端執行此操作,而不需要「規範」字段。 MySQL/MariaDB中還有UTF8-bin
模式,我很確定MongoDB具有類似的功能。
您是否嘗試過使用preg_replace?發現了這個話題除去非英文字符
使用PHP自己的iconv
函數來解決這個問題。
$output = iconv("utf-8", "ascii//TRANSLIT", $input);
更詳細的例子可以在這裏找到:http://php.net/manual/en/function.iconv.php#83238