我爲什麼會得到亂碼字符？

我正在製作一個PHP腳本來反轉HTML文檔中的文本以處理轉換不良的希伯來PDF文件。（嘆息:)）我爲什麼會得到亂碼字符？

一切正常，但腳本有一個非常奇怪的輸出。只有一些字符，而不是保留希伯來字母，變成空白字符（那些帶問號的黑色鑽石）。

我嘗試了一些解決方案，我可以找到SO和超越，但沒有任何改變。也許你可以啓發我？

您可以在這裏的行動檢查腳本：pilau.phpnet.us/html_invert.php，這是整個源代碼：

<!DOCTYPE html> 
<html lang="he-IL"> 
<head> 
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 
</head> 
<body> 
    <form action="html_invert.php" method="post" enctype="application/x-www-form-urlencoded"> 
     <textarea id="html_code" name="html_code" rows="30" cols="80"><?php 
      if (isset($_POST['html_code'])) 
      { 
       function invert_string ($str) { 
         $new_str = ''; 
         $i = strlen($str); 
         while ($i > 0) { 
          $new_str .= substr($str, --$i, 1); 
         } 
         return '>'.$new_str.'<'; 
        } 

        echo htmlspecialchars(preg_replace('/>(\s*.*\s*)</imUue', 'invert_string("$1")', stripslashes($_POST['html_code']))); 
      } 
      else { echo 'paste your text here'; } 
     ?></textarea> 
     <br /> 
     <input type="submit" value="Process HTML" /> 
    </form> 
</body> 
</html>

來源

2012-04-20 pilau

你想'mb_substr'和'mb_strlen'多字節安全。 – geoffspear 2012-04-20 15:05:12

另外，我不認爲'stripslashes'是UTF安全的。 – Matthew 2012-04-20 15:05:43

我沒有得到任何輸出的鏈接.. – RyanS 2012-04-20 15:06:04

我想作爲回答，以紀念這個問題，所以在這裏是Wooble和馬修的解決方案，禮貌中描述對上述問題的評論如下：

我用mb_substr('UTF-8')和mb_strlen('UTF-8')，以及用這個正則表達式代替stripslashes()：preg_replace(array('/\x5C(?!\x5C)/u', '/\x5C\x5C/u'), array('','\\'), $_POST['html_code'])。

因此，完整的代碼如下：

<textarea id="html_code" name="html_code" rows="30" cols="80"><?php 
     if (isset($_POST['html_code'])) 
     { 
      function add_delimiters ($str, $deli, $optional_suffix) { 
       return (isset($optional_suffix) ? $deli.$str.$optional_suffix : $deli.$str.$deli); 
      } 

      function reverse_string ($str) { 
       $new_str = ''; 
       $i = mb_strlen($str, 'UTF-8'); 
       while ($i > 0) { 
        $new_str .= mb_substr($str, --$i, 1, 'UTF-8'); 
       } 
       return $new_str; 
      } 

      function utf_stripslashes ($str) { 
       return preg_replace(array('/\x5C(?!\x5C)/u', '/\x5C\x5C/u'), array('','\\'), $str); 
      } 

      function strip_blank_lines ($str) { 
       return preg_replace("/(^[\r\n]*|[\r\n]+)[\s\t]*[\r\n]+/u", "\n", $str); 
      } 

      function reverse_html_content ($html) { 
       return preg_replace('/>(\s*.*\s*)</imUue', 'add_delimiters(reverse_string("$1"), ">", "<")', utf_stripslashes($html)); 
      } 

      function clear_unsupported_css ($style) { 
       return preg_replace(array('/top:\s{0,1}([0-9]*(?!px));{0,1}/iu', '/left:\s{0,1}([0-9]*(?!px));{0,1}/iu'), array('top:$1px;', 'left:$1px;'), $style); 
      } 

      function process_inline_style ($html, $func) { 
       return preg_replace('/style="[a-zA-Z0-9:;\s{0,1}]*"/imUue', $func.'("$0")', $html); 
      }    

      echo strip_blank_lines(htmlspecialchars(process_inline_style(reverse_html_content($_POST['html_code']), 'clear_unsupported_css'))); 
     } 
     else { echo 'paste your text here'; } 
    ?></textarea>

來源

2012-11-12 12:13:22 pilau

貌似有什麼毛病我猜的字符集。

在php.ini中查找default_charset，可能會將其設置爲iso-8859-1。

編輯：現在我想起來了，你也可以嘗試發送這個頭：

header('Content-Type: text/html; charset=utf-8');

來源

2012-04-20 15:10:29 EvdTempel

他已經在HTML中擁有該標題。它通過PHP發送它有什麼不同？ – Travesty3 2012-04-20 15:13:57

我爲什麼會得到亂碼字符？

回答

相關問題