用不同的編碼解析頁面

2013-07-25 58 views 0 likes

我爲wordpress做了一個解析器，但由於wp和db使用的是utf-8，而且有些頁面使用不同的編碼，所以當我解析它們時，我得到了gibrish。我使用curl從外部URL和一些匹配中獲取內容，並用正則表達式替換。用不同的編碼解析頁面

有什麼建議如何解決這個問題？

我使用了Joni的建議，它解決了我的問題。我用於以後查詢關於此問題的一些示例代碼：

preg_match("/charset=(.*?)(\n|'|\"|>)/ism", $content, $charset); 
$content = preg_replace('/^HTTP+[^<]+</', '<', $content); 
$charset = @trim($charset[1]); 
if (preg_match("~(windows-1251|1251)~i", $charset)) return 'Windows-1251'; 
elseif (preg_match("~iso-8859-7~i", $charset)) return 'ISO-8859-7'; 
elseif (preg_match("~(koi8|iso-ir-111)~i", $charset)) return 'KOI8-R';

來源

2013-07-25 Alexk

回答

檢測從內容類型頭正確的編碼（或HTML meta標籤，如果頭部丟失），並使用它時，你解析文檔。

來源

2013-07-25 15:12:10 Joni

我用你的建議，它工作得很好。我首先解析了標題，然後解析了內容。非常感謝！ – Alexk

相關問題

11. Rails不存在的頁面解析
12. 在不同的DNN頁面上將URL解析爲.aspx
13. 已解析頁面的HTML
14. 解析頁面中的PHP
15. do_shortcode不解析裏面的短代碼
16. 如何解析與java編碼不同的字符串
17. 不期望輸出與頁面解析
18. 簡碼不解析在頁面模板 - Wordpress
19. PHP活動頁面代碼 - 我找不出解析錯誤
20. 谷歌地理編碼 - 解析address_components，可能會有所不同
21. 不理解Assert.Areequal後面的編碼
22. Ruby/Rails HTML頁面解析
23. JSP/HTML頁面解析
24. 解析.js頁面python
25. 解析HTML頁面蟒蛇
26. 如何解析LinkedIn頁面
27. 從tcl解析html頁面
28. 解析AJAX驅動頁面
29. 解析Facebook頁面查詢
30. 儘管編碼正確，但XML解析器不解析UTF-8