//我已在此添加新的請參閱Cheating PHP integers。任何幫助都感激不盡。我有一個想法,試圖通過將整數打包爲無符號字節來嘗試和破解數組的存儲選項(只需8或16位整數即可大大減少內存)。PHP中的字符集檢測
嗨
我目前正在自定義字符集檢測庫,並建立從Mozilla的字符集探測算法和一個伸出援助之手的chardet使用(Python的端口)的端口。但是,這在PHP中非常耗費內存(如果我只是加載了西文檢測,大約需要30mb的內存)。我已經優化了我所能做的所有工作,而無需從頭開始重新編寫以加載每一部分(這會減少內存,但會使其慢得多)。
我的問題是,你知道任何LGPL PHP庫的字符集檢測? 這完全是爲了讓研究在正確的方向上給予我一點指導。
我已經知道mb_detect_encoding的,但它遠遠太有限,與文本文件我已經帶來了太多太多的誤報(但Python的chardet的檢測它們完美)
@Jase你應該上傳你的代碼,我們可以提出建議! – Yehonatan 2011-03-31 18:33:13
您是否正在重新創建mbstring擴展中已存在的內容? PHP自己的mb_detect_encoding對我來說工作得很好。我用它來完成這個任務。 – Dmitri 2011-03-31 18:33:58
如果您提供正確的順序或猜測,mb_detect_encoding可以很好地工作。沒有圖書館能夠100%準確地檢測到編碼。你應該可以學習關於unicode的一切,在你開始編寫任何代碼之前,先了解它。總而言之,unicode的本質是沒有辦法準確地檢測字符集,只是檢查字符串,尤其是沒有提供一些提示的短字符串。 – Dmitri 2011-03-31 18:38:36