我的腳本獲取大量文本 - 它可能是HTML代碼或純文本,特殊字符可能是編碼或者不是或兩者都有。如何從部分編碼文本中正確獲取格式化內容
因此,內容可能包含的東西,如:
Don't Do That
It's called "Meme"
He said: 'Yeah'
我該怎麼辦得到它作爲一個類型 - 編碼的或不?
我想:
htmlentities(html_entity_decode($text), ENT_QUOTES, "UTF-8"), ENT_NOQUOTES, "UTF-8")
但它並不適用於所有情況。例如,對於:
•
回報
•
確定嗎?我試過你的代碼(帶正確的括號),它返回'’ ..... ’' – Passerby
它看起來像文本的某些部分是雙重編碼的。這就是我得到這個結果的原因。 –
主要問題是我得到的東西像•代替 –