過去1小時,我一直在摸它的頭。是否有任何可靠的方法從HTML頁面提取僅文本PHP從html頁面提取所有文本
以及其他任何內容(代碼,圖像,鏈接,樣式,腳本)。我試圖提取html文檔正文內的所有文本。
這包括段落,純文本和表格數據..
到目前爲止,我已經嘗試simplehtmldom
解析器也file_get_contents
但他們兩人都沒有工作。這裏是代碼:
<?php
require_once "simple_html_dom.php";
function getplaintextintrofromhtml($html) {
// Remove the HTML tags
$html = strip_tags($html);
// Convert HTML entities to single characters
$html = html_entity_decode($html, ENT_QUOTES, 'UTF-8');
return $html;
}
$html = file_get_contents('http://www.thefreedictionary.com/contempt');
echo getplaintextintrofromhtml($html);
?>
下面是輸出的截圖:
https://docs.google.com/file/d/0B-b63LoI1gSfaGhpR0NvdUtlbW8/edit?usp=drivesdk
正如你可以看到它顯示的是奇怪的輸出甚至沒有顯示整個頁面的文本
http://php.net/manual/en/book.curl.php和用strip_tags() – EL3PHANTEN 2014-11-25 10:42:54
你想要提取什麼?其不清楚。最終的輸出應該是什麼? '
'內的內容? – Ghost 2014-11-25 10:48:08編輯我的問題@Ghost – 2014-11-25 10:49:55