2015-06-05 39 views
-2

我只想要一個網頁的內容。假設我想從這個網址獲取example的內容,但是在這個頁面上有HTML JS和其他標籤,我想將它們全部刪除。 我有什麼到目前爲止,這是PHP - 如何從網頁中刪除所有標記(HTML JS PHP CSS JQUERY)

$raw_text = file_get_contents('http://www.booking.com/reviews/es/hotel/royal.html?aid=304142;sid=56e38d55a38ec2df6fe4622827e89675;dcid=1'); 
$rm_html = strip_tags($raw_text); 

如何刪除所有種類的標籤,只是有有在當前頁面中的文本?

+0

你究竟是什麼意思的「內容」的網頁? – arkascha

+3

strip_tags不起作用? –

+0

@arkascha我只想要那裏的文本,所以我可以稍後處理它 – william

回答

0

最簡單的方法是不再實行由PHP來自己的東西,而是利用一些東西,已經完成,例如lynx文本瀏覽器:

lynx --dump http://some.example.org/page.html 

這轉儲在網頁上找到在標準中的所有文本在哪裏你可以申請更多的處理過濾器。當然你也可以使用shell方式將輸出轉換爲文件或其他內容。只要安裝了實用程序(或類似的東西,例如links),您也可以在PHP中根據需要調用此函數。

+0

如果計算機我會運行它沒有它? – william

+0

那麼,你必須安裝它或使用替代,如建議。如果這是不可能的,那麼顯然你不能使用這種方法。 – arkascha

相關問題