2012-06-11 167 views
0

我正在建一個網站,推薦其他好網站。PHP,獲取網頁內容文字

因此,我通過使用抓取系統收集了很多網站。

現在,我想通過使用PHP來區分網站是否有好詞彙。

$page_content = file_get_contents($url); 
$bad_word = 'damn'; 

if(strstr($page_content, $bad_word)): 
    $result = 'YES'; 
else: 
    $result = 'NO'; 
endif; 

我的代碼是這樣的。

我使用Codeigniter並獲取此消息。

An Error Was Encountered 

Unable to load your default controller. Please make sure the controller specified in your Routes.php file is valid. 

它工作正常,某些網站,但它不適用於其他網站。

有沒有其他的方式來檢索網站的內容?

+2

你需要給一些拒收工作例如去幫助別人找出原因。 – Tinyfool

+0

聽起來像是一種很慢的方式來做到這一點,如果你每次檢查單詞(並逐個檢查)。 – nico

+0

我希望您知道您的「抓取工具」最有可能將大多數新聞和社交網站標記爲「不良」。 –

回答

1

我已經在昨天回覆了類似的帖子,但這裏又是一次:)您可以使用preg_match()來獲得更好的結果。 preg_match不僅僅包含正則表達式。它可以做到你所需要的。即:

if (preg_match("/bad-word/i", "page written content of many good and bad words")) { 
    $result = 'YES'; 

} else { 
    $result = 'NO'; 

} 

「我」的意思區分大小寫,檢查PHP手冊,瞭解更多的例子:http://php.net/manual/en/function.preg-match.php

+0

我的意思是不區分大小寫 – jco

0

一些網站需要通過cURL提交表單。