寫一個網絡機器人

-2

今天想到在PHP上寫一個bot/crawler/spider/etc的網頁，只能抓取News網站。首先我讀到爬蟲的文章，然後用這個問題遇到：寫一個網絡機器人

一個機器人如何識別URL /後/條/文本因爲它涉及到News！

我帶來的唯一靈魂就是檢查一些特定關鍵字，但不！我不認爲這是一個好的和可行的做法。至少不完美！

因此，任何想法關於更好的sloutions，讚賞。

2013-06-30 revo

只是好奇，爲什麼你認爲這不是一個好的和可行的做法？有什麼理由呢？ – vikingmaster

你可以使用preg_match匹配的關鍵字和技術是相當真棒和工作：

$text = "News: Flooding is expected today" ; 
$news_found = preg_match("/(news|sensation|discovery)/i", $text);

沒有理由認爲這不是一個很好的解決方案。

2013-06-30 13:21:29 vikingmaster

我認爲那裏應該有些東西，並不像'preg_match'和關鍵字匹配那樣髒！ – revo

Ahahaha，老兄，只有你''preg_match'的模式'可以很髒，但從來沒有這樣一個真棒功能！ – vikingmaster

這是一個簡單而快速的解決方案，但是當涉及到CPU使用率和內存消耗時，它是一個抓取網頁並抓取內容的網絡抓取工具，可能是最後一次選擇！ – revo

你是對的，你不能依靠這個唯一

這是我的貢獻對一些關鍵詞

上述所有的因素來指導你什麼網站的類型，也可能有這樣的藝術網站已分類數據庫，...等

和記住每一個算法只需要啓動和想法將拿出你的頭腦

2013-06-30 13:34:00

回答