2013-06-30 58 views
-2

今天想到在PHP上寫一個bot/crawler/spider/etc的網頁,只能抓取News網站。首先我讀到爬蟲的文章,然後用這個問題遇到:寫一個網絡機器人

一個機器人如何識別URL /後/條/文本因爲它涉及到News

我帶來的唯一靈魂就是檢查一些特定關鍵字,但不!我不認爲這是一個好的和可行的做法。至少不完美!

因此,任何想法關於更好的sloutions,讚賞。

+0

只是好奇,爲什麼你認爲這不是一個好的和可行的做法?有什麼理由呢? – vikingmaster

回答

0

你可以使用preg_match匹配的關鍵字和技術是相當真棒和工作:

$text = "News: Flooding is expected today" ; 
$news_found = preg_match("/(news|sensation|discovery)/i", $text); 

沒有理由認爲這不是一個很好的解決方案。

+0

我認爲那裏應該有些東西,並不像'preg_match'和關鍵字匹配那樣髒! – revo

+0

Ahahaha,老兄,只有你''preg_match'的模式'可以很髒,但從來沒有這樣一個真棒功能! – vikingmaster

+0

這是一個簡單而快速的解決方案,但是當涉及到CPU使用率和內存消耗時,它是一個抓取網頁並抓取內容的網絡抓取工具,可能是最後一次選擇! – revo

1

你是對的,你不能依靠這個唯一

這是我的貢獻對一些關鍵詞

  • 匹配URL在頁面描述
  • 搜索
  • 搜索頁面的關鍵字
  • 查看本網頁的其他鏈接(您的抓取工具曾訪問過的網頁)

上述所有的因素來指導你什麼網站的類型,也可能有這樣的藝術網站已分類數據庫,...等

和記住每一個算法只需要啓動和想法將拿出你的頭腦