今天想到在PHP
上寫一個bot/crawler/spider
/etc的網頁,只能抓取News
網站。首先我讀到爬蟲的文章,然後用這個問題遇到:寫一個網絡機器人
一個機器人如何識別URL /後/條/文本因爲它涉及到News
!
我帶來的唯一靈魂就是檢查一些特定關鍵字,但不!我不認爲這是一個好的和可行的做法。至少不完美!
因此,任何想法關於更好的sloutions,讚賞。
今天想到在PHP
上寫一個bot/crawler/spider
/etc的網頁,只能抓取News
網站。首先我讀到爬蟲的文章,然後用這個問題遇到:寫一個網絡機器人
一個機器人如何識別URL /後/條/文本因爲它涉及到News
!
我帶來的唯一靈魂就是檢查一些特定關鍵字,但不!我不認爲這是一個好的和可行的做法。至少不完美!
因此,任何想法關於更好的sloutions,讚賞。
你可以使用preg_match
匹配的關鍵字和技術是相當真棒和工作:
$text = "News: Flooding is expected today" ;
$news_found = preg_match("/(news|sensation|discovery)/i", $text);
沒有理由認爲這不是一個很好的解決方案。
我認爲那裏應該有些東西,並不像'preg_match'和關鍵字匹配那樣髒! – revo
Ahahaha,老兄,只有你''preg_match'的模式'可以很髒,但從來沒有這樣一個真棒功能! – vikingmaster
這是一個簡單而快速的解決方案,但是當涉及到CPU使用率和內存消耗時,它是一個抓取網頁並抓取內容的網絡抓取工具,可能是最後一次選擇! – revo
你是對的,你不能依靠這個唯一
這是我的貢獻對一些關鍵詞
上述所有的因素來指導你什麼網站的類型,也可能有這樣的藝術網站已分類數據庫,...等
和記住每一個算法只需要啓動和想法將拿出你的頭腦
只是好奇,爲什麼你認爲這不是一個好的和可行的做法?有什麼理由呢? – vikingmaster