2013-02-21 24 views
0

我是一個相對新手的程序員,對PHP有很好的理解,但更多的是閱讀,理解和複製我需要的部分,而不是從頭開發的部分。如何使用PHP構建搜索引擎來搜索多個網站的實時內容?

我有超過1000個我想要搜索的URL列表。我希望根據需要搜索這些網頁上的內容,並僅返回包含我提供的文本查詢的結果。我已經將Google自定義搜索引擎視爲一種簡單的選擇,並且這種方式運行良好,但限制了我可以添加的頁面數量。

我已經看着cURL,但似乎並沒有提供我在找什麼,除非我失去了一些東西?

還有像Google CSE這樣的免費且易於使用的其他選項嗎?

回答

0

你可以編寫所需頁面的抓取工具並使用Sphinx引擎(http://sphinxsearch.com/)在頁面中搜索。對於我的意見,應該寫一個帶有HTTP擴展名的抓取工具比純粹的cURL庫更好。

+0

我會看看獅身人面像,出於興趣,你知道任何教程網站編寫履帶式? – AlexShepherd 2013-02-25 10:12:55

+0

你可以從這裏開始[http://en.wikipedia.org/wiki/Web_crawler](http://en.wikipedia.org/wiki/Web_crawler),也可以看看[http://astellar.com/php (http://astellar.com/php-crawler/)更多示例 – 2013-02-25 10:26:47

+0

還有一個用於抓取和抓取網絡的lib - [Goutte](https://github.com/fabpot/Goutte) – 2013-02-25 13:47:22