2012-07-07 113 views
-2

我想知道是否有一些代碼或庫獲取域名下的所有網址。我需要找到一個域的所有網址。如何通過PHP查找所有URL?

例如,如果我的域名是https://stackoverflow.com/,我想找到所有問題的URL是這樣的:

  1. [Java lib or app to convert CSV to XML file?
  2. [https://stackoverflow.com/questions/456/what-can-i]
  3. [https://stackoverflow.com/questions/789/where-can-i]

我不知道該域下有多少個問題,但我必須創建一個搜索所有url的引擎,然後在查找url之後我需要將內容插入到我的數據庫中。

我將爲我的5個網頁創建一個小型搜索引擎。

任何人都可以幫忙嗎?

感謝,

+4

這似乎是一個單一的問題相當廣泛......你正在寫一個網絡爬蟲,這是一個複雜的。您能否將您的問題縮小到特定的技術問題,還是希望我們能夠爲您的計劃提供架構? – 2012-07-07 21:31:42

+0

我將用php創建,但我不知道這個工作的名稱,所以我不知道如何在谷歌搜索。我如何搜索谷歌樣本關於這項工作?其實他們的機器人可以工作。這是你的選擇給我一個建築或方式。我對所有人都好。 – user1508831 2012-07-07 21:37:30

+0

請詳細說明「我將爲我的5個網頁創建一個小型搜索引擎」,如果您抓取/抓取一個網站,爲什麼您會有5頁或者這只是一個示例數字? – 2012-07-08 00:50:27

回答

0

Lucene search讓您輕鬆索引你的網頁,使他們能夠高效,準確地搜查。

請參閱Zend_Search_Lucene瞭解Lucene serach的PHP實現。

你仍然必須蜘蛛網站,並建立索引這是另一個問題。您可以使用像Teleport Pro這樣的軟件來抓取您的網站,併爲您提供一個網址列表,然後您可以將其提供給一個PHP腳本,該腳本獲取所有頁面的內容並將它們提供給Zend_Search_Lucene以構建索引。您也可以使用PHP編寫爬網程序或使用現有的解決方案。搜索php crawler會產生很多東西,包括這個有用的php crawler

+0

我可以得到所有的網址,並通過PHP爬蟲插入到數據庫的內容頁面? – user1508831 2012-07-07 21:50:12

+0

當然,一旦你有了一個URL列表,你可以使用一個像[file_get_contents()](http://php.net/file_get_contents)這樣簡單的函數來獲取它們的內容。儘管將完整的文件插入數據庫用於搜索目的並不是很理想。 – drew010 2012-07-07 21:52:37

+0

所以我要去搜索php crawler.Also誰有樣品可以共享請嗎? – user1508831 2012-07-07 21:53:40