我想知道是否有一些代碼或庫獲取域名下的所有網址。我需要找到一個域的所有網址。如何通過PHP查找所有URL?
例如,如果我的域名是https://stackoverflow.com/,我想找到所有問題的URL是這樣的:
- [Java lib or app to convert CSV to XML file?
- [https://stackoverflow.com/questions/456/what-can-i]
- [https://stackoverflow.com/questions/789/where-can-i]
我不知道該域下有多少個問題,但我必須創建一個搜索所有url的引擎,然後在查找url之後我需要將內容插入到我的數據庫中。
我將爲我的5個網頁創建一個小型搜索引擎。
任何人都可以幫忙嗎?
感謝,
這似乎是一個單一的問題相當廣泛......你正在寫一個網絡爬蟲,這是一個複雜的。您能否將您的問題縮小到特定的技術問題,還是希望我們能夠爲您的計劃提供架構? – 2012-07-07 21:31:42
我將用php創建,但我不知道這個工作的名稱,所以我不知道如何在谷歌搜索。我如何搜索谷歌樣本關於這項工作?其實他們的機器人可以工作。這是你的選擇給我一個建築或方式。我對所有人都好。 – user1508831 2012-07-07 21:37:30
請詳細說明「我將爲我的5個網頁創建一個小型搜索引擎」,如果您抓取/抓取一個網站,爲什麼您會有5頁或者這只是一個示例數字? – 2012-07-08 00:50:27