我有一個需要抓取多個網站(如100個不同的網站),並將其主頁內容保存在數據庫中。但問題不是所有這些網站都有相同的結構和相同的鏈接文本。例如,一個網站可能有「關於我們」,而另一網站的相同內容可能在一個名爲「我們是誰」的頁面下。因此,很難識別並列出一個數據庫列中的常見內容。同樣遍歷100個或更多網站的內部頁面並保存每個頁面的抓取數據並將它們放在公共列中變得更加難以解決。 我該如何解決這個問題?我會很感激任何想法,可以幫助我做到這一點。 我正在使用PHP和cUrl來開發解決方案。刮多個網站,並保存PHP中的常見頁面名稱下的內容
下面更清晰的例子。
網站1個鏈接 - 主頁/關於我們/產品/聯繫我們
網站2個鏈接 - 主頁/我們是誰/服務/ FAQ /聯繫
網站3個環節 - 首頁/我們做什麼/本公司/聯繫我們
網站鏈接4 - 首頁/註冊/店/我們在哪裏
現在我想上面的鏈接進行自動分類如下,
關於我們列 - 關於我們,我們是誰/我公司
聯繫我們列 - 聯繫我們/聯繫我們/我們在哪裏
產品列 - 產品/我們做什麼
附:我更喜歡聽到不是編碼示例的方法。
不知道你打算如何使用/訪問數據,而很難提供建議。例如,很容易識別包含電子郵件地址的頁面 - 儘管這些頁面現在很少發佈。郵政地址是可能的,但更棘手。例如,提取產品目錄的通用解決方案將非常困難。 – symcbean
好吧,如果我理解正確,這是要求一個代碼(用PHP),可以用來收集一些隨機網站,這有兩個upvotes?我錯過了什麼...? – Smar
這似乎過於寬泛,不適合在stackoverflow和邊界線問如何解決具體問題的代碼。 – k0pernikus