我想從一個網站檢索文章和其他內容。 我得到了爬蟲的想法,並假設我可以打開遙遠的頁面,並根據某些正則表達式獲取文本部分。 我想知道的是,我不僅可以通過單個頁面(或分頁)進行搜索,還可以通過整個網站進行搜索,而不必爲每個元素逐個運行爬網程序,並且不會忘記進程中的任何現有網址。通過整個網站的PHP爬行器
請注意,我不需要這是乾淨的,因爲它是一次性的事情。 我有一份合同的網絡機構想要向我收取大量資金,用於存儲我自己的數據庫,並且沒有辦法繞過它,因此我必須找到一個快速解決方法。 你能幫我解決這個問題嗎?
謝謝。
事情是我不需要大量的數據,我需要整個數據,沒有丟失任何東西,100%確定 – Baylock
不幸的是,沒有辦法讓每個頁面100%確定 - 如果有沒有提及一個文件,這將是很難找到 - 特別是自動! – Chris
例如添加了javascript。 –