我想從網頁中提取所有鏈接。這是我的代碼到目前爲止。如何使用python和機械化從php頁面獲取所有鏈接
import mechanize
import lxml.html
from time import sleep
links = list()
visited_links = list()
br = mechanize.Browser()
def findLinks(url):
response = br.open(url)
visited_links.append(response.geturl())
for link in br.links():
response = br.follow_link(link)
links.append(response.geturl())
sleep(1)
findLinks("http://temelelektronik.net")
for link in links:
if link in visited_links:
links.remove(link)
else:
findLinks(link)
print link
for link in visited_links:
print link
事實上,我不想寫一個網絡爬蟲。我想要做的是從網頁中提取所有鏈接並創建一個站點地圖。我也想知道是否可以使用mechanize和python從服務器獲取文件的最後修改時間。
我想問的是,這段代碼片段適用於HTML頁面。它不會從php頁面提取鏈接。例如this page。我如何從PHP頁面提取鏈接?
任何幫助,將不勝感激。謝謝..
非常感謝你的頁面。 [pattern.web](http://www.clips.ua.ac.be/pages/pattern-web)模塊工作得很好。 – Erdem 2013-02-10 12:47:19