0
我想創建Python和twisted.What happend網絡爬蟲是在調用 reactor.run()
網絡爬蟲使用雙絞線
的時候,我不知道所有的鏈接來獲取。 這樣的代碼是這樣:
def crawl(url):
d = getPage(url)
d.addCallback(handlePage)
reactor.run()
和手柄頁有這樣的:
def handlePage(output):
urls = getAllUrls(output)
所以現在我需要在每個urls.How網址的應用爬行()做我這樣做嗎?我應該停止反應堆並重新開始嗎?如果我錯過了某些明顯的事情,請告訴我。
謝謝,我不知道那是這麼簡單! – Vignesh 2012-04-19 01:21:18