0

大家好,最快的多線程和linkchecker

我有一個關於鏈接檢查的問題。 我想創建最快的鏈接檢查器,然後我將使開源

我仍然試圖決定用什麼語言編寫它。 這個項目的預算已經儲存起來了,我準備僱用程序員。

但之前我這樣做,我需要你的建議。 我需要從這個社區知道,這是如此足智多謀,在我的這個軟件中尋找什麼。

這是什麼,這將使我成功實現這一目標? 它會限制自己僅檢查損壞的鏈接(404)。

請注意,它是爲開源社區運行的任何實力的個人電腦,但它必須儘可能快。

因此,只能在巨型服務器上運行的百萬美元工業強度概念是而不是我正在尋找的東西。

什麼是最快的方法來實現這一目標? 到目前爲止,我曾嘗試:

  • 的Xenu的鏈接獵犬
  • 和linkchecker
  • Scrapy
  • 鏈接林特
  • InSpyder SEO青蛙

和其他幾個我忘了。 究竟是什麼,這會使這樣的工具最快?

是否有可能在HTTP頭中僅接收服務器狀態,而無需下載整個html?因此,節省時間?

也許這是加速它的解決方案?另外,在人們會警告我重載服務器之前,我意識到這個問題。這個工具的目的是在他/她的OWN網站上使用它作爲網站的所有者。它也會服從robots.txt。我希望你能給我一個很好的答案,而不是消極的迴應。請記住,搜索引擎每天抓取數十億頁。這只是網站管理員自己的工具。如果你對此有疑慮。請指教我,而不是批評。

非常感謝您的幫助,我真的很感謝它以及整個社區。

回答

2

您可以發送類型爲「HEAD」的WebRequests。有些網站不允許,但是您可以檢查回覆,如果不允許,請發送完整請求。關於此的更多信息WebRequest "HEAD" light weight alternative。也不要使用WebClient作爲該線程中的OP。使用WebRequests。

2

中迄今爲止最重要的限制因素,速度會:

  1. 網絡
  2. 性能網站的被抓取

如果你不下載內容和搜索它,怎麼會你會發現哪些鏈接可以抓取?

對於純應用程序的性能,你會看主要是:

  1. 多線程
  2. HTML解析算法速度