回答
檢出linkchecker - 它將抓取該網站(同時服從robots.txt
)並生成報告。從那裏,你可以編寫一個解決方案來創建目錄樹。
非常感謝你Hank!完美 - 正是我需要的。非常感謝。 – 2009-09-17 15:08:05
一個不錯的工具。我之前使用了「XENU link sleuth」。 Linkchecker更爲詳細。 – Mateng 2011-11-14 20:42:56
我該怎麼做?以及如果網站中沒有robots.txt怎麼辦? – 2013-07-30 17:15:50
如果這是一個編程問題,那麼我建議你編寫自己的正則表達式來解析所有檢索到的內容。目標標籤是標準HTML的IMG和A.對於JAVA,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
這與模式和匹配器類一起應檢測標記的開始。如果您還想要CSS,請添加LINK標記。
然而,它並不像您想象的那麼容易。許多網頁的格式不正確。如果您需要考慮所有不規則表達式,通過編程提取所有鏈接,人類可以「識別」真的很困難。
祝你好運!
No no no no,[不要用正則表達式解析HTML](http://stackoverflow.com/a/1732454/113632),它會讓Baby耶穌哭! – dimo414 2013-05-29 05:47:10
或者您可以使用Google來顯示它爲此域建立索引的所有頁面。例如:site:www.bbc.co.uk
function getalllinks($url){
$links = array();
if ($fp = fopen($url, 'r')) {
$content = '';
while ($line = fread($fp, 1024)) {
$content .= $line;
}
}
$textLen = strlen($content);
if ($textLen > 10){
$startPos = 0;
$valid = true;
while ($valid){
$spos = strpos($content,'<a ',$startPos);
if ($spos < $startPos) $valid = false;
$spos = strpos($content,'href',$spos);
$spos = strpos($content,'"',$spos)+1;
$epos = strpos($content,'"',$spos);
$startPos = $epos;
$link = substr($content,$spos,$epos-$spos);
if (strpos($link,'http://') !== false) $links[] = $link;
}
}
return $links;
}
try this code....
雖然這個答案可能是正確和有用的,但如果您在解釋問題的過程中包含一些解釋並解釋它是如何有助於解決問題的話,那麼這是首選。如果存在導致其停止工作並且用戶需要了解其曾經工作的變化(可能不相關),這在未來變得特別有用。 – 2015-03-06 00:12:06
呃,它有點**長。** – ElectroBit 2015-05-03 18:29:40
完全沒有必要在php中以這種方式解析html。 http://php.net/manual/en/class.domdocument.php PHP確實能夠理解DOM! – JamesH 2015-06-26 12:30:11
如果你在瀏覽器的開發者控制檯(JavaScript的),你可以輸入這個代碼:
urls = document.querySelectorAll('a'); for (url in urls) console.log(urls[url].href);
縮短:
那麼「Javascript-ed」網址呢? – Pacerier 2015-02-25 00:56:13
喜歡什麼?你什麼意思? – ElectroBit 2015-04-03 20:53:48
我的意思是使用Javascript完成的鏈接。你的解決方案不會顯示它。 – Pacerier 2015-04-06 13:45:53
- 1. 在網站的所有頁面中查找/替換鏈接
- 2. 如何獲取特定網站中的所有頁面鏈接?
- 3. jquery查找網站上的所有圖像鏈接
- 4. 水豚查找頁面上的所有鏈接並檢查網址
- 5. 如何查找和標記網頁中的所有鏈接?
- 6. 如何找到頁面上的所有鏈接?
- 7. 查找網頁上的鏈接
- 8. 顯示網頁上的所有鏈接
- 9. jquery DomWindow網頁上的所有鏈接
- 10. 如何使超鏈接轉到其他網站上的頁面?
- 11. 獲取頁面上的所有鏈接
- 12. 更改頁面上的所有鏈接
- 13. 如何查找網頁上的所有網站,並將其從iframe中撤出?
- 14. 如何查看我網站上的所有可公開訪問的鏈接/頁面的列表?
- 15. Java Selenium從網站中查找所有鏈接?
- 16. 查找鏈接到頁面
- 17. 如何使mediawiki網站上的所有鏈接絕對
- 18. 在頁面上加入所有入站鏈接,並更改所有出站鏈接的目標?
- 19. 我如何搜索我的網站上的所有頁面
- 20. 如何導出TYPO3網站上的所有頁面的Pagetree
- 21. 如何找到私人頁面的所有鏈接,javascript,jquery
- 22. 如何檢查網站的所有非索引頁面?
- 23. 如何從網站獲取所有網站鏈接?
- 24. 鏈接到Sammy.js網站內的頁面
- 25. 程序掃描我的網站,並找到所有鏈接到外部網站的頁面
- 26. 如何在公共網站上找到網站頁面添加
- 27. 如何抓取我內部網站上的所有頁面?
- 28. 如何在網站的所有頁面上實施Haystack?
- 29. 查找與HTML頁面中特定網址模板匹配的所有鏈接
- 30. 如何查找網站上列出的所有工作?
crawlmysite.in - 現場不存在 – 2015-10-20 07:40:33