我試圖解析一個頁面來查找所有有效的url,但這裏有一個問題。頁面上有三種類型的鏈接:url(_http://site.com/dir/page.html),絕對uri(/dir/page.html)和相對uri(不帶斜槓的dir/page.html) 。可能我對術語錯了,我不是一個html編碼器。但是,情況並非如此。
我需要找到並收集所有網址(即_http://site.com/dir/subdir/page.html等)。這是問題。如果有一個頁面_http://site.com/dir/page.html帶有鏈接,如< a href =「subdir/page.html」>鏈接</a >它應該將我們帶到_http:// site .COM /目錄/子目錄/ page.html中。但是,如果在頁面的頭部有< base,那麼相同的鏈接會導致_http://site.com/subdir/page.html,即與_http://site.com/dir/不同。子目錄/ page.html中。
問題是,如果在頁面上可能會影響目標網址的HTML代碼中有其他內容。
在此先感謝。解析HTML頁面上的相關鏈接
0
A
回答
0
在HTML這樣有沒有別的在href基地你提到
什麼能成爲棘手的,應考慮旁,有可能是由腳本執行製作網頁上的聯繫,所以像window.location的。 href =東西。如果鏈接明確說明,這很容易,但是它們也可能由腳本計算出來,然後您可能會錯過鏈接或通過使用簡單解析來誤讀鏈接。
0
你的問題實際上是如何鏈接在html中的url作品,請閱讀:http://www.webdevelopersnotes.com/design/relative_and_absolute_urls.php3。所以說你在/ admin /中,你需要/admin/login.aspx。我的相對URL是login.aspx,而我的絕對是/admin/login.aspx有意義嗎?
所以基本上我所說的是考慮你的鏈接是從哪個目錄提供的。這將決定要使用的url鏈接的類型和內容。
除此之外,如前所述,jscript和服務器端代碼也可以做鏈接。
相關問題
- 1. 解析HTML頁面以提取鏈接
- 2. 解析html頁面
- 3. 解析HTML頁面
- 4. 解析HTML頁面
- 5. 替代正則表達式解析鏈接的HTML頁面
- 6. Java的HTML解析(鏈接)
- 7. 從html頁面獲取相對鏈接
- 8. 鏈接不會轉到相關頁面
- 9. 已解析頁面的HTML
- 10. HTML頁面上的XSL超鏈接
- 11. HTML:轉到相同頁面鏈接的鏈接,如何保持頁面視圖?
- 12. 相關鏈接不適用於HTML頁面
- 13. 解析HTML編輯鏈接
- 14. 錨鏈接不解析爲子域URL上的當前頁面?
- 15. 鏈接相同的頁面
- 16. Ruby/Rails HTML頁面解析
- 17. JSP/HTML頁面解析
- 18. 解析HTML頁面蟒蛇
- 19. 從tcl解析html頁面
- 20. 鏈接多個HTML頁面
- 21. 超鏈接HTML頁面
- 22. HTML:無法鏈接頁面
- 23. 檢索鏈接HTML頁面
- 24. 新頁面鏈接menubar,html
- 25. c#和regEx在html頁面上拉鍊接href部分鏈接
- 26. 解析html中的onclick鏈接
- 27. 解析Javascript生成HTML的鏈接?
- 28. 解析HTML與gawk的鏈接
- 29. Smarty的管理頁面HTML解析
- 30. 從我自己的頁面解析HTML
謝謝!我沒有真正考慮客戶端生成的代碼,只有純文本/ html響應正文:) – user1926948 2013-02-20 23:59:58