3
A
回答
5
HTML::SimpleLinkExtor比HTML::LinkExtor有點簡單。你可以在我的webreaper tool上看看我的一半的嘗試,它有一些你可能需要的代碼。
2
您可能會發現使用HTML::LinkExtor。
5
在Perl中檢索網站的經典方法是使用WWW::Mechanize,它具有鏈接方法,該方法返回頁面中所有鏈接的列表。您可以抓取頁面,從中獲取鏈接,然後使用follow_link()或get()方法獲取鏈接的頁面。
1
另一種方法是使用HTML::TreeBuilder解析頁面中的HTML。它返回一個對象樹,您可以使用它來抓取頁面中的所有鏈接,並且可以做更多的事情,例如根據您指定的正則表達式模式查找鏈接。查看HTML :: Element的文檔以查看更多內容。
要查找所有在一個頁面的鏈接:
use HTML::TreeBuilder;
use LWP::Simple;
my $url = 'http://www.example.com/';
my $html = HTML::TreeBuilder->new_from_content(get($url));
my @links = $html->look_down('_tag' => 'a');
我相信LWP ::簡單HTML :: TreeBuilder作爲都包含在Ubuntu的爲好。
相關問題
- 1. 從模塊獲取頁面中所有模塊的引用DNN
- 2. 取消網站中的所有頁面?
- 3. 獲取一個網站上所有的XML頁面的列表
- 4. 如何獲取特定網站中的所有頁面鏈接?
- 5. 獲取網站的所有頁面,包括HTML,ASPX等在C#
- 6. 獲取網站集中的所有網站而沒有獲取所有列表?
- 7. 網站的所有頁面閃爍
- 8. 如何獲取所有可用的perl模塊列表
- 9. 所有頁面的Opencart模塊
- 10. 如何抓取網站以獲取所有設置的cookie和頁面設置?
- 11. 獲取所有頁面上
- 12. 獲取所有頁面API
- 13. 如何使用perl獲取網頁中的所有鏈接?
- 14. 「所有網站內容」權限頁面
- 15. 網站Perl腳本失敗,json模塊
- 16. Clojure從網站獲取html頁面
- 17. 網站頁面內的網站頁面
- 18. 獲取頁面塊
- 19. 如何抓取我內部網站上的所有頁面?
- 20. 如何抓取網站的所有頁面
- 21. 如何獲取網頁的網站名稱和頁面標題
- 22. 從網頁獲取所有HTTP網址
- 23. 如何使用Ruby on Rails獲取特定網站的所有頁面
- 24. 使用cURL獲取網站中的所有鏈接(不僅是頁面)
- 25. 通過PowerShell爲SharePoint網站上的每個頁面獲取所有webpart屬性
- 26. 使用php從網站/ html頁面獲取所有可翻譯的文本
- 27. 善變忽略Drupal的多站點網站/所有/模塊
- 28. 的Perl引用獲取網站
- 29. Perl網:: Telnet模塊
- 30. 從網站獲取所有用戶
謝謝,我已經知道該模塊,但它太多(?)的開銷,只能用於此功能我猜 – snoofkin 2010-09-07 04:41:18