2011-02-16 103 views
5

我想安裝爬網程序來抓取一個網站,讓我說博客,並只提取網站中的鏈接,並將鏈接粘貼到文本文件中。你能指導我一步一步地設置爬蟲嗎?我正在使用Eclipse。安裝指南crawler4j

回答

0

Jsoup將做你需要的所有與HTML解析。 Jsoup是處理html源代碼的java api。你可以得到

  1. 表,你可以用它來分析每一行或每一列。
  2. 列表中的所有鏈接和源導入到該html(導入像 css和js文件)。
  3. 特定標籤的數據。

以上。

爲了您的目的,here是示例代碼。

希望這會幫助你。