2013-07-19 30 views
0

我試圖解決從:如何使用Jsoup從html源代碼中捕獲一個特定的文本?

  1. How to extract text of paragraph from html using Jsoup?
  2. jsoup how to extract this text

但是這兩個例子都來自標籤的文字工作。

我有我的HTML網頁搜索這一獨特的代碼塊:

enter image description here

我需要的是採取自帶的d.href變量的鏈接。

我試着像代碼:

Elements link = jSoupConnection.select(":contains(d.href)"); 
    Elements link = jSoupConnection.select("#d.href"); 
    Elements link = jSoupConnection.getElementsByAttributeValueContaining("d.href","google"); 

但到現在爲止沒有一次成功。

我也試着做一個研究http://jsoup.org/cookbook/也沒有成功。任何人更有經驗的Jsoup幫助我嗎? 在此先感謝

+0

看來你正試圖解析JavaScript的使用JSoup。這是不可能的使用JSoup。你需要自己解析它。 – devnull

+0

其實我在幾分鐘前發現了一半的解決方案,我下載了所有在txt文件中耗費200mb的頁面上的所有對象..現在我試圖限制這個下載大小(Im有一個小錯誤),並且在一些小時我會發布或指出解決方案在這裏=)我只是等待給一個完整的答案 –

回答

0

在文本的情況下,不來,你可以用Jsoup具體抓選擇元素的任何標記,你應該下載頁面孔(可以用Elements link = jSoupConnection.select("*");做),然後打開它在你的應用程序作爲一個文本文件來檢索任何你想要的。如果下載的文件太大,那是我的問題,請嘗試限制文件大小下載;更多的細節,你可以找到這些鏈接:

  1. Limiting file size creation with java
  2. How to limit the file size in Java
相關問題