2014-01-20 61 views
0

我想從以下網站複製紅色文字。我不想要任何HTML代碼,但我正在尋找一種方法來簡單地複製Red中的所有文本。我知道我可以手動做到這一點,但這不是我所期待的。我非常感謝分享任何代碼。從本網站複製選定的文字Java

http://www.srigranth.org/servlet/gurbani.gurbani?Action=Page&Param=1&g=1&h=0&r=0&t=0&p=0&k=0&fb=0 

回答

3

JSoup可以讀取網頁和迭代其內容元素。

Sting yourURL = "servlet/gurbani.gurbani?Action=Page&Param=1&g=1&h=0&r=0&t=0&p=0&k=0&fb=0"; 
Document doc = Jsoup.connect(yourURL).get(); 

我不明白那是什麼頁面上,但它看起來像你以後可能會與dicta鏈接內的HTML文本。如果是這樣的話,

Elements links = doc.select("a.dict"); 

會給你的Element可迭代的集合,其中您可以輕鬆地提取文本內容:

for (Element word : links) { 
    String theTextyoureafter = word.html(); 
} 

這是基本的想法,你可能需要試驗讓它「恰到好處」,但Jsoup網站上也有很多例子。

+0

這很好,但我得到的文字由每個「單詞」分隔,所以我真的不知道新行開始和結束的地方。由於您不理解文本,請使用以下內容:http://www.srigranth.org/servlet/gurbani.gurbani?Action=Page&Param=1&g=0&h=0&r=0&t=1&p=0&k=0&fb=0 – user3187131

+0

任何事情藍色是我所追求的。我基本上想要將所有這些行添加到我的ArrayList。但是還是非常感謝一些比手動複製更好的東西。 – user3187131

+0

對於英文版本的文檔結構是不同的(每個單詞沒有'a'元素),但是這個想法保持不變。嘗試使用Firebug或Chrome的開發人員工具來理解頁面的結構,但它看起來像首先查找所有'div'元素,並且發現每個div中的所有'a'元素都可以提供幫助,因爲據我所見,每個句子都被包裝成DIV。請閱讀[選擇器語法](http://jsoup.org/cookbook/extracting-data/selector-syntax)手冊頁,選擇器非常強大!祝你的項目好運。 – fvu