從本網站複製選定的文字Java

我想從以下網站複製紅色文字。我不想要任何HTML代碼，但我正在尋找一種方法來簡單地複製Red中的所有文本。我知道我可以手動做到這一點，但這不是我所期待的。我非常感謝分享任何代碼。從本網站複製選定的文字Java

http://www.srigranth.org/servlet/gurbani.gurbani?Action=Page&Param=1&g=1&h=0&r=0&t=0&p=0&k=0&fb=0

來源

2014-01-20 user3187131

JSoup可以讀取網頁和迭代其內容元素。

Sting yourURL = "servlet/gurbani.gurbani?Action=Page&Param=1&g=1&h=0&r=0&t=0&p=0&k=0&fb=0"; 
Document doc = Jsoup.connect(yourURL).get();

我不明白那是什麼頁面上，但它看起來像你以後可能會與dict類a鏈接內的HTML文本。如果是這樣的話，

Elements links = doc.select("a.dict");

會給你的Element可迭代的集合，其中您可以輕鬆地提取文本內容：

for (Element word : links) { 
    String theTextyoureafter = word.html(); 
}

這是基本的想法，你可能需要試驗讓它「恰到好處」，但Jsoup網站上也有很多例子。

來源

2014-01-20 00:52:14 fvu

這很好，但我得到的文字由每個「單詞」分隔，所以我真的不知道新行開始和結束的地方。由於您不理解文本，請使用以下內容：http://www.srigranth.org/servlet/gurbani.gurbani?Action=Page&Param=1&g=0&h=0&r=0&t=1&p=0&k=0&fb=0 – user3187131

任何事情藍色是我所追求的。我基本上想要將所有這些行添加到我的ArrayList。但是還是非常感謝一些比手動複製更好的東西。 – user3187131

對於英文版本的文檔結構是不同的（每個單詞沒有'a'元素），但是這個想法保持不變。嘗試使用Firebug或Chrome的開發人員工具來理解頁面的結構，但它看起來像首先查找所有'div'元素，並且發現每個div中的所有'a'元素都可以提供幫助，因爲據我所見，每個句子都被包裝成DIV。請閱讀[選擇器語法]（http://jsoup.org/cookbook/extracting-data/selector-syntax）手冊頁，選擇器非常強大！祝你的項目好運。 – fvu

從本網站複製選定的文字Java

回答

相關問題