0
我想從以下網站複製紅色文字。我不想要任何HTML代碼,但我正在尋找一種方法來簡單地複製Red中的所有文本。我知道我可以手動做到這一點,但這不是我所期待的。我非常感謝分享任何代碼。從本網站複製選定的文字Java
http://www.srigranth.org/servlet/gurbani.gurbani?Action=Page&Param=1&g=1&h=0&r=0&t=0&p=0&k=0&fb=0
我想從以下網站複製紅色文字。我不想要任何HTML代碼,但我正在尋找一種方法來簡單地複製Red中的所有文本。我知道我可以手動做到這一點,但這不是我所期待的。我非常感謝分享任何代碼。從本網站複製選定的文字Java
http://www.srigranth.org/servlet/gurbani.gurbani?Action=Page&Param=1&g=1&h=0&r=0&t=0&p=0&k=0&fb=0
JSoup可以讀取網頁和迭代其內容元素。
Sting yourURL = "servlet/gurbani.gurbani?Action=Page&Param=1&g=1&h=0&r=0&t=0&p=0&k=0&fb=0";
Document doc = Jsoup.connect(yourURL).get();
我不明白那是什麼頁面上,但它看起來像你以後可能會與dict
類a
鏈接內的HTML文本。如果是這樣的話,
Elements links = doc.select("a.dict");
會給你的Element
可迭代的集合,其中您可以輕鬆地提取文本內容:
for (Element word : links) {
String theTextyoureafter = word.html();
}
這是基本的想法,你可能需要試驗讓它「恰到好處」,但Jsoup網站上也有很多例子。
這很好,但我得到的文字由每個「單詞」分隔,所以我真的不知道新行開始和結束的地方。由於您不理解文本,請使用以下內容:http://www.srigranth.org/servlet/gurbani.gurbani?Action=Page&Param=1&g=0&h=0&r=0&t=1&p=0&k=0&fb=0 – user3187131
任何事情藍色是我所追求的。我基本上想要將所有這些行添加到我的ArrayList。但是還是非常感謝一些比手動複製更好的東西。 – user3187131
對於英文版本的文檔結構是不同的(每個單詞沒有'a'元素),但是這個想法保持不變。嘗試使用Firebug或Chrome的開發人員工具來理解頁面的結構,但它看起來像首先查找所有'div'元素,並且發現每個div中的所有'a'元素都可以提供幫助,因爲據我所見,每個句子都被包裝成DIV。請閱讀[選擇器語法](http://jsoup.org/cookbook/extracting-data/selector-syntax)手冊頁,選擇器非常強大!祝你的項目好運。 – fvu