2015-06-17 111 views
0

我正在開發一個Java程序,它包含在一個網絡爬蟲解析器中。 我使用Jsoup從網頁下載HTML源代碼,並且我想提取src和alt以便將它們寫入CSV文件。 問題是,我找不到方法來刪除alt=""src=""。 我不希望他們在我的CSV文件中,我只想要圖片網址及其說明。有沒有人有想法? 這裏是我做的:如何提取HTML屬性的內容

Document html = Jsoup.connect(url).get(); 
Elements titres = html.select("img[src$=.jpg], div[class$=price] "); 
+0

爲什麼不能讓他們在CSV和產卵另一個Java工作(正則表達式)從CSV清除它們? –

回答

0

謝謝您的回答,但因爲它是一個專業的項目,我已經找到了其他的方式來做到這一點。 對於那些想誰知道我是怎麼做

String image = titres.get(i).attr("src");