我的項目很簡單:我有一個鏈接到一個網站,有不同的化學物質的多個信息,我想提取一些數據,並把它放入pdf。事情是我想保留原始HTML的格式(當然使用它的CSS)。物質的 例子:http://www.molbase.com/en/msds_1659-31-0-moldata-2.html#tabs
我用jsoup來讀取表的頁面中,MSDS一個底部的HTML,含有有關物質的不同信息的多個部分,但我真的不知道該怎麼將確切的HTML格式保存到我的pdf文件中。我也嘗試過使用iText,但它給了我「缺少結束標記」的錯誤,如果它工作,它會打印整個頁面,而不僅僅是msds表格。
這是我試圖做的,但不是有效的:
Document docu = Jsoup.connect(urlbun).get();
Element tableHeader = docu.select("div[class=\"msds\"]")
.first();
String[] finSyn = tableHeader.text().split(" ");
String moreText =" ";
我試圖拆該網頁有一個DIV下(「類=‘MSDS’」),但我的文字無法找到一種方法來分裂它的好方法。
請問,請給我一個關於怎麼做的提示?即使格式不同,我希望能夠以相同的方式顯示信息,例如縮進等。
謝謝!