我正在嘗試從Microsoft Word中提取數據並將其轉換爲sql語句並將其插入到Oracle數據庫中。HWPFDocument/XWPFDocument新行
當MS-字中的數據包含通過創建新線[Shift鍵回車,而不僅僅是進入,
文本包含有看起來像一個問號的方塊圖標。
凡ET是使用回車鍵只是標準的新線和ST是使用
按住Shift鍵並輸入組合新的生產線。因此,當生成SQL並將其插入到oracle時,oracle不會將其計算爲文本,而是以十六進制計算。
我的問題是,如何刪除由[shift-enter]創建的行到標準的'\ n'?
感謝
更新 這是我得到的文本信息
POIFSFileSystem fs = new POIFSFileSystem(new FileInputStream(file));
HWPFDocument doc = new HWPFDocument(fs);
WordExtractor we = new WordExtractor(doc);
text = we.getText();
更新答: 這是POI-3.6的bug。在poi-3.8中顯示爲\ r。
某些Microsoft Office格式使用\ r而不是\ n作爲其新行,這可能是您的文件的情況嗎? – Gagravarr
@Gagravarr我試過替換\ r,但它所做的只是替換新行。 – Kevin
首先,你如何從文件中獲取文本?你可以通過hexdumper發送文本來找出那些神祕人物是什麼? – Gagravarr