來自pdf文件的Java正則表達式讀取

-2

我有一個java項目，它將從pdf文件中讀取文本。 pdf包含表格格式，如果列跨越文本內容，將包含breakline。例如：「這是www.google.com」變成「這是www.goog/nle.com」（跨越到下一行）。我需要將這些文本提取出來並使用域正則表達式模式進行處理。如果它跨越，它將無法獲得正確的「www.google.com」。我無法替代「/ n」，因爲我可能有這樣的情況，例如：「這是一個這是www.google.com/nwww.yahoo.com」。來自pdf文件的Java正則表達式讀取

*此PDF文件從運行Java從DOCX是越來越www.google.com精而不斷裂線問題讀取DOCX轉換。它只發生在pdf中。

有沒有想法？由於

來源

2015-05-25 Luke.T

你可以先刪除所有換行符和應用正則表達式等記載here找到的所有URL。

來源

2015-05-25 15:22:39

你不應該低估我。請正確閱讀我的問題，因爲我不會問是否可以刪除分隔線。 :) –

我投票你的問題既沒有上漲也沒有下跌。但是：用正則表達式解決這個問題不是一個好方法，因爲表達式可能變得非常複雜並且不可維護。只需嘗試簡單的表達，例如在這個網站上：http://derekslager.com/blog/posts/2007/09/a-better-dotnet-regular-expression-tester.ashx –

感謝您的信息alex。 –

來自pdf文件的Java正則表達式讀取

回答

相關問題