2015-05-25 33 views
-2

我有一個java項目,它將從pdf文件中讀取文本。 pdf包含表格格式,如果列跨越文本內容,將包含breakline。 例如:「這是www.google.com」變成「這是www.goog/nle.com」(跨越到下一行)。我需要將這些文本提取出來並使用域正則表達式模式進行處理。如果它跨越,它將無法獲得正確的「www.google.com」。 我無法替代「/ n」,因爲我可能有這樣的情況,例如:「這是一個這是www.google.com/nwww.yahoo.com」。來自pdf文件的Java正則表達式讀取

*此PDF文件從運行Java從DOCX是越來越www.google.com精而不斷裂線問題讀取DOCX轉換。它只發生在pdf中。

有沒有想法?由於

回答

0

你可以先刪除所有換行符和應用正則表達式等記載here找到的所有URL。

+0

你不應該低估我。請正確閱讀我的問題,因爲我不會問是否可以刪除分隔線。 :) –

+0

我投票你的問題既沒有上漲也沒有下跌。但是:用正則表達式解決這個問題不是一個好方法,因爲表達式可能變得非常複雜並且不可維護。只需嘗試簡單的表達,例如在這個網站上:http://derekslager.com/blog/posts/2007/09/a-better-dotnet-regular-expression-tester.ashx –

+0

感謝您的信息alex。 –