-2
我有一個java項目,它將從pdf文件中讀取文本。 pdf包含表格格式,如果列跨越文本內容,將包含breakline。 例如:「這是www.google.com」變成「這是www.goog/nle.com」(跨越到下一行)。我需要將這些文本提取出來並使用域正則表達式模式進行處理。如果它跨越,它將無法獲得正確的「www.google.com」。 我無法替代「/ n」,因爲我可能有這樣的情況,例如:「這是一個這是www.google.com/nwww.yahoo.com」。來自pdf文件的Java正則表達式讀取
*此PDF文件從運行Java從DOCX是越來越www.google.com精而不斷裂線問題讀取DOCX轉換。它只發生在pdf中。
有沒有想法?由於
你不應該低估我。請正確閱讀我的問題,因爲我不會問是否可以刪除分隔線。 :) –
我投票你的問題既沒有上漲也沒有下跌。但是:用正則表達式解決這個問題不是一個好方法,因爲表達式可能變得非常複雜並且不可維護。只需嘗試簡單的表達,例如在這個網站上:http://derekslager.com/blog/posts/2007/09/a-better-dotnet-regular-expression-tester.ashx –
感謝您的信息alex。 –