我想使用Java中的正則表達式從word文檔或pdf文檔中搜索文本。可能嗎 ?這個怎麼做 ?是否可以使用java將PDF文檔或Word文檔中的搜索文本正則表達式?
例如PDF/DOC這個樣子的:
(54) About Keyboard More Info Date : 29/02/2003 Printed : US Filed: 19/03/2005 Viewed : 5 times
現在我的目標是用java運行此文件對正則表達式基於搜索..
當初在試圖文本提取米,但由於它們是非結構化和分散的,我不能使用提取的文本。
比如......我想要做這樣的..
File fl = new File ("sample.pdf");
String res= FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))");
System.out.println (res);
輸出將是(54) About Keyboard
..
如何ahive我的目標是什麼?哪個庫可以幫助我使用Java來做到這一點?
關於PDF:您可以將文本搜索(通過正則表達式或其他方式)僅應用於*文本*,您可以以某種方式從PDF中提取文本;因此,你的任務的一半是[文本提取](http://stackoverflow.com/questions/21138731/why-the-text-extracted-from-pdf-using-pdf-text-extractors-for-java-such-as -pdfbo)你說你不能使用的文本*。 – mkl