2014-01-15 69 views
3

我想使用Java中的正則表達式從word文檔或pdf文檔中搜索文本。可能嗎 ?這個怎麼做 ?是否可以使用java將PDF文檔或Word文檔中的搜索文本正則表達式?

例如PDF/DOC這個樣子的:

 

(54) About Keyboard          More Info 

Date : 29/02/2003          Printed : US 
Filed: 19/03/2005          Viewed : 5 times 

現在我的目標是用java運行此文件對正則表達式基於搜索..

當初在試圖文本提取米,但由於它們是非結構化和分散的,我不能使用提取的文本。

比如......我想要做這樣的..

File fl = new File ("sample.pdf"); 
String res= FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))"); 
System.out.println (res);  

輸出將是(54) About Keyboard ..

如何ahive我的目標是什麼?哪個庫可以幫助我使用Java來做到這一點?

+0

關於PDF:您可以將文本搜索(通過正則表達式或其他方式)僅應用於*文本*,您可以以某種方式從PDF中提取文本;因此,你的任務的一半是[文本提取](http://stackoverflow.com/questions/21138731/why-the-text-extracted-from-pdf-using-pdf-text-extractors-for-java-such-as -pdfbo)你說你不能使用的文本*。 – mkl

回答

0

直接不能使用Java進行搜索。您可以使用Tika來提取文件的內容,然後您可以應用正則表達式。

相關問題