2011-02-16 107 views

回答

2

指定操作系統和您打算執行的搜索類型(單詞,確切短語,PDF元數據?)可能會有所幫助。一些內置的搜索系統(如OS X的Spotlight)將自動搜索帳戶中所有PDF文件的多個單詞。

在Linux上,我將PDF文件可能暫時轉換爲ASCII與「pdftotext」實用程序,然後通過每一個與「grep」可以搜索:

find /start/path -name '*.pdf' -print \ 
-exec pdftotext {} /tmp/tmp.txt \; \ 
-exec grep -i "search words" /tmp/tmp.txt \; 
+0

我們需要在Windows平臺上搜索文件 – user339108 2011-02-16 06:52:36

2

我認爲你需要從每一個PDF文件中提取文本並在提取的文本中搜索子字符串。

您可以嘗試Docotic.Pdf library進行文本提取(免責聲明:我爲Bit Miracle工作)。 請使用Docotic.Pdf庫查看how to search text in PDF的示例。

當然,您可以爲提取的文本構建索引並在您的應用程序中使用該索引。

有像Lucene.Net這樣的集成解決方案可能可以用於您的任務。