2009-08-14 50 views
4

我正在尋找一些示例代碼,演示如何使用Lucene.Net和C#索引PDF文檔。谷歌出現了一些,但沒有任何我可以找到有用的。如何使用Lucene.Net來索引PDF文件?

+0

我是個書呆子* *,非常感謝你。 – gnovice 2009-08-14 02:42:31

+0

你看,我更喜歡術語怪胎...... :) – PostMan 2009-08-14 02:52:45

+0

一些重疊與這個問題http://stackoverflow.com/questions/83152/reading-pdf-documents-in-net或更確切地說這個答案:http:///stackoverflow.com/questions/83152/reading-pdf-documents-in-net/84410#84410 – Myster 2010-04-28 03:16:09

回答

5

從我的理解來看,Lucene僅限於創建索引和搜索索引。這取決於應用程序處理打開文件併爲索引提取其內容。因此,如果您要搜索PDF文檔,您需要使用類似iTextSharp的文件來打開文件,取出內容並將其傳遞給Lucene進行索引。在Dimecasts.net網站上有一些使用Lucene的好例子。

+0

這是一個可能的解決方案...需要實際證明,它實際上工作。 – 2010-12-07 09:39:46

2
StringBuilder stringBuilder = new StringBuilder(); 

PdfReader pdfReader = new PdfReader(byte[] of the .pdf); 

for (int page = 1; page <= pdfReader.NumberOfPages; page++) 
{ 
    stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " "); 
} 

(使用iTextSharp的)

其餘部分不是作爲簡潔地示出。

在我的網站上的產品演示中有代碼顯示如何使用lucene.net代碼,但在這裏發佈有點長。

下面是代碼爲屬於我的產品:https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs用戶名/密碼:公共