我正在尋找一些示例代碼,演示如何使用Lucene.Net和C#索引PDF文檔。谷歌出現了一些,但沒有任何我可以找到有用的。如何使用Lucene.Net來索引PDF文件?
4
A
回答
5
從我的理解來看,Lucene僅限於創建索引和搜索索引。這取決於應用程序處理打開文件併爲索引提取其內容。因此,如果您要搜索PDF文檔,您需要使用類似iTextSharp的文件來打開文件,取出內容並將其傳遞給Lucene進行索引。在Dimecasts.net網站上有一些使用Lucene的好例子。
+0
這是一個可能的解決方案...需要實際證明,它實際上工作。 – 2010-12-07 09:39:46
2
StringBuilder stringBuilder = new StringBuilder();
PdfReader pdfReader = new PdfReader(byte[] of the .pdf);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " ");
}
(使用iTextSharp的)
其餘部分不是作爲簡潔地示出。
在我的網站上的產品演示中有代碼顯示如何使用lucene.net代碼,但在這裏發佈有點長。
下面是代碼爲屬於我的產品:https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs用戶名/密碼:公共
相關問題
- 1. 如何使用lucene.net索引諸如.txt,.pdf,.doc等文件?
- 2. 如何使用lucene.net索引文件夾
- 3. Lucene.NET索引文件
- 4. 索引.PDF,.XLS,.DOC,.PPT使用Lucene.NET
- 5. 如何使用lucene.net查詢solr索引
- 6. 如何優化Lucene.Net索引
- 7. 如何更新Lucene.NET索引?
- 8. 索引PDF文件
- 9. 如何使用Lucene.NET索引Word 2003,2007和2010文檔
- 10. 使用Lucene爲Symfony索引PDF文件
- 11. 如何使用elasticsearch索引epub,pdf文檔的文件夾
- 12. 如何使用Lucene.Net索引和搜索業務實體?
- 13. 使用CrateData來索引和存儲1百萬PDF文件
- 14. 用lucene.net鎖定索引
- 15. 如何從Lucene.Net的索引文件讀取行
- 16. Lucene.net搜索引擎
- 17. Lucene.net索引短語
- 18. 使用Cloudera索引PDF文檔搜索
- 19. 如何使用mupdf生成PDF文件的8位索引PNG
- 20. 使用lucene.net構建索引2.9.2.2
- 21. Lucene.Net使用MultiSearcher時維護索引
- 22. 使用Lucene.net進行索引版本化
- 23. 使用Lucene.net索引多語言內容
- 24. Lucene.NET搜索索引方法
- 25. Apache Solr - 索引PDF文件
- 26. 如何使用lucene.net搜索文件內容?
- 27. 如何使用NHibernate.Search和Lucene.Net搜索文件內容
- 28. 如何在Nhibernate.Search(Lucene.Net)中構建索引?
- 29. Lucene.net文件夾搜索
- 30. IFilter是使用Lucene.NET索引全文文檔所必需的
我是個書呆子* *,非常感謝你。 – gnovice 2009-08-14 02:42:31
你看,我更喜歡術語怪胎...... :) – PostMan 2009-08-14 02:52:45
一些重疊與這個問題http://stackoverflow.com/questions/83152/reading-pdf-documents-in-net或更確切地說這個答案:http:///stackoverflow.com/questions/83152/reading-pdf-documents-in-net/84410#84410 – Myster 2010-04-28 03:16:09