Q
Tika的替代品
9
A
回答
2
我有一個類似的需要......我有一個.NET項目,我需要將文本拉出各種文件(.XLS,.DOC,.PDF等),用於使用Lucene索引。淨
This blog post似乎正是我後我:各地.jar文件一個.NET的包裝!
我現在執行它,但如果它不工作,那麼我會更新我的答案在這裏...
編輯:好,就看,運行,並且運行良好(如果慢慢地)。 IKVM有一些非常令人討厭的依賴關係,但這是我找到的最好的選擇。
2
你的問題有點含糊,但對於解析HTML,你可以使用Html Agility Pack,它可以讓你完全訪問HTML並允許使用XPath表達式提取元素。
+5
模糊不清,簡潔是。 Tika是一個文本提取器/解析器,它將提取我將用於索引的文本。我正在爲C#尋找類似的東西。 – Jesse 2010-06-24 16:24:20
-1
您可以使用Lucene.Net和嘗試一些解析器....我剛剛發現這個博客,有一些很酷的鏈接...我希望它能幫助!
http://kalanir.blogspot.com.ar/2008/08/indexing-pdf-documents-with-lucene.html
4
,我實現了一個名爲Toxy框架。它基於.NET,比Tika更易於使用。 請訪問http://toxy.codeplex.com
相關問題
- 1. ios的Apache Tika替代品
- 2. 替代Apache tika
- 3. 替代Apache Tika的C/C++
- 4. @「」的替代品?
- 5. ASIHTTP的最佳替代品,替代品或替代品用於下載隊列
- 6. Pieceable的替代品
- 7. NowJS的替代品
- 8. Flash的替代品?
- 9. RelativeLayout的替代品?
- 10. JMegahal的替代品
- 11. JodReports的替代品
- 12. Git的替代品?
- 13. YQL的替代品
- 14. window.scrollMaxY的替代品?
- 15. FMINCON的替代品
- 16. SuperSized的替代品
- 17. reCAPCTHA的替代品?
- 18. wx.lib.masked.NumCtrl的替代品
- 19. webistrano的替代品?
- 20. PathListBox的替代品
- 21. CKAN的替代品
- 22. SwaggerHub的替代品
- 23. Wakelocks的替代品?
- 24. fancybox的替代品?
- 25. Dreamweaver的替代品?
- 26. pdftohtml的替代品
- 27. MSMQ的替代品
- 28. SRSPlus的替代品?
- 29. Webview的替代品?
- 30. NSMutableDictionary的替代品?
一些問題,不能偏離主題的指控下迅速關閉,從我看來,這種行爲是很不負責任的,影響所提供的優質的服務使網站 – Alrehamy 2017-01-11 20:11:04
同意,完全有效的問題,將有可能幫助有人尋求答案。 – Jesse 2017-01-27 20:39:38