Tika的替代品

任何人知道任何C＃替代TiKa能夠從HTML，PDF等提取文本。Tika的替代品

2010-06-24 Jesse

一些問題，不能偏離主題的指控下迅速關閉，從我看來，這種行爲是很不負責任的，影響所提供的優質的服務使網站 – Alrehamy 2017-01-11 20:11:04

同意，完全有效的問題，將有可能幫助有人尋求答案。 – Jesse 2017-01-27 20:39:38

我有一個類似的需要......我有一個.NET項目，我需要將文本拉出各種文件（.XLS，.DOC，.PDF等），用於使用Lucene索引。淨

This blog post似乎正是我後我：各地.jar文件一個.NET的包裝！

我現在執行它，但如果它不工作，那麼我會更新我的答案在這裏...

編輯：好，就看，運行，並且運行良好（如果慢慢地）。 IKVM有一些非常令人討厭的依賴關係，但這是我找到的最好的選擇。

2010-09-15 12:59:04 NeilD

看起來很有希望。我會給它一個鏡頭。謝謝！ – Jesse 2010-09-20 18:12:13

我是提到的博客文章的作者。這篇文章的結果是項目TikaOnDotnet。你可以在這個鏈接找到更多。 https://kevm.github.io/tikaondotnet/ – KevM 2017-05-01 15:02:14

你的問題有點含糊，但對於解析HTML，你可以使用Html Agility Pack，它可以讓你完全訪問HTML並允許使用XPath表達式提取元素。

2010-06-24 16:16:16

模糊不清，簡潔是。 Tika是一個文本提取器/解析器，它將提取我將用於索引的文本。我正在爲C＃尋找類似的東西。 – Jesse 2010-06-24 16:24:20

-1

您可以使用Lucene.Net和嘗試一些解析器....我剛剛發現這個博客，有一些很酷的鏈接...我希望它能幫助！

2013-03-09 18:34:36

，我實現了一個名爲Toxy框架。它基於.NET，比Tika更易於使用。請訪問http://toxy.codeplex.com

2014-01-11 09:34:14

回答