2010-06-24 112 views
9

任何人知道任何C#替代TiKa能夠從HTML,PDF等提取文本。Tika的替代品

+1

一些問題,不能偏離主題的指控下迅速關閉,從我看來,這種行爲是很不負責任的,影響所提供的優質的服務使網站 – Alrehamy 2017-01-11 20:11:04

+2

同意,完全有效的問題,將有可能幫助有人尋求答案。 – Jesse 2017-01-27 20:39:38

回答

2

我有一個類似的需要......我有一個.NET項目,我需要將文本拉出各種文件(.XLS,.DOC,.PDF等),用於使用Lucene索引。淨

This blog post似乎正是我後我:各地.jar文件一個.NET的包裝!

我現在執行它,但如果它不工作,那麼我會更新我的答案在這裏...

編輯:好,就看,運行,並且運行良好(如果慢慢地)。 IKVM有一些非常令人討厭的依賴關係,但這是我找到的最好的選擇。

+0

看起來很有希望。我會給它一個鏡頭。謝謝! – Jesse 2010-09-20 18:12:13

+0

我是提到的博客文章的作者。這篇文章的結果是項目TikaOnDotnet。你可以在這個鏈接找到更多。 https://kevm.github.io/tikaondotnet/ – KevM 2017-05-01 15:02:14

2

你的問題有點含糊,但對於解析HTML,你可以使用Html Agility Pack,它可以讓你完全訪問HTML並允許使用XPath表達式提取元素。

+5

模糊不清,簡潔是。 Tika是一個文本提取器/解析器,它將提取我將用於索引的文本。我正在爲C#尋找類似的東西。 – Jesse 2010-06-24 16:24:20