2011-08-23 148 views
3

在Azure解決方案中,使用IFilter從pdf/word /中提取文本內容的最佳方式是什麼?Lucene .NET Azure Blob存儲和IFilter

我見過使用流的IFilter的例子,但流的內容應該是什麼? 它是否應該包含某種類型的OLE頭文件?

將原始文件內容作爲流發送到IFilter似乎不起作用。

或者將文件保存到本地文件存儲並讓IFilter從該位置讀取它們會更好嗎?

回答

1

在azure中使用ifilter將會非常棘手,因爲桌面上常見的幾個ifilter在azure web/worker角色中不可用。

您可以在azure中創建一個持久的VM並安裝缺少的ifilter。

但是,如果要通過webupload構建lucene索引,則可以在文件上傳時將文件處理爲文本,然後爲文本編制索引,然後單獨保存該文件。在索引中添加一個字段,讓您可以返回原始源文檔。

可能是一種更簡單的方法,但這就是我解決同一問題的方法。