2016-06-10 94 views
0

我想知道logstash配置文件是否可以通過不同文檔(即docx,pdf,excel)讀取並將其存儲到elasticsearch中的任何方法。Logstash正在讀取文件/文檔

非常感謝提前。

+0

這個問題有點含糊。理論上你可以使用文件輸入讀取任何文件,然後使用適當的過濾器來解析它們。 – pandaadb

+0

如何閱讀docx和pdf文件,因爲它們不是純文本文件。我只知道如何琢磨csv和txt文件的模式。 –

+0

我相信你將無法做到這一點。 Logstash只是讀取文本並將其調整爲它。你可以定義一個編解碼器,或者你可以編寫自己的輸入,但我認爲這不會很好。我建議做一個預處理階段,在這個階段中,您編寫自定義代碼將文件轉換爲文本格式,然後將它們添加到logstash – pandaadb

回答

1

Logstash無法讀取.docx,.xls或.pdf文件,因爲這些文件不是文本文件,它們是二進制文件,在解析它們的應用程序解釋後似乎很簡單。

Logstash是專門用來處理那些純文本,一個很好的測試,以確定是否可以通過Logstash輕鬆地讀取一個文件,如果你能在一個文本編輯器打開該文件,如昇華,記事本或文件原子並讀取內容,那麼Logstash也可以。

嘗試在記事本中打開一個.docx文件,這應該清楚。

+0

這是否意味着我只能通過elasticsearcfh –

+0

來做到這一點我只是仔細看着那個附件映射器工具,看起來好像可以做到,但Logstash肯定不能 –