2012-05-18 63 views
2

我試圖導入幾個包含日期格式爲「yyyyMMdd」的幾個字段的.csv文件。我很快發現DataImportHandler不容易支持csv文件。在DataImportHandler中,可以使用LineEntityProcessor然後使用RegexTransformer,但這很麻煩。我嘗試的下一個方法是將文件發佈到CSVRequestHandler,但我還沒有找到一種方法來指定用於解析字段的SimpleDateFormat。我一直在尋找解決這個問題的方法,但我認爲我註定要麼是預處理步驟,要麼是使用RegexTransformer。任何幫助將不勝感激。具有非標準日期格式字段的Solr CSV導入

編輯:我應該補充一點,我在Solr 3.5上。

+0

這是一次性事情還是需要自動化? – Ansari

+0

這是這些文件的一次性操作,但我認爲,當我開始使用其他csv文件集時,我將遇到同樣的問題。 – Clarke

+0

我還沒有使用CSVRequestHandler - 我建議一個簡單的預處理步驟。使用Python讀取CSV文件並吐出XML,然後在輸出文件上運行post.jar。海事組織更簡單,更強大。 – Ansari

回答

1

或。留在solr。索引它在一個字符串字段。並使用UpdateProcessor將其以正確格式複製到日期字段。 preety容易

+0

我有一個類似的想法想法,昨天花了一些時間尋找一個例子。我的想法是使用,但我能找到的唯一屬性是源和目標。今天我將研究使用UpdateProessor。 – Clarke

+0

這很好。我是否應該使用單個UpdateRequestProcessor來處理記錄中的所有字段,或者如果我定義多個(如果可能的話)會更好。 – Clarke

+0

我不會擔心N,除非您稍後可以重用... – Persimmonium

0

你看過DateFormatTransformer

+0

據我所知,DateFormatTransformer僅適用於DIH。在寫這個問題的時候,DIH並沒有乾淨地支持.csv文件。解決方案是給我們一個UpdateProcessor。 – Clarke