我的源具有不同的日期格式,如下所示,並尋找一種算法來識別在Pentaho數據與選擇值和模糊步驟集成中嘗試的源日期模式。模式匹配來識別日期格式
日期列(串)
「20150210」
「20050822--」
「2014-02-五月」
「20051509--」
「02月2014年」
「2013 -MAY-12"
「12DEC2013」
「15050815」
「五月-02-2014」
「12312015」
我知道,在PDI中我們可以通過寫作來實現JS步驟。如果每種模式都有條件,但不是一個好主意,並且這種方法在處理大量記錄時會導致轉換死機,尋找有效的方式來搜索日期模式。
我認爲這是所有ETL項目中非常普遍的問題,在此我試圖瞭解像SAS Data Integration,Informatica,SSIS這樣的企業供應商如何提供簡單的方法來處理。
我們是否有任何算法來識別源模式。如果是這樣的話?
上面列出的格式不受限制。
'01-02-05' < - 什麼日期?答案是:它完全依賴作者的文化。 en-GB會將其翻譯爲「2005年2月1日」。 en-US將標識爲「2005年1月2日」。 ja-JP將指定「2001年2月5日」 – billinkc