基本上,需要幫助制定正則表達式來解析數據
我有文本我想吐出一塊文本。然而,大多數情況下,我有正則表達式,它或者太少[跳過一個部分]或者太多[閱讀下一部分的一部分]。它基本上需要閱讀從銀行對帳單提取的文本。我已經嘗試過更多地閱讀正則表達式,但是我仍然不知道該怎麼做。
這裏有一些樣本讓你們明白我想要做什麼。
_4XXXXXXXXXXXXXX9_
_SOU THE HOME DEPOT 431 POMPANO BEACH * FL
AUT 020112 DDA PURCHASE_
_2/1_DEBIT POS_3.15_
下劃線基本上是我想要提取的部分。基本上除DEBIT POS以外的所有東西。
而且我使用的正則表達式是:
\A
(?<SerialNumber>\b[0-9]{13,16}\b)
(?<Description>.) 'PROBLEM HERE'
(?<PostingDate>
(?:1[0-2]|[1-9])/(?:3[01]|[12][0-9]|[1-9]))
(?<Amount>[,0-9]+\.[0-9]{2})
\Z
我不能設置說明從任何字符長度,因爲我不知道最大長度的文本部分會。我也不知道它是2行還是1行。這主要是什麼使我困惑。
我使用正則表達式的原因是因爲我需要知道第一行是否是一個借記事務,或者它是否是一個支票,什麼不是。他們因行長不同而不同[從PDF中提取,必須清除所有垃圾。] 我不能說所有的交易都會有DEBIT POS。 + 4XXXXXXXXXXXXXXX3 +殼牌石油公司57529380602椰子溪* FL + AUT 021012 VISA DDA PUR + 2/10DEBIT CARD PURCHASE35.05 甚至是借記交易之後交換和含有日均餘額。 – 2012-04-14 04:08:25
然後就不會很難設置兩個對象(或者你需要的那麼多),在第一行運行正則表達式來檢測類型,然後運行適合該對象的代碼,直到讀到物體。 – 2012-04-14 06:34:45