2014-10-18 32 views
1

我試圖導入語料庫,只有從一個文件夾需要txt文件如果文本文件是從2009年開始的文件名都是格式如下:使用正則表達式來查找文件

Mr. ABERCROMBIE.2009-01-14.2014sep17_at_223226.txt 

我需要用連字符分隔的第一個日期是2009年。我試圖寫出正則表達式(下面),但我真的很難找出正則表達式,下面的東西不起作用。

corpus_root = '/Users/jt/Documents/CRspeeches' 
speeches = PlaintextCorpusReader(corpus_root, '\w.2009-[0-9]-[0-9].*\.txt') 
+0

http://regexpal.com/ – jgr208 2014-10-18 22:58:53

+0

'2009- [0-9] {1,2} - [0-9] {1,2}'您需要處理2位數日期的情況/月 – scunliffe 2014-10-18 23:00:25

回答

1

你接近:

\.2009-[0-9]{2}-[0-9]{2}\..*\.txt$ 

你需要躲避.,否則它會匹配任何字符,並[0-9]只會匹配一個數字,因此{2}

+0

謝謝,但它不起作用!語料庫是空的。 – 2014-10-19 01:10:19

+0

也許是「先生」文件名的一部分? – 2014-10-19 01:22:52

+0

這工作:^ \ w * \。\ s。* 2009- [0-9] {2} - [0-9] {2} \ .. * \。txt – 2014-10-19 01:53:16