換行符後的負向向前？

我有一個類似CSV的文本文件，大約有1000行。文件中的每條記錄之間都是一連串的破折號。記錄通常以\ n結尾，但有時在記錄結束之前會有一個額外的\ n。簡化示例：換行符後的負向向前？

"1x", "1y", "Hi there" 
------------------------------- 
"2x", "2y", "Hello - I'm lost" 
------------------------------- 
"3x", "3y", "How ya 
doing?" 
-------------------------------

我想用空格替換多餘的\ n，即連接破折號之間的連線。我想我能做到這一點（Python 2.5中）：

text = open("thefile.txt", "r").read()  
better_text = re.sub(r'\n(?!\-)', ' ', text)

，但似乎每次替換\ n，不只是不跟一個破折號的人。我究竟做錯了什麼？

我在問這個問題，試圖提高自己的正則表達式技能，並理解我犯的錯誤。最終目標是生成一種文本文件，其格式可由特定的VBA for Word宏使用，從而生成一個樣式化的Word文檔，然後由Word友好的CMS進行消解。

來源

2009-09-14 fwkb

如果這是Perl，我會說'$ /'設置爲''------------------------------- ' – 2009-09-14 19:11:08

您需要排除分隔線末尾的換行符。試試這個：

\n(?<!-\n)(?!-)

這個正則表達式使用負look-behind assertion排除\n多數民衆贊成由- preceeded。

來源

2009-09-14 18:55:20 Gumbo

謝謝，我現在看到了。在嘗試解決方案之前，我沒有徹底地定義問題，然後通過假設在實際替換一半時替換所有的\ n來進一步混淆事物。 – fwkb 2009-09-14 19:33:25

re.sub(r'(?<!-)\n(?!-)', ' ', text)

（連字符不需要字符類以外逃逸。）

來源

2009-09-14 19:03:04 chaos

...以及字符範圍聲明之外和claracter類的開始或結尾處。 '[a-z-0-9]'，'[-a-z]'和'[a-z-]'都是有效的字符類聲明。 – Gumbo 2009-09-14 19:41:48

這是使用生成函數跳過的線條和產生的東西，csv模塊的好地方可以閱讀。

def readCleanLines(someFile): 
    for line in someFile: 
     if line.strip() == len(line.strip())*'-': 
      continue 
     yield line 

reader= csv.reader(readCleanLines(someFile)) 
for row in reader: 
    print row

這應該無縫默默地處理引號內的換行符。

如果你想要做其他事情與此文件，例如，保存與線除去副本，你可以做到這一點。

這將刪除行的副本。這並不值得，因爲讀取和跳過這些行非常快，並且不需要額外的存儲空間。

來源

2009-09-14 19:08:25

真棒的想法，用發生器去除線條！ – orip 2009-09-14 19:33:16

順便說一句 - 你不需要len（line.strip（））而不是len（line）？ – orip 2009-09-14 19:34:13

@orip：這將是一個錯誤，謝謝。 – 2009-09-14 20:05:00

RegEx並不總是最適合這項工作的工具。如何通過諸如「Split」或「Tokenize」之類的東西來運行它？（我相信python有一個等價的）然後你有你的記錄，並可以假設換行符只是延續。

來源

2009-09-14 19:29:07

換行符後的負向向前？

回答

相關問題