2017-06-07 87 views
0

我是哥倫比亞大學的研究助理,我一直在使用有關Campaign Lobbying的Open Secret大量數據。我最近遇到了一個數據問題,他們提供的.txt文件由於格式錯誤而無法正確轉換爲.csv文件。我已經解決了由額外逗號和括號引起的大部分錯誤,但是,一個錯誤仍然存​​在問題。在一個數據集(包含超過3百萬行數據)中,應該在單個行中的單個列中包含特定於問題的信息。但是,文本文件的排列方式使得這些文本中的某些文本被換行符分隔,從而導致某些信息應該出現在單個列中,並且已經在不同的行之間進行了分割。下面的附件是EmEditor中提供的一個示例。我想知道是否有一個程序或代碼,我可以通過運行,以便快速解決這些錯誤?它可以像查看每行的第一個字符的代碼行一樣簡單,並且如果它不是數字值,或者是字母或符號,則簡單地退格一次以便將信息放置在前一行上。我有很少的編碼經驗,任何幫助將不勝感激。將文本轉換爲CSV時出錯

enter image description here

回答

0

你可以使用正則表達式。

在查找和替換窗口中,選中「使用正則表達式」框。

在查找和替換文本框中使用下面的表達式。

查找:\n([^\d])

替換:\1

該搜索換行符後跟一個非數字字符出現的所有與只有非數字字符替換它,從而去除換行符。

+0

@Nagraj非常感謝你的幫助。你的建議完全按照我的意願工作。行已成功合併,並刪除了多餘的行。 – user8126887