從csv文件讀取列名並保存爲列表時出錯

-3

我有一個文件夾擁有超過15,000個csv文件。它們都有不同數量的列名。從csv文件讀取列名並保存爲列表時出錯

大多數文件都有它的第一行作爲列名（數據屬性）是這樣的：

Name Date Contact Email 
a  b  c  d 
a2 b2 c2  d2

我想要做的是閱讀的所有文件的第一行，將它們存儲爲列表，並寫該列表顯示爲新的csv文件。

這是我迄今所做的：

import csv 
import glob 
list=[] 
files=glob.glob('C:/example/*.csv') 
for file in files : 
    f = open(file) 
    a=[file,f.readline()] 
    list.append(a) 

with open('test.csv', 'w') as testfile: 
    csv_writer = csv.writer(testfile) 
    for i in list: 
     csv_writer.writerow(i)

當我嘗試這個代碼，結果出來是這樣的：

[('C:/example\\example.csv', 'Name,Date,Contact,Email\n'), ('C:/example\\example2.csv', 'Address,Date,Name\n')]

因此在做CSV，每個文件的所有屬性要通過量時 New CSV file made

此外：進入第二列，這使其看起來像這樣（出於某種原因，有一間空行） h文件，我得到了另一個錯誤：

UnicodeDecodeError: 'cp949' codec can't decode byte 0xed in position 6: illegal multibyte sequence

所以我在第一行中包含此代碼，但它沒有工作，說文件無效。

import codecs 
files=glob.glob('C:/example/*.csv') 
fileObj = codecs.open(files, "r", "utf-8")

我閱讀關於stackflow的答案，但找不到與我的問題有關的答案。我感謝你的回答。

來源

2017-07-27 Do Hun Kim

首先，你不應該使用'list'作爲變量名稱。 –

如果我正確理解你的目標，試着用'a = next（reader）'替換'a = [file，f.readline（）]'，並讓我知道它是否有效。 –

另外，你使用'with ... as ...'跟隨你的outfile執行好的上下文管理器練習，但是你也應該對每個infile都這樣做。 –

好了，

import csv 
import glob 
list=[] 
files=glob.glob('C:/example/*.csv') 
for file in files : 
    f = open(file) 
    a=[file,f.readline()] 
    list.append(a)

這裏你打開該文件，然後創建一個與列標題的列表作爲字符串（注意這意味着他們會像「列1，列2」）和文件名。因此，[（「文件名」，「列1，列2」）] 所以你會需要拆分的 '' 像：

for file in files : 
    f = open(file) 
    a=[file] + f.readline().split(',')

現在我們有：

["filename", ("Column1", "Column2")]

所以它仍然會打印到錯誤的文件。我們需要連接列表。

a=[file] + f.readline().split(',')

所以我們得到：

["filename", "Column1", "Column2"]

而且你f.close()打開它，或者使用上下文管理你的內循環等之後，你應該關閉的每個文件：

for file in files : 
    with open(file) as f: 
     a=[file] + f.readline() 
     list.append(a)

更好的解決方案以及如何寫它：

import csv 
import glob 

files = glob.glob('mydir/*.csv') 
lst = list() 

for file in files: 
    with open(file) as f: 
     reader = csv.reader(f) 
     lst.append(next(reader)) 


try: 
    with open(files,'r'.encoding='utf8') as f: 
     # do things 
except UnicodeError: 
    with open(files,'r'.encoding='utf8') as f: 
     # do things

來源

2017-07-27 03:21:12

感謝您的回答。 '和'split'。仍然，輸出是列1與文件名和列2與所有屬性。我想我解釋錯了因爲我的英語不太好。我想要做的是[（「文件名」，「Column1」，「Column2」]，所以每個屬性將使新的csv文件中的列 –

對不起，我搞砸了，我更新了代碼，你需要連接在列表中的列表中仍然是一個列表 –

用你寫的最後一個代碼，我應該在'f.readline（）'旁邊添加'split（'，'）'right？使用'+因爲TypeError說不能將列表轉換爲str –

整理，適當的情境管理，並使用csv.reader一點點：

import csv 
import glob 
list=[] 
files=glob.glob('C:/example/*.csv') 
with open('test.csv', 'w') as testfile: 
    csv_writer = csv.writer(testfile) 
    for file in files: 
     with open(file, 'r') as infile: 
      reader = csv.reader(infile) 
      headers = next(reader) 
      lst = [file] + headers 
      writer.writerow(lst)

這將寫有每INFILE一排新的CSV，每一行是filename, column1, column2, ...

來源

2017-07-27 04:33:43

感謝您的幫助！但每行之間仍有空間。你知道如何解決這個問題嗎？以及如何從文件名剝離目錄？ –

不確定是否有空格，但是'file = file [file.rfind（'\\'）+ 1：]'會將文件名剝離爲最後一個反斜槓後面的內容 –

它很好用。只需修復空格和'UnicodeDecodeError：'cp949'codec'。再次感謝！ –

從csv文件讀取列名並保存爲列表時出錯

回答

相關問題