通過熊貓的Accumalate列

我有多個製表符分隔的文件，全部具有相同的條目。我打算讀取每個文件選擇第一列作爲索引。我的最終表將有第一列作爲索引映射到所有文件的最後一列。爲此，我編寫了一個熊貓代碼，但不是很棒的代碼。有沒有其他方法可以做到這一點？通過熊貓的Accumalate列

import pandas as pd 
df1 = pd.read_csv("FB_test.tsv",sep='\t') 
df1_idx = df1.set_index('target_id') 
df1_idx.drop(df1_idx[['length','eff_length','est_counts']],inplace=True, axis=1) 
print(df1_idx) 
df2 = pd.read_csv("Myc_test.tsv",sep='\t') 
df2_idx = df2.set_index('target_id') 
df2_idx.drop(df2_idx[['length','eff_length','est_counts']],inplace=True, axis=1) 
print(df2_idx) 
frames = [df1_idx, df2_idx] 
results = pd.concat(frames, axis=1) 
results

它產生的輸出是，

  tpm 
target_id  
A   0 
B   0 
C   0 
D   0 
E   0 
      tpm 
target_id  
A   1 
B   1 
C   1 
D   1 
E   1 
Out[18]: 
target_id tpm tpm  
A 0 1 
B 0 1 
C 0 1 
D 0 1 
E 0 1

如何循環它，這樣，我看每個文件和實現這一相同的輸出？

感謝， AP

來源

2017-05-19 Arun

我認爲你可以使用參數index_col和usecols在read_csv與list comprehension。但得到重複列名（因此是選擇的問題），所以最好是添加參數keys到concat - 轉換Multiindex得到很好獨特的列名之後：

files = ["FB_test.tsv", "Myc_test.tsv"] 
dfs = [pd.read_csv(f,sep='\t', index_col=['target_id'], usecols=['target_id','tpm']) 
     for f in files] 
results = pd.concat(dfs, axis=1, keys=('a','b')) 
results.columns = results.columns.map('_'.join) 
results = results.reset_index() 
print (results) 
    target_id a_tpm b_tpm 
0   A  0  1 
1   B  0  1 
2   C  0  1 
3   D  0  1 
4   E  0  1

來源

2017-05-19 10:21:29 jezrael

清潔代碼，並使用循環機制，可以把兩個文件的名字和你在兩個單獨的列表被丟棄列，然後使用列表中理解上的文件名導入每個數據集。隨後，您將列表理解的輸出連接成一個數據幀：

import pandas as pd 


drop_cols = ['length','eff_length','est_counts'] 
filenames = ["FB_test.tsv", "Myc_test.tsv"] 
results = pd.concat([pd.read_csv(filename,sep='\t').set_index('target_id').drop(drop_cols, axis=1) for filename in filenames], axis=1)

我希望這有助於。

來源

2017-05-19 09:53:51 Abdou

通過熊貓的Accumalate列

回答

相關問題