如何導入多個CSV文件然後創建主表？

我是一名研究化學家，進行了一次測量，我記錄了'信號強度'與'質荷比（m/z）'。我通過改變一個特定的參數（碰撞能量）重複了這個實驗15x。因此，我有15個CSV文件，並希望在相同範圍的m/z值和相同的間隔值內對齊/連接它們。由於儀器閾值規則，某些m/z值未被記錄，因此我有不能簡單地導出到excel並複製/粘貼的文件。的數據看起來有點像的表下面貼如何導入多個CSV文件然後創建主表？

Dataset 1: x | y   Dataset 2: x | y 
      ---------     ---------  
      0.0 5      0.0 2 
      0.5 3      0.5 6 
      2.0 7      1.0 9 
      3.0 1      2.5 1 
             3.0 4

用matlab我開始與此代碼：

%% Create a table for the set m/z range with an interval of 0.1 Da 
mzrange = 50:0.1:620; 
mzrange = mzrange'; 
mzrange = array2table(mzrange,'VariableNames',{'XThompsons'});

然後我手動導入1 X/Y CSV（Xtitle = XThompson，Ytitle = YCounts）以與指定的m/z範圍對齊。

%% Join/merge the two tables using a common Key variable 'XThompson' (m/z value) 
mzspectrum = outerjoin(mzrange,ReserpineCE00,'MergeKeys',true); 

% Replace all NaN values with zero 
mzspectrum.YCounts(isnan(mzspectrum.YCounts)) = 0;

在這一點上我堅持，因爲重複這個過程，一個單獨的文件將覆蓋我YCounts列。的YCounts列並不重要我爲我以後可以改變它的標題，但是我想有表繼續這樣的：

XThompson | YCounts_1 | YCounts_2 | YCounts_3 | etc... 
--------------------------------------------------------

我怎麼能從事這項運動在Matlab所以，這是至少半自動化？之前我曾發佈過描述類似的情況，但事實證明它不能實現我所需要的。我必須承認，我的思想不是程序員，所以我一直在努力解決這個問題。

PS-這個問題最好在Matlab或Python中執行嗎？

來源

2016-08-24 Patrick B.

我設法創建一個解決我的問題基礎上的學習，您可以通過使用導出合併後的數據爲Excel工作表通過大家的輸入和在線matlab課程。我不是一個自然的編碼器，所以我的腳本不像這裏的天才那麼優雅，但是希望對於其他非編程科學家來說，它足夠清楚。

下面是對我的作品的結果：

％讀取包含一個目錄*的.csv文件並且校正X軸，以均勻間隔（0.1單位）的時間間隔。

% Create a matrix with the input x range then convert it to a table 
prompt = 'Input recorded min/max data range separated by space \n(ex. 1 to 100 = 1 100): '; 
inputrange = input(prompt,'s'); 
min_max = str2num(inputrange) 
datarange = (min_max(1):0.1:min_max(2))'; 
datarange = array2table(datarange,'VariableNames',{'XAxis'}); 

files = dir('*.csv'); 
for q=1:length(files); 

    % Extract each XY pair from the csvread cell and convert it to an array, then back to a table. 
    data{q} = csvread(files(q).name,2,1); 
    data1 = data(q); 
    data2 = cell2mat(data1); 
    data3 = array2table(data2,'VariableNames',{'XAxis','YAxis'}); 

    % Join the datarange table and the intensity table to obtain an evenly spaced m/z range 
    data3 = outerjoin(datarange,data3,'MergeKeys',true); 
    data3.YAxis(isnan(data3.YAxis)) = 0; 
    data3.XAxis = round(data3.XAxis,1); 

    % Remove duplicate values 
    data4 = sortrows(data3,[1 -2]); 
    [~, idx] = unique(data4.XAxis); 
    data4 = data4(idx,:); 

    % Save the file as the same name in CSV without underscores or dashes 
    filename = files(q).name; 
    filename = strrep(filename,'_',''); 
    filename = strrep(filename,'-',''); 
    filename = strrep(filename,'.csv',''); 
    writetable(data4,filename,'FileType','text'); 
    clear data data1 data2 data3 data4 filename 

end 
clear

來源

2016-09-01 16:55:10

我不知道或使用matlab，所以我的答案是純粹的基於python。我認爲python和matlab應該同樣適合讀取csv文件並生成主表。

請考慮這個答案更多作爲指針如何解決python中的問題。

在python中，通常使用pandas包來解決這個問題。這個軟件包提供「高性能，易於使用的數據結構和數據分析工具」，並且可以本地讀取一大組文件格式，包括CSV文件。例如，可以生成來自兩個CSV文件「foo.csv」和「bar.csv」的主表。如下所示：

import pandas as pd 
df = pd.read_csv('foo.csv') 
df2 = pd.read_csv('bar.cvs') 

master_table = pd.concat([df, df2])

熊貓還允許以多種方式對數據進行分組和結構化。 pandas documentation對其各種功能有很好的描述。在Linux或OSX

sudo pip install pandas

如果：

人們可以使用Python包安裝pip安裝熊貓。

來源

2016-08-24 22:33:45 Ascurion

來自不同分析的計數應分別在不同數據集中分別從分析1,2和3中分別命名爲YCounts_1，YCounts_2和YCounts_3，然後再加入它們。但是，M/Z名稱（即XThompson）應該是相同的，因爲這是用來加入數據集的關鍵。下面的代碼是用於MATLAB的。

這一步是不需要的（只是重新創建您的表），我複製dataset2創建數據集3的插圖。你可以使用'readtable'來導入你的數據，即imported_data = readtable（'filename'）;

dataset1 = table([0.0; 0.5; 2.0; 3.0], [5; 3; 7; 1], 'VariableNames', {'XThompson', 'YCounts_1'}); 
    dataset2 = table([0.0; 0.5; 1.0; 2.5; 3.0], [2; 6; 9; 1; 4], 'VariableNames', {'XThompson', 'YCounts_2'}); 
    dataset3 = table([0.0; 0.5; 1.0; 2.5; 3.0], [2; 6; 9; 1; 4], 'VariableNames', {'XThompson', 'YCounts_3'});

使用outerjoin合併表。如果你有很多數據集，你可以使用循環。

combined_dataset = outerjoin(dataset1,dataset2, 'MergeKeys', true);

dataset3添加到combined_dataset

combined_dataset = outerjoin(combined_dataset,dataset3, 'MergeKeys', true);

writetable

writetable(combined_dataset, 'joined_icp_ms_data.xlsx');

來源

2016-08-28 23:19:32 OsJoe

如何導入多個CSV文件然後創建主表？

回答

相關問題