2015-11-03 26 views
0

我還是很新的python所以請放縱我。蟒蛇 - 適合兩個時間系列文件

我有兩個數據幀,其中一個包含以2秒爲間隔記錄的溫度數據(由於測量困難,文件有時平穩,有時不均勻秒),另一個記錄爲2.5分鐘間隔。 我的第一個問題是:2秒間隔文件僅包含文件名中的時間步長,而不包含文件內容中的時間步長。意思是:第一個文件被稱爲「temp_20151103_013042」,包含日期和時間。文件內部只有一個溫度值,沒有其他值。我有20,000個文件(所以我有2萬個溫度值,記錄在15個小時左右)。 第二個是隻有一個文件(它是常見的)看起來像這樣:

YYYY MM DD HH MM SS station1 
2015 11 03 01 30 30 3.46 
2015 11 03 01 32 00 4.21 
... 

,它包含具有約1,000溫度值約1000行。

我現在想要對這些文件進行時間序列分析,如相關性等。任何人都可以幫我解決第一個文件的問題嗎?我甚至不知道如何開始:(我需要「踢出」我不需要的文件,並獲得這兩個文件2.5分鐘的間隔。任何幫助將非常感謝!提前致謝!

+0

我假設你爲此使用了'pandas',但是這個問題有點寬泛,你需要列出所有的文件,從文件名解析時間戳並連接所有的dfs和resample – EdChum

+0

謝謝你的回答!可能它太多了,但你能幫我展示一下你的代碼嗎?我該如何解析文件名中的時間戳?你的方法聽起來不錯,但我不知道如何做到這一點:( – beginner123

回答

0

看看熊貓(http://pandas.pydata.org/)這是它的一個問題吧

如果你不確定如何安裝它,你可以考慮miniconda。這是一個二進制發行版,可以讓你免除負擔編譯一些依賴關係