我有定期將數據框拉進日期的日期。 數據通常是格式良好的,但有時在其他日期列中存在錯誤的數據。使用平均值填寫數據框中的缺失日期
我總是期望在解析9位形式的日期:
(tm_year=2000, tm_mon=11, tm_mday=30, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=335, tm_isdst=-1)
(2015, 12, 29, 0, 30, 50, 1, 363, 0)
我應該如何檢查並解決這一問題?
我想要做的就是用基於表示last_update + 1/2更新間隔的變量的日期替換,這樣項目不會被後面的函數過濾掉。
所示數據是從feedparser發佈的。
import pandas as pd
import datetime
# date with ugly data
df_date_ugly = pd.DataFrame({'date': [
(2015, 12, 29, 0, 30, 50, 1, 363, 0),
(2015, 12, 28, 23, 59, 12, 0, 362, 0),
'None', '',
(2015, 12, 28, 23, 59, 12, 0, 362, 0)
]})
# date is fine
df_date = pd.DataFrame({'date': [
(2015, 12, 29, 0, 30, 50, 1, 363, 0),
(2015, 12, 28, 23, 59, 12, 0, 362, 0),
(2015, 12, 28, 23, 59, 12, 0, 362, 0)
]})
Pseudocode
if the original_date is valid
return original_date
else
return substitute_date
你可以編輯你的問題,以顯示日期應該是怎麼樣的?具體而言,在(2015,12,29,0,30,50,1,363,0)中,您爲什麼要閱讀(0,30,50,1,363,0) – imp9
所示的數據是來自以下的published_parsed條目屬性: feedparser,它來作爲9整數。 – 12programmerwannabe
1,363,0代表什麼?你越解釋越容易,每個人都可以幫助你,即使那些可能不熟悉feedparser但熟悉熊貓的人。另外,請在last_update + 1/2值中包含您所需的輸出。 – imp9