日期計算（類型錯誤：不支持的操作數類型（一個或多個），用於： - 「STR」和「STR」）

我已經設置如下數據：日期計算（類型錯誤：不支持的操作數類型（一個或多個），用於： - 「STR」和「STR」）

 date_time  srch_co  srch_ci 
0 2014-11-03 16:02:28 2014-12-19 2014-12-15 
1 2013-03-13 19:25:01 2013-03-14 2013-03-13 
2 2014-10-13 13:20:25 2015-04-10 2015-04-03 
3 2013-11-05 10:40:34 2013-11-08 2013-11-07 
4 2014-06-10 13:34:56 2014-08-08 2014-08-03 
5 2014-12-16 14:34:39 2014-12-17 2014-12-16

這是數據集的信息：

 <class 'pandas.core.frame.DataFrame'> 
RangeIndex: 100000 entries, 0 to 99999 
Data columns (total 3 columns): 
date_time 100000 non-null datetime64[ns] 
srch_co  99878 non-null object 
srch_ci  99878 non-null object 
dtypes: datetime64[ns](1), object(2) 
memory usage: 2.3+ MB

我想什麼做的是使用下面的函數創建兩個新欄目：

def duration(row): 
    delta = (row['srch_co'] - row['srch_ci'])/np.timedelta64(1, 'D') 
    if delta <= 0: 
     return np.nan 
    else: 
     return delta 

sample['duration'] = sample.apply(duration, axis=1) 


def days_in_advance(row): 
    delta = (row['srch_ci'] - row['date_time'])/np.timedelta64(1, 'D') 
    if delta < 0: 
     return np.nan 
    else: 
     return delta 

sample['days_in_advance'] = sample.apply(days_in_advance, axis=1)

然而，這似乎是日期計算我想不斷運行出現錯誤。我搜索並找到了幾個解決方案並嘗試了一下，但是它們會造成錯誤或將日期變爲不準確的值。

我試圖使用方法，如：

#1) 
def to_integer(dt_time): 
    return 10000*dt_time.year + 100*dt_time.month + dt_time.day 

#2) 
datetime.strptime(str(row[2]), '%Y%m%d%H%M%S') 

#3)  
pd.to_numeric(sample['date_time'], errors='coerce') 

#4) 
sample['srch_ci_int'] = sample['srch_ci'].astype(str).astype(int)

我只是想創建新列，將計算每列的區別：

sample["duration"] = sample["srch_co"] - sample["srch_ci"] 
sample["days_in_advance"] = sample["srch_co"] - sample["date_time"]

任何提示讚賞。

來源

2017-08-07 tmhs

從我們在這裏的信息，我會假設簡單地轉換th e列'srch_ *'到'datetime'對象可以提供幫助。 –

對，我不知道爲什麼我沒有想過這件事。謝謝！ '樣品[ 'srch_co'] = pd.to_datetime（樣品[ 'srch_co']）樣品[ 'srch_ci'] = pd.to_datetime（樣品[ 'srch_ci']）' 這個工作。 – tmhs

把所有的底片成南你需要轉換srch_co和srch_cito_datetime第一列，然後使用mask少替換值0到NaN （默認值mask函數）：

sample["srch_co"] = pd.to_datetime(sample["srch_co"]) 
sample["srch_ci"] = pd.to_datetime(sample["srch_ci"]) 

sample["duration"] = (sample["srch_co"] - sample["srch_ci"])/np.timedelta64(1, 'D') 
sample["days_in_advance"] = (sample["srch_co"] - sample["date_time"])/np.timedelta64(1, 'D') 

cols = ['duration','days_in_advance'] 
sample[cols] = sample[cols].mask(sample[cols] < 0) 
#first value of srch_ci column was changed for NaN output 
print (sample) 
      date_time srch_co srch_ci duration days_in_advance 
0 2014-11-03 16:02:28 2014-12-19 2015-12-15  NaN  45.331620 
1 2013-03-13 19:25:01 2013-03-14 2013-03-13  1.0   0.190961 
2 2014-10-13 13:20:25 2015-04-10 2015-04-03  7.0  178.444155 
3 2013-11-05 10:40:34 2013-11-08 2013-11-07  1.0   2.555162 
4 2014-06-10 13:34:56 2014-08-08 2014-08-03  5.0  58.434074 
5 2014-12-16 14:34:39 2014-12-17 2014-12-16  1.0   0.392604

來源

2017-08-07 08:00:46 jezrael

好像你正在從字符串中減去一個字符串。確保將列轉換爲使用pd.to_datetime鍵入'date'，然後您將能夠從另一天減去一天。

另一個建議是避免使用循環並使用矢量化操作，例如pd.DataFrame.subtract（series，axis = 0），因爲這是使用熊貓在任何簡單列表上最大的優點之一。

你計算後的差值，那麼你可以說

dataframe[dataframe['duration'] < 0] = np.nan

來源

2017-08-07 07:59:10 Landmaster

日期計算（類型錯誤：不支持的操作數類型（一個或多個），用於： - 「STR」和「STR」）

回答

相關問題