2017-02-13 136 views
0

我有一個包含html標籤的csv文件。我試圖迭代通過DataFrame刪除使用以下函數的HTML標記,並得到'TypeError:預期的字符串或緩衝區'。任何關於這個錯誤的幫助將不勝感激。從Python DataFrame中刪除HTML標籤

import re 

def clean_html(raw_html): 
    for index, row in raw_html.iterrows(): 
     cleanr = re.compile('<.*?>') 
     cleantext = re.sub(cleanr, '', raw_html) 
     return cleantext 

回答

0

您正在將raw_html變量傳遞給re.sub函數。嘗試傳入行數據。

cleantext = re.sub(clean, '', row['a1'])