我想用大熊貓閱讀分隔文件。分隔符是希臘字符,小寫rho(þ)。閱讀rho分隔文件
我正在努力定義正確的read_table參數,以便生成的數據幀格式正確。
有沒有人有任何經驗或建議呢?
的文件的一個例子是下面
TimeþUser-IDþAdvertiser-IDþOrder-IDþAd-IDþCreative-IDþCreative-VersionþCreative尺寸-IDþSite-IDþPage-IDþCountry-IDþState/ProvinceþBrowser-IDþBrowser-VersionþOS-IDþDMA-IDþCity-IDþZip -CodeþSite-DataþTime-UTC-SEC 03-28-2016-00:50:03þ0þ3893600þ7786669þ298662779þ67802437þ1þ300x250þ1722397þ125754620þ68þþ30þ0.0þ501012þ0þ3711þþþ1459122603 03-28-2016-00:24:29þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ3711þþþ1459121069 03-28-2016-00:13:42þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ37 11þþþ1459120422 03-28-2016-00:21:09þ0þ3893600þ7352234þ290743769þ55727503þ1þ1x1þ1602646þ117915815þ68þþ31þ0.0þ501012þ0þ3711þþþ1459120869
所以你說'read_table(file,sep =r'ρ')'不起作用?或者使用額外的參數'encoding ='utf-8'或'encoding ='utf-16''? – EdChum
是的,沒錯。 –
我在一臺Windows機器上,這可能沒有幫助,但我想先檢查一下我的語法是否正確。已經嘗試了以下。數據= pd.read_table('C:\ Users \ robin.sheridan \ Documents \ RCode \ NetworkImpression_5684_03-28-2016',sep =r'ρ',nrows = 10,encoding ='pd ' utf-16') print(data)' –