鳴叫提取@mentions我有一個CSV文件是這樣的使用的findall蟒蛇(給出不正確的結果)
text
RT @CritCareMed: New Article: Male-Predominant Plasma Transfusion Strategy for Preventing Transfusion-Related Acute Lung Injury... htp://…
#CRISPR Inversion of CTCF Sites Alters Genome Topology & Enhancer/Promoter Function in @CellCellPress htp://.co/HrjDwbm7NN
RT @gvwilson: Where's the theory for software engineering? Behind a paywall, that's where. htp://.co/1t3TymiF3M #semat #fail
RT @sciencemagazine: What’s killing off the sea stars? htp://.co/J19FnigwM9 #ecology
RT @MHendr1cks: Eve Marder describes a horror that is familiar to worm connectome gazers. htp://.co/AEqc7NOWoR via @nucAmbiguous htp://…
我想提取所有提及(以「@」)從鳴叫文本。到目前爲止,我已經做到了這一點
import pandas as pd
import re
mydata = pd.read_csv("C:/Users/file.csv")
X = mydata.ix[:,:]
X=X.iloc[:,:1] #I have multiple columns so I'm selecting the first column only that is 'text'
for i in range(X.shape[0]):
result = re.findall("(^|[^@\w])@(\w{1,25})", str(X.iloc[:i,:]))
print(result);
有兩個問題在這裏: 第一:在str(X.iloc[:1,:])
它給了我['CritCareMed']
這也不行,因爲它應該給我['CellCellPress']
,在str(X.iloc[:2,:])
再次給了我['CritCareMed']
這是當然不會再罰款。最後的結果,我得到的是
[( ' ' 'CritCareMed'),('', 'gvwilson'),(」」, 'sciencemagazine')]
一點也沒有不包括第二排的提及和最後一排的兩個提及。 我想應該是這個樣子:
我怎樣才能取得這些成果?這只是一個示例數據,我的原始數據有很多推文,所以方法好嗎?
如何從df中選擇第一列?如果iloc給出數據幀。在我的文件中有多個列,並且必須僅處理第一列,即'text' – melissa
要選擇第一列,您可以使用列名,即'df.text','df ['text'] '或使用'iloc','df.iloc [:,0]'。 – Psidom