2017-02-14 123 views
0

我有下面的數據框。我想構建一個規則引擎來提取模式類似於Eg的標記。 「美國」。做這件事的最好方法是什麼?這種任務有沒有像正則表達式或CGUL?任何建議,將不勝感激。從熊貓數據幀提取信息

WORD_INDEX WORD_TOKEN WORD_POS 
0   TRUMP  PROPN 
1   IS   ADP 
2   THE   ADP 
3   PRESIDENT NOUN 
4   OF   ADP 
5   THE   ADP 
6   UNITED  NOUN 
7   STATES  NOUN 

我想從WORD_POS開始,找到WORD_TOKEN。任何想法如何做到這一點?例如,我想查找WORD_POS爲NOUN的WORD_TOKEN,然後下一個WORD_POS也是NOUN。

+0

你能將標記分爲'UNITED'和'STATES',然後檢查第一個標記,然後檢查下面的標記嗎? – titipata

回答

0

您可能想要使用contains字符串方法,該方法默認採用正則表達式參數。例如,

mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)') 
print(df[mask]) 

這將匹配任何包含「統一」或「國家」。

+0

我想這樣做,我想從WORD_POS開始,找到WORD_TOKEN。任何想法如何做到這一點?例如,我想查找WORD_POS爲NOUN的WORD_TOKEN,然後下一個WORD_POS也是NOUN。 –