2016-08-30 19 views
0

我想在解析syntaxnet上的文本時忽略註釋字符。如何忽略SyntaxNet上的註釋字符?

例如,在下面的情況下,我想忽略<X></X>註釋字符。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>. 

因此,我期待下一個輸出。

_ <PERSON> _  ... 
1 Michael  _  ... 
2 Jordan  _  ... 
_ </PERSON> _  ... 
3 is   _  ... 
... 

是不是SyntaxNet具有這樣的功能?

回答

0

不,SyntaxNet沒有處理xml標籤的特定功能。

import xml.etree.ElementTree as ET 
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a " 
    "professor at <LOC>Berkeley</LOC>.</DOC>") 
notags = ET.tostring(tree, encoding='utf8', method='text') 
print(notags) 

參見Python strip XML tags from document:但是你可以很容易在Python中的東西,如您進行預處理的數據。

+0

謝謝。但我認爲,如果從文本中刪除XML標籤,很難合併SyntaxNet外聯和XML標籤。我想將SyntaxNet輸出和XML註釋信息用於其他機器學習功能。 – mayo