如何忽略SyntaxNet上的註釋字符？

我想在解析syntaxnet上的文本時忽略註釋字符。如何忽略SyntaxNet上的註釋字符？

例如，在下面的情況下，我想忽略<X>和</X>註釋字符。

<PERSON>Michael Jordan</PERSON> is a professor at <LOC>Berkeley</LOC>.

因此，我期待下一個輸出。

_ <PERSON> _  ... 
1 Michael  _  ... 
2 Jordan  _  ... 
_ </PERSON> _  ... 
3 is   _  ... 
...

是不是SyntaxNet具有這樣的功能？

來源

2016-08-30 mayo

不，SyntaxNet沒有處理xml標籤的特定功能。

import xml.etree.ElementTree as ET 
tree = ET.fromstring(
    "<DOC><PERSON>Michael Jordan</PERSON> is a " 
    "professor at <LOC>Berkeley</LOC>.</DOC>") 
notags = ET.tostring(tree, encoding='utf8', method='text') 
print(notags)

參見Python strip XML tags from document：但是你可以很容易在Python中的東西，如您進行預處理的數據。

來源

2016-08-31 20:12:56 calberti

謝謝。但我認爲，如果從文本中刪除XML標籤，很難合併SyntaxNet外聯和XML標籤。我想將SyntaxNet輸出和XML註釋信息用於其他機器學習功能。 – mayo

如何忽略SyntaxNet上的註釋字符？

回答

相關問題