0
我想使用spaCy解析文檔並應用令牌過濾器,以便最終的spaCy文檔不包含過濾的令牌。我知道我可以過濾令牌的序列,但我有興趣擁有實際的Doc
結構。如何從spaCy文檔過濾令牌
text = u"This document is only an example. " \
"I would like to create a custom pipeline that will remove specific tokesn from the final document."
doc = nlp(text)
def keep_token(tok):
# This is only an example rule
return tok.pos_ not not in {'PUNCT', 'NUM', 'SYM'}
final_tokens = list(filter(keep_token, doc))
# How to get a spacy.Doc from final_tokens?
我試圖重建從令牌列出了新spaCy Doc
但是API並不清楚如何做到這一點。
我知道第二個解決方案,它基本上是我們目前正在做的解決方法。但它有兩個問題:1. PoS標籤可能會隨着您的指向而改變2.您需要重新解析文檔以使性能下降。 –
你能解釋一下你在收到文件後想做什麼嗎?你爲什麼要刪除令牌? – polm23