text-chunking

0熱度

2回答

所以我想從文本中提取一些信息，我正在使用NLTK分塊。這裏是我的輸入 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise和12% fall 詞性標註上面的句子表明 ('The', 'DT'), ('stocks', 'NNS'), ('show', 'VBP'), ('67', 'CD'), ('%', 'NN'),

1熱度

1回答

NLTK：如何訪問分塊字符串

我正在使用NLTK分塊，我想捕獲匹配我的規則的字符串。例如這裏是我的輸入 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise和12% fall 詞性標註上面的句子表明 ('The', 'DT'), ('stocks', 'NNS'), ('show', 'VBP'), ('67', 'CD'), ('%', 'NN'

8熱度

3回答

如何從BIO分塊句子中提取塊？ - 蟒

給的輸入句子，具有BIO chunk tags： [（ '什麼'， 'B-NP'），（ '是'， 'B-VP'），（ '的'，' （''，'B-NP'），（'空速'， 'I-NP'），（''，'B-PP'），（'an'，'B-NP'），（'unladen'，'I -NP '），（' 吞」， 'I-NP'），（ '？'， 'O'）] 我需要提取相關的短語進行，例如如果我想提取'NP'，我需要提取包

0熱度

1回答

itextsharp：在將文字拼接拆分爲單詞時文字被破壞

我想突出顯示一組PDF文件中的幾個關鍵字。首先，我們必須識別單個單詞並將其與我的關鍵字進行匹配。我找到一個例子： class MyLocationTextExtractionStrategy : LocationTextExtractionStrategy { //Hold each coordinate public List<RectAndText> myPoints =

2熱度

1回答

NLTK RegEx Chunker未捕獲通配符定義的語法模式

我想將NLTK的POS標記作爲正則表達式使用一個句子。根據句子中單詞的標籤定義2個規則來識別短語。主要是，我想捕捉一個或多個動詞的大塊，然後是可選的判定器，然後在末尾處捕獲一個或多個名詞。這是定義中的第一條規則。但它沒有被捕獲爲短語塊。 import nltk ## Defining the POS tagger tagger = nltk.data.load(nltk.tag._POS_

1熱度

1回答

如何提取使用NLTK RegexpParser組塊的POS_tagged詞特殊字符在Python

我有例如一些文字說：80% of $300,000 Each Human Resource/IT Department. 我需要與Each Human Resource/IT Department 我已經使用詞性標註的話一起提取$300,000標記後標記單詞。我能夠提取300,000，但無法提取$符號。我到目前爲止有： text = '80% of $300,000 Each Human Res