2016-12-16 73 views
0

我有一堆線,他們可以分爲兩種類型。如何將單詞序列中的句子和非句子類型分類?

字序列類型:

  1. 它是一種有效的英語句子:

    經驗: - 作爲一個堅定的軟件工程師有超過5年的微軟技術和商業智能 經驗工具。

  2. 不是一個有效的英語句子(隻字序):
    例子:

    • 客戶:PMP汽車零部件

    • HTML,CSS樣式表,Java腳本,JSP

    • 組織:薩蒂揚計算機服務有限公司,| ? |名稱:軟件工程師| ? |時間:03/2006 03 /2010 | ? |
    • SLC - STC優異認證 - 2006年薩蒂揚計算機服務有限公司

我使用機器學習task.i可以通過NLTK使用POS標籤作爲特徵進行分類蟒。在這個問題中可以應用哪種算法?

更新:
應該使用哪些特徵來預測它的一個句子是否不是?

回答

1

您可以使用treetaggerwrapper: Reathedocs of TreetaggerWrapper

從文檔應該是易於使用:

import pprint # For proper print of sequences. 
import treetaggerwrapper 
#1) build a TreeTagger wrapper: 
tagger = treetaggerwrapper.TreeTagger(TAGLANG='en') 
#2) tag your text. 
tags = tagger.tag_text("This is a very short text to tag.") 
pprint.pprint(treetaggerwrapper.make_tags(tags)) 

檢查,如果森泰斯持有名詞(標籤NN),動詞(標籤VBZ )和適當的句子標點符號(標記SENT