2017-06-12 61 views
4

我試圖使用spaCy來訓練一個NER模型來識別位置,(人)姓名和組織。我試圖瞭解spaCy如何識別文字中的實體,但我無法找到答案。從this issue在Github和this example,看來spaCy使用多種存在於所述文本的功能,如POS標籤,前綴,後綴,以及其它字符和基於單詞的特徵來訓練的平均感知器的文本。空間使用命名實體識別(NER)的詞嵌入如何?

但是,在代碼中沒有任何地方顯示spaCy使用GLoVe嵌入(儘管句子/文檔中的每個單詞似乎都具有它們,如果存在於GLoVe語料庫中)。

我的問題是 -

  1. 難道這些在NER系統現在使用?
  2. 如果我要將詞向量轉換爲不同的集合,我應該期望性能以有意義的方式發生變化嗎?
  3. 我的代碼在哪裏可以找到如何(如果全部)spaCy使用單詞矢量?

我已經試過尋找通過Cython代碼,但我無法理解標籤系統是否使用文字嵌入。

+1

你發現了什麼嗎?我很喜歡同樣的信息。 – macarthy

+0

不幸的是,不 - 我無法並最終放棄了搜索。我使用了MITIE - https://github.com/mit-nlp/MITIE/。 –

回答

1

spaCy的確使用word的嵌入其NER模式,這是一個多層CNN。有一個很不錯的視頻,spaCy的創造者Matthew Honnibal提出了關於NER如何工作的視頻here。所有這三種英語模型都使用在Common Crawl上訓練過的GloVe矢量,但較小的模型通過將相似的單詞映射到相同的矢量link來「剪除」矢量的數量。

這是相當可行的添加自定義的載體。概述了spaCy docs中的過程,以及Github上的一些示例代碼。

+0

四年的成員,從未完成旅程;-) – ZF007

相關問題