2010-10-23 100 views
1

我是新來的自然語言處理,我想通過創建一個簡單的項目來了解更多。 NLTK被建議在NLP中很受歡迎,所以我會在我的項目中使用它。我可以使用命名實體識別來識別Intranet頁面內容嗎?

這是我希望做什麼:

  • 我想瀏覽我們公司的內部網頁;大約3K
  • 頁我想解析和分類這些網頁的基於特定標準,例如內容:人力資源,工程,企業網頁,等等...

從我至今讀,我可以使用命名實體識別來完成此操作。我可以爲每個類別的頁面描述實體,訓練NLTK解決方案並運行每個頁面以確定類別。

這是正確的做法嗎?我明白任何方向和思路...

感謝

回答

1

它看起來像你想要做text/document classification,這是不太一樣的命名實體識別,其目的是識別任何命名實體(專有名詞,地點,機構等)的文字。但是,在有限的域中進行文本分類時,專有名稱可能是非常好的功能,例如,可能會將具有名稱頭部工程師的頁面歸類爲工程。

該NLTK書有a chapter on basic text classification

+0

如果我想對「工程」頁面進行分類,比如說「結構工程」或「電氣工程」,那麼我將不得不承認一些正則表達式模式,您的例子也是非常好的一,如果沒有正則表達式與特定的學科不匹配,可能是主題文本中的工程師(屬於已知學科)的名稱可以表示特定的學科.NLP會幫助實現這一目標嗎? – 2010-10-24 02:01:51

+1

你會訓練某種基於向量的模型,通常基於tf/idf加權,這在實踐和理論上都不是很難,通常可以給出非常好的結果,如果這還不夠,就會存在更高級的方法,我不認爲NER是非常有用的,既不是自己創建正則表達式來分類文檔,這很可能是很多工作,特別是如果你想要fi ne粒度類別,並且在處理更困難的文檔時,您必須自行創建某種自信度分數。 – 2010-10-24 11:23:07

+0

我明白你的觀點。我如何在NLTK上做到這一點,我如何開始?你能指點我正確的方向嗎?非常感謝您的幫助。 – 2010-10-24 14:59:55