1
我是新來的自然語言處理,我想通過創建一個簡單的項目來了解更多。 NLTK被建議在NLP中很受歡迎,所以我會在我的項目中使用它。我可以使用命名實體識別來識別Intranet頁面內容嗎?
這是我希望做什麼:
- 我想瀏覽我們公司的內部網頁;大約3K
- 頁我想解析和分類這些網頁的基於特定標準,例如內容:人力資源,工程,企業網頁,等等...
從我至今讀,我可以使用命名實體識別來完成此操作。我可以爲每個類別的頁面描述實體,訓練NLTK解決方案並運行每個頁面以確定類別。
這是正確的做法嗎?我明白任何方向和思路...
感謝
如果我想對「工程」頁面進行分類,比如說「結構工程」或「電氣工程」,那麼我將不得不承認一些正則表達式模式,您的例子也是非常好的一,如果沒有正則表達式與特定的學科不匹配,可能是主題文本中的工程師(屬於已知學科)的名稱可以表示特定的學科.NLP會幫助實現這一目標嗎? – 2010-10-24 02:01:51
你會訓練某種基於向量的模型,通常基於tf/idf加權,這在實踐和理論上都不是很難,通常可以給出非常好的結果,如果這還不夠,就會存在更高級的方法,我不認爲NER是非常有用的,既不是自己創建正則表達式來分類文檔,這很可能是很多工作,特別是如果你想要fi ne粒度類別,並且在處理更困難的文檔時,您必須自行創建某種自信度分數。 – 2010-10-24 11:23:07
我明白你的觀點。我如何在NLTK上做到這一點,我如何開始?你能指點我正確的方向嗎?非常感謝您的幫助。 – 2010-10-24 14:59:55