我可以使用命名實體識別來識別Intranet頁面內容嗎？

我是新來的自然語言處理，我想通過創建一個簡單的項目來了解更多。 NLTK被建議在NLP中很受歡迎，所以我會在我的項目中使用它。我可以使用命名實體識別來識別Intranet頁面內容嗎？

這是我希望做什麼：

我想瀏覽我們公司的內部網頁;大約3K
頁我想解析和分類這些網頁的基於特定標準，例如內容：人力資源，工程，企業網頁，等等...

從我至今讀，我可以使用命名實體識別來完成此操作。我可以爲每個類別的頁面描述實體，訓練NLTK解決方案並運行每個頁面以確定類別。

這是正確的做法嗎？我明白任何方向和思路...

感謝

2010-10-23 sheldon_cooper

它看起來像你想要做text/document classification，這是不太一樣的命名實體識別，其目的是識別任何命名實體（專有名詞，地點，機構等）的文字。但是，在有限的域中進行文本分類時，專有名稱可能是非常好的功能，例如，可能會將具有名稱頭部工程師的頁面歸類爲工程。

該NLTK書有a chapter on basic text classification。

來源

2010-10-23 11:38:08

如果我想對「工程」頁面進行分類，比如說「結構工程」或「電氣工程」，那麼我將不得不承認一些正則表達式模式，您的例子也是非常好的一，如果沒有正則表達式與特定的學科不匹配，可能是主題文本中的工程師（屬於已知學科）的名稱可以表示特定的學科.NLP會幫助實現這一目標嗎？ – 2010-10-24 02:01:51

你會訓練某種基於向量的模型，通常基於tf/idf加權，這在實踐和理論上都不是很難，通常可以給出非常好的結果，如果這還不夠，就會存在更高級的方法，我不認爲NER是非常有用的，既不是自己創建正則表達式來分類文檔，這很可能是很多工作，特別是如果你想要fi ne粒度類別，並且在處理更困難的文檔時，您必須自行創建某種自信度分數。 – 2010-10-24 11:23:07

我明白你的觀點。我如何在NLTK上做到這一點，我如何開始？你能指點我正確的方向嗎？非常感謝您的幫助。 – 2010-10-24 14:59:55

我可以使用命名實體識別來識別Intranet頁面內容嗎？

回答

相關問題