2015-02-24 47 views
0

我正在爲集合構建文檔相似度圖。我已經做了所有基本的事情,如使用Jaccard係數來表示文檔和計算相似性的標記化,詞幹化,停止詞移除和bag-of-word表示。我現在試圖提取命名實體並評估它們是否有助於提高文檔相似度圖的質量。我花了很多時間爲我的分析找到地面真實數據集。我對消息理解會議(MUC)數據集感到非常失望。他們是神祕的理解和需要足夠的數據清洗/按摩纔可以在不同的平臺(比如Scala)地面真相數據集,用於評估命名實體識別的開源NLP工具

我的問題是在這裏更具體

  1. 是如何開始使用MUC數據集有教程使用這樣可以更容易地使用開源NLP工具(如openNLP
  2. )分析結果,還有其他可用的數據集?
  3. 像OpenNLP和斯坦福大學核心NLP這樣的工具使用基本上是受監督的方法。正確?
  4. GATE是手工標註自己的文本語料庫的好工具正確嗎?
  5. 對於一個新的測試數據集(我手工創建)如何計算基線(Vocabulary Transfer)或我可以計算哪種度量?

回答

0

首先,我對使用Jaccard係數計算相似度有一些擔憂。我希望TF.IDF和餘弦相似性能給出更好的結果。

一些問題的答案:

  • CoNLL 203 evaluation campaign:它也提供數據,評估工具等,還マ看看ACE
  • 門也是一個管道自動註釋文本,但據我所知,NER是一個基於規則的組件。
  • 基線大部分時間都是非常簡單的算法(例如多數類),因此它不是比較語料庫的基線,而是比較方法。
  • +0

    感謝eldams的迴應。我也嘗試過TF-IDF和Cosine。 Jaccard比Cosine更強大。關於第5點)在NER方面,大多數班級意味着什麼? – 2015-03-03 21:54:12

    +0

    多數類是當您爲任何標記賦予與訓練數據集中的標記關聯最頻繁的類時。它提供了一個簡單但相當準確的基準,用於較少模糊的令牌。整體性能取決於測試數據集中模糊度和oov(詞彙表外)令牌的數量。 – eldams 2015-03-05 08:41:16