2014-04-08 66 views
0

我有許多句子的文本語料庫,其中標記了一些命名實體。 例如,這句話:使用類放大文本語料庫

威奇托德州最好的餐廳是什麼?

其中被標記爲:

是什麼<location>最好的餐館?

我想擴展這個語料庫,通過取樣或抽樣已經存在的所有句子,並用相同類型的其他類似實體(例如,將「wichita texas」替換爲「new york」,所以語料庫將會變得更大(更多句子)並且更完整(其中的實體的數量)。我列出了類似的實體,包括沒有出現在語料庫中的實體,但我希望有一些可能性將它們插入我的替代品中。

你能推薦一種方法,或者直接給我一篇關於這方面的論文嗎?

回答

1

爲您的具體問題: 這種類型的工作,假設你有一個名爲實體的組織名單(像「地」,「人」,等的單獨列表),一般分爲手動刪除潛在的曖昧名稱(例如,「球衣」可能會從您的名單中刪除,以避免它指的是服裝)。一旦您確信刪除了最不明確的名稱,只需爲每組術語(例如「位置」或「人物」)選擇適當的標籤即可。在包含這些單詞之一的每個句子中,用該標籤替換該單詞。然後,您可以使用您選擇的編程語言進行一些基本擴展,以便每個地點名稱都重複包含「位置」的每個句子,每個包含「人物」的句子會隨每個人名稱重複,等等。

對於關於使用詞類進行聚類的總體概述,請查看開創性的Brown et al。人。紙:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.13.9919&rep=rep1&type=pdf

相關問題