我有許多句子的文本語料庫,其中標記了一些命名實體。 例如,這句話:使用類放大文本語料庫
威奇托德州最好的餐廳是什麼?
其中被標記爲:
是什麼<location>
最好的餐館?
我想擴展這個語料庫,通過取樣或抽樣已經存在的所有句子,並用相同類型的其他類似實體(例如,將「wichita texas」替換爲「new york」,所以語料庫將會變得更大(更多句子)並且更完整(其中的實體的數量)。我列出了類似的實體,包括沒有出現在語料庫中的實體,但我希望有一些可能性將它們插入我的替代品中。
你能推薦一種方法,或者直接給我一篇關於這方面的論文嗎?