我正在使用的詞彙:如何使用Freebase標記非常大的未標記的NLP數據集?
nounphrase - 引用特定人物,地點或想法的短語。不同的名詞短語的例子包括「巴拉克奧巴馬」,「奧巴馬」,「水瓶」,「黃石國家公園」,「谷歌Chrome瀏覽器」等。
category - 定義哪些名詞性詞組屬於它的語義概念哪些不是。類別的例子包括「政治家」,「家庭用品」,「食物」,「人物」,「運動隊」等。因此,我們會認爲「巴拉克奧巴馬」屬於「政治家」和「人民」不屬於「食物」或「運動隊」。
我有一個非常大的未標記的NLP數據集,包含數百萬個名詞短語。我想用Freebase來標記這些名詞短語。我有Freebase類型的映射到我自己的類別。我需要做的是爲我擁有的每個Freebase類型下載每個示例。
我面對的問題是需要弄清楚如何構建這種類型的查詢。在高層次上,查詢應詢問Freebase「主題XX的所有例子是什麼?」並且Freebase應該回答「這是主題XX的所有示例的列表」。如果有人能給我這個查詢的語法,我將非常感激。如果能在Python來完成,這將是真棒:)
非常感謝湯姆!我最終使用了數據轉儲。然而,Python代碼非常有用,因爲我非常想知道如何從Freebase獲取實例。我也很感謝你對消除歧義的評論。目前,我的研究小組中的一名博士生正在從機器學習的角度來關注這個消歧問題。看看他是否可以使用Freebase來增強是目前的方法將是有趣的。 – Malcolm