我有關於提取單詞之間的類別的問題。 我有一個集羣中的幾個詞(「蘋果」,「iMac」,「snowleopard」) ,我想檢索該詞中的類別。如何在wikipedia中獲取單詞之間的類別?
( 「蘋果」, 「iMac電腦」, 「雪豹」) - > 「的Mac OS X」
我一直在使用詞彙數據庫,如WordNet的嘗試,但它不會工作。我一直在尋找其他方法,發現維基百科可能會有所幫助。 任何Java庫的維基百科?以及如何做我上面提到的這樣的任務? 謝謝
我有關於提取單詞之間的類別的問題。 我有一個集羣中的幾個詞(「蘋果」,「iMac」,「snowleopard」) ,我想檢索該詞中的類別。如何在wikipedia中獲取單詞之間的類別?
( 「蘋果」, 「iMac電腦」, 「雪豹」) - > 「的Mac OS X」
我一直在使用詞彙數據庫,如WordNet的嘗試,但它不會工作。我一直在尋找其他方法,發現維基百科可能會有所幫助。 任何Java庫的維基百科?以及如何做我上面提到的這樣的任務? 謝謝
您可以嘗試使用維基百科來從這些術語中提取一些含義。例如,對維基百科的API以下查詢:
產生以下結果:
{
"query": {
"searchinfo": {
"totalhits": 3,
"suggestion": "apple iMac snow leopard\"\""
},
"pages": {
"2020710": {
"pageid": 2020710,
"ns": 0,
"title": "Apple's transition to Intel processors",
"categories": [
{
"ns": 14,
"title": "Category:Apple Inc."
},
{
"ns": 14,
"title": "Category:Intel Corporation"
},
{
"ns": 14,
"title": "Category:Mac OS X"
}
]
},
"14059031": {
"pageid": 14059031,
"ns": 0,
"title": "Mac OS X Snow Leopard",
"categories": [
{
"ns": 14,
"title": "Category:2009 software"
},
{
"ns": 14,
"title": "Category:Mac OS X"
}
]
},
"20640": {
"pageid": 20640,
"ns": 0,
"title": "OS X",
"categories": [
{
"ns": 14,
"title": "Category:1999 software"
},
{
"ns": 14,
"title": "Category:Apple Inc. operating systems"
},
{
"ns": 14,
"title": "Category:Apple Inc. software"
},
{
"ns": 14,
"title": "Category:Mac OS X"
},
{
"ns": 14,
"title": "Category:Mach"
}
]
}
}
},
"query-continue": {
"categories": {
"clcontinue": "14059031|X86-64 operating systems"
}
}
}
可能不容易從這個數據什麼是「正確的」類別來確定,但這是一個開始。
將單詞集合映射到類別的算法是什麼?對此沒有任何明顯的(對我來說)方法,並且您想採取的方法將強烈影響數據結構/庫的選擇。 –
我使用GLSD(谷歌潛在語義距離)算法來分組語言相關的單詞。但我有問題來確定羣集中單詞之間的類別。我嘗試過使用WordNet提取每個單詞hypernymy,但它不起作用,因爲並非羣集中的每個單詞都具有相同的超類型。 – kyo21