2011-06-20 23 views
0

我有關於提取單詞之間的類別的問題。 我有一個集羣中的幾個詞(「蘋果」,「iMac」,「snowleopard」) ,我想檢索該詞中的類別。如何在wikipedia中獲取單詞之間的類別?

( 「蘋果」, 「iMac電腦」, 「雪豹」) - > 「的Mac OS X」

我一直在使用詞彙數據庫,如WordNet的嘗試,但它不會工作。我一直在尋找其他方法,發現維基百科可能會有所幫助。 任何Java庫的維基百科?以及如何做我上面提到的這樣的任務? 謝謝

+0

將單詞集合映射到類別的算法是什麼?對此沒有任何明顯的(對我來說)方法,並且您想採取的方法將強烈影響數據結構/庫的選擇。 –

+0

我使用GLSD(谷歌潛在語義距離)算法來分組語言相關的單詞。但我有問題來確定羣集中單詞之間的類別。我嘗試過使用WordNet提取每個單詞hypernymy,但它不起作用,因爲並非羣集中的每個單詞都具有相同的超類型。 – kyo21

回答

0

您可以嘗試使用維基百科來從這些術語中提取一些含義。例如,對維基百科的API以下查詢:

http://en.wikipedia.org/w/api.php?action=query&prop=categories&format=json&clshow=!hidden&cllimit=10&generator=search&gsrsearch=apple%20iMac%20snowleopard%22&gsrnamespace=0&gsrprop=titlesnippet&gsrredirects=&gsrlimit=10

產生以下結果:

{ 
     "query": { 
      "searchinfo": { 
       "totalhits": 3, 
       "suggestion": "apple iMac snow leopard\"\"" 
      }, 
      "pages": { 
       "2020710": { 
        "pageid": 2020710, 
        "ns": 0, 
        "title": "Apple's transition to Intel processors", 
        "categories": [ 
         { 
          "ns": 14, 
          "title": "Category:Apple Inc." 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Intel Corporation" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mac OS X" 
         } 
        ] 
       }, 
       "14059031": { 
        "pageid": 14059031, 
        "ns": 0, 
        "title": "Mac OS X Snow Leopard", 
        "categories": [ 
         { 
          "ns": 14, 
          "title": "Category:2009 software" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mac OS X" 
         } 
        ] 
       }, 
       "20640": { 
        "pageid": 20640, 
        "ns": 0, 
        "title": "OS X", 
        "categories": [ 
         { 
          "ns": 14, 
          "title": "Category:1999 software" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Apple Inc. operating systems" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Apple Inc. software" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mac OS X" 
         }, 
         { 
          "ns": 14, 
          "title": "Category:Mach" 
         } 
        ] 
       } 
      } 
     }, 
     "query-continue": { 
      "categories": { 
       "clcontinue": "14059031|X86-64 operating systems" 
      } 
     } 
    } 

可能不容易從這個數據什麼是「正確的」類別來確定,但這是一個開始。

相關問題