2015-09-10 32 views
0

我想使用German STW Thesaurus for Economics註釋幾個XML文件。您可以使用RDF/XML,N3和Turtle(約14MB)獲取文件here作爲ZIP-Archives。是否有一個能夠理解SKOS的Python庫,特別是altLabel-/pref-Label-Concept?

因此,我寫了一個Python腳本,刪除停用詞,引理詞,並進行詞性標註。現在我想檢查一個XML文件中的名詞是否在STW本體中。如果是的話,我想在以後做自動分類做不同的選擇:

  • 如果是skos:altLabel字,用字skos:prefLabel
  • 替換它什麼都不做與文本,但增加文件末尾的skos:prefLabels,出現次數爲skos:prefLabel和相關的skos:altLabels
  • 使用eg skos:broader找到例如與skos:prefLabel相關的Economic sectorsCommodities

我知道GATEApolda,這是能夠做到這一點,但他們基於Java的,我想在年底從一個Python的腳本做的一切。

有什麼建議嗎?

回答

0

我不知道這是不是你正在尋找,但與RDF工作,你有RDFLib

您可以在指向this answerhere的工具/庫中獲得更多指導。

希望這可以幫助! :)

+1

第一個測試是有希望的。謝謝! – Niklas

相關問題