0
我想使用German STW Thesaurus for Economics註釋幾個XML文件。您可以使用RDF/XML,N3和Turtle(約14MB)獲取文件here作爲ZIP-Archives。是否有一個能夠理解SKOS的Python庫,特別是altLabel-/pref-Label-Concept?
因此,我寫了一個Python腳本,刪除停用詞,引理詞,並進行詞性標註。現在我想檢查一個XML文件中的名詞是否在STW本體中。如果是的話,我想在以後做自動分類做不同的選擇:
- 如果是
skos:altLabel
字,用字skos:prefLabel
- 替換它什麼都不做與文本,但增加文件末尾的
skos:prefLabels
,出現次數爲skos:prefLabel
和相關的skos:altLabels
- 使用eg
skos:broader
找到例如與skos:prefLabel
相關的Economic sectors或Commodities。
我知道GATE和Apolda,這是能夠做到這一點,但他們基於Java的,我想在年底從一個Python的腳本做的一切。
有什麼建議嗎?
第一個測試是有希望的。謝謝! – Niklas