2016-12-31 73 views
1

在這個網址: http://www.ontobee.org/ontology/HP?iri=http://purl.obolibrary.org/obo/HP_0001065PHP - 轉換XML/RDF成HTML

當我檢查與鍍鉻元素,我可以看到HTML:

<div xmlns="http://www.w3.org/1999/xhtml" id="mainbody"> 
     <link href="http://www.ontobee.org/public/css/ontology.css" rel="stylesheet" type="text/css" /> 
     <script src="http://www.ontobee.org/public/js/ontobee.ontology.js"></script> 
     <h3 class="title"> 
     <a href="http://www.ontobee.org/ontology/HP"> human phenotype ontology</a> 
     </h3> 
     <form action="http://www.ontobee.org/search" method="get" id="keyword-search"> 
     <input name="ontology" id="ontology" type="hidden" value="HP" /> 
     <div class="ui-widget"> 
      <strong> 
      <label for="keywords">Keywords: </label> 
      </strong> 
      <input id="keywords" name="keywords" size="30" /> 
      <input type="submit" name="submit" value="Search terms" /> 
     </div> 
     </form> 
     <p class="section-title"> 
    Class: <span class="section-title-value">Striae distensae</span></p> 
     <div class="iri">... 

我看到了HTML,但是當我查看源,我得到XML:

<!-- 
    /////////////////////////////////////////////////////////////////////////////////////// 
    // 
    // Annotation properties 
    // 
    /////////////////////////////////////////////////////////////////////////////////////// 
    --> 

    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasRelatedSynonym"/> 
    <AnnotationProperty rdf:about="http://purl.obolibrary.org/obo/IAO_0000115"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasDbXref"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#inSubset"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasAlternativeId"/> 
    <AnnotationProperty rdf:about="http://www.geneontology.org/formats/oboInOwl#hasOBONamespace"/> 

我需要一種方法來RDF/XML轉換成HTML公關ogramatically。有沒有簡單的方法來做到這一點?我需要找到他們的XML轉換文件嗎?

注:我需要這樣做的原因是因爲我需要下載一批這些文檔。我需要抓取數據。他們有一個SPARQ API,但我已經寫了一個刮板,認爲我所看到的是一個HTML文檔,我很少只是從頭到尾寫一些東西,而不去測試它,但這次我做了一些原因。由於瀏覽器能夠輸出HTML,因此必須通過瀏覽器插件來完成。

+0

讓我直截了當地說明:您正在以機器可處理的結構化格式(RDF/XML)獲取數據,但您希望將其轉換爲人類可讀的格式(HTML),以便您可以繼續。 ..把它變成結構化/機器可處理的東西? 我明白,在你意識到自己的錯誤之前,你已經開始了這個工作,但即使如此,它也可能會更有效率(當然更好的是從長遠來看)放棄你的scraper並編寫一個簡單的RDF處理客戶端。 –

+0

是的,我有點超前了,在測試之前寫下了整個劇本,每一個細節。通常我會一邊測試一邊。你是對的,我應該放棄劇本。解析XML應該相對容易。 –

+1

這會起作用,但使用像EasyRDF這樣的實際RDF庫可能會更容易。因人而異。 –

回答

1

頁面上的RDF用於正在顯示的類。所以,不,你無法設計RDF頁面的HTML。

如果您正在尋找頁面本身的HTML,那麼從瀏覽器的檢查工具中獲取HTML會更容易。

+0

問題是我需要獲得大量的這些頁面。也許這是一個Chrome或Firefox插件,可以讓我下載批量的HTML頁面列表。 –