html-content-extraction

    1熱度

    1回答

    我正在嘗試爲iPhone製作基於UITableView的應用程序。我之前通過從RSS提要中提取數據完成了此操作,但對於此應用程序,我嘗試使用網頁中的數據。數據採用網絡表格格式(http://www.roblox.com/Forum/Default.aspx),並且由於它是論壇而具有不同的層次結構。 我應該如何解析這些數據?有我可以使用的框架嗎? 我想再次使用的數據是本網站的表格(論壇) - htt

    0熱度

    2回答

    我正在繼續研究一段時間以來的項目,並且一直在努力從網站中提取一些數據。該網站有一個從未知來源獲取數據的iframe。這些數據是在一個標籤像這樣的iframe: <DIV id="number_forecast"><LABEL id="lblDay">9,000</LABEL></DIV> 有它上面其他的廢話一堆,但這個div ID /標籤是完全獨特的,在代碼中不使用其他任何地方。

    0熱度

    2回答

    我試圖提取標題和描述了網頁,使用的DOMDocument()的,我成功在這樣 $d=new DOMDocument(); $d->loadHTML($html); $title=$d->getElementsByTagName("title")->item(0)->textContent; 提取的頭銜,我可以通過循環提取說明通過所有meta tags和檢查name="desctiption

    0熱度

    1回答

    我使用xinha作爲所見即所得編輯器的html內容。 我通過post-form發送html文章到postgresql。 到目前爲止好,他們似乎沒問題。 但是,當我接收並輸出從PG到HTML頁面中,我看到重編碼,即破的html代碼 這樣 <p><a href="http://google.com">google.com</a></p>

    -1熱度

    2回答

    在下面的HTML中,我想簡單地分割兩個數字並將結果返回到頁面。 JavaScript實現了這一點,然而,變量A(GAL2_G2rAimTonsPerHr)每10秒鐘從我們的PI服務器(歷史記錄)更新。如何設置變量A等於變化的值?有沒有一種方法可以將它存儲在臨時變量中作爲腳本中的除數? < td align="left" style="font-size: 12px" width="60px"

    5熱度

    5回答

    我有一個HTML頁面(index.html),以及一個名爲images,css,js的文件夾。 現在我必須在WordPress中做到這一點。有什麼插件轉換Html到WordPress或其他任何方式在WordPress中做到這一點?請幫助我..我是WordPress的初學者。

    1熱度

    3回答

    試圖做到以下幾點: 我的網頁有很多div的打開modalboxes(colorbox)。這些鏈接打開的頁面有一個id =「mainColumn」。內容只需要從這個ID加載。 我有這樣的: <div> <a href="includes/page_1.html" class="modal"></a> </div> <div> <a href="includes/page

    2熱度

    1回答

    我想提取有關html的所有內聯樣式。 例如,下面是有關HTML的其中內聯CSS是要提取: <div id="concernedHtmlPortion" style="style1"> <div style="style2"> <div style="style3;style4">Hello World!!</div> <div></div> </div> 有什麼

    3熱度

    3回答

    我需要在運行時在服務器端提取純文本形式的隨機網頁。我使用Google App Engine和Readability python端口。 有一些這些。 version by gfxmonk年初,基於BeautifulSoup version by minvolai基於gfxmonk的,除了使用LXML而不是BeautifulSoap,使得它(根據minvolai,看項目頁)更快,儘管在LXML引進的

    0熱度

    1回答

    有些東西我對使用boilerpipe的ArticleExtractor類不太瞭解。儘管如此,我對Java也很陌生,所以也許我對這個環境的基本知識是錯誤的。無論如何,我試圖使用boilerpipe從我收集的一些原始html源代碼中提取主要文章。 html源文本存儲在一個java.lang.String變量中(我們稱之爲htmlstr),該變量具有網頁的原始HTML內容。 我知道如何運行boilerp