html-content-extraction

    12熱度

    6回答

    我正在尋找一個封裝/模塊/功能等,也就是大約相當於Python的Arc90的readability.js的 http://lab.arc90.com/experiments/readability http://lab.arc90.com/experiments/readability/js/readability.js ,這樣我可以給它一些input.html並且結果被清除了該html頁面的「正

    0熱度

    2回答

    我需要處理相當多[相當]任意的html數據。幸運的是,這些數據可以分解成大約十二種不同的模板。我目前的計劃是爲每個模板構建一個過濾器,以使我能夠提取所需的數據,而不需要相關的內容。問題是我不確定這個工作的理想工具是什麼。 我希望有人可以推薦一個好的庫來處理/從任意html數據中提取元素。在這種情況下,良好的解析器是理想的自由/開放源碼軟件。在過去,我已經做了一切,從編寫我自己的解析器,使用正則表達

    0熱度

    5回答

    用戶將點擊一個鏈接打開一個新頁面(代碼如下)。我的問題是,當這個新頁面打開時,它會創建一個新的會話ID。我如何阻止這種情況發生? require_once('../../config.php'); //Database connection details require_once('../../connect.php'); //Connect to database session_sta

    4熱度

    3回答

    我有一些HTML,我需要從頁面中提取實際的書面文字。 到目前爲止,我已經嘗試使用Web瀏覽器和呈現頁面,然後去文檔屬性和抓取文本。這可以工作,但只適用於支持瀏覽器的地方(IE com對象)。問題是我希望這也能夠在wine下運行,所以我需要一個不使用IE COM的解決方案。 必須有一個程序化的方式來做到這一點是合理的。

    1熱度

    2回答

    如何更新一些經常刷新的網站內容(可能是一分鐘內的兩次)?

    0熱度

    2回答

    是否有任何可靠的方法來找出指向我們詳細新聞頁面的鏈接集合。換句話說,在訪問網站的第一頁之後,我只想要那些指向新聞項目的鏈接。任何解決方案

    2熱度

    2回答

    我目前正致力於從HTML提取數據。我想提取兩個<p class="xfHeading">標籤之間的文字。 <p class="xfHeading"><b>XYZ:</b></p> <p>asdfghjk</p> <p>sdsdsd</p> <p>asdvcvcfghjk</p> <p class="xfHeading"><b>ABC:</

    1熱度

    1回答

    如何使用DOM解析器來提取變量中html元素的內容。 更確切地說: 我有一個用戶在文本區域輸入html的表單。我想提取第一段的內容。 我知道有這個很多教程,但找不到任何從變量,而不是一個文件(網頁) 感謝

    0熱度

    2回答

    我想知道Facebook如何從鏈接中提取文章的正確圖片?他們忽略任何圖標,廣告圖片或其他不相關的圖片,&他們給你正確的形象? 他們使用什麼技術/方法?因爲我試圖使用php正則表達式提取所有圖像,但是如何找到正確的圖像? 感謝

    1熱度

    6回答

    我想要做以下事情:從幾個網站抓取新聞,使用jQuery選擇器解析他們的內容,並在一個頁面上顯示它們。 這怎麼可以用jQuery來完成? 謝謝。