html-content-extraction

    1熱度

    1回答

    我試圖從各種網頁上的文章中獲取文本,並將它們寫爲乾淨的文本文檔。我不想要所有可見的文本,因爲它通常包含網頁邊的無關鏈接。我正在使用Beautifulsoup從網頁中提取信息。但是,不僅僅是在頁面的邊緣,而且有時在正文文本和文章底部的附加鏈接有時會將它們變成最終產品。 有誰知道如何處理額外鏈接的問題,這些鏈接被轉換成實際上並不屬於真實文章文本一部分的文本?我已經習慣了測試,在我想要的確切方式得到清潔

    1熱度

    5回答

    在android的Firefox應用程序和safari iPad中,我們只能通過「Reader Mode」讀取主要內容。 read more... 如何僅使用PHP識別HTML中的主要內容? 我需要的PHP 例如檢測像Firefox或主要新聞遊獵我這個代碼得到消息從bbcsite.com/news/123: <?php $html = file_get_contents('http://

    -1熱度

    1回答

    我有一個名爲page1.html,page2.html的html文件。在page1.html和page2.html中,我有一些表格元素內容,現在我想提取這些表格內容並將其放在名爲summary.html的新文件中。我不知道jQuery,所以如何從Java或Javascript做到這一點。我知道如何從Java/Javascript創建html。

    0熱度

    1回答

    正如標題所說,div[@class="posts-cont"]含有大量的句子,但text_content()似乎只能得到的第一句<br>... >>>import requests >>>from lxml import html >>>url = 'http://club.kdnet.net/dispbbs.asp?boardid=1&id=9964430' >>>r = requests

    0熱度

    1回答

    我有一個Java代碼,可以讀取URL的源並保存到文件(source.html),現在從保存的頁面中,我想使用XPath提取一些值。假設我想讀取價格 - //div [@itemprop='price'] //text() 如何做到這一點,我可以直接在保存的HTML頁面中做到這一點,或者我應該先將其轉換爲XML文件,然後使用XPath。我聽說過關於HTML清潔器/解析器的信息,我應該在這裏使用它嗎?

    1熱度

    1回答

    我的頁面的HTML內容位於MySQL的LONG_TEXT列中。 我OBJECTIF是提取使用LOCATE,SUBSTRING或SUBSTRING_INDEX功能我的Facebook頁面的URL MySQL的 我發現這篇文章Mysql query to extract domains from urls,但它並沒有真正適合的問題。 如何有效地提取使用mysql的字符串中'href="http://w

    8熱度

    2回答

    我試圖從finance.yahoo.com下載歷史股票價格數據爲1000s的股票。該網站僅在單個頁面上顯示60天的數據,因此我必須循環查看我下載的時間段以及不同證券的循環。我已使用以下代碼訪問相關頁面。 Set httpObject = CreateObject("MSXML2.XMLHTTP") httpObject.Open "GET", url, False httpObject.sen

    1熱度

    3回答

    我正在嘗試從網頁讀取源代碼。我的Java代碼 import java.net.*; import java.io.*; import java.util.*; import javax.swing.JOptionPane; class Testing{ public static void Connect() throws Exception{ URL url = new

    1熱度

    1回答

    我的朋友有一個小企業,客戶使用電子郵件訂購服務。他每天收到幾封電子郵件,並通過分揀變得非常麻煩。 客戶可以請求約10種不同類型的任務,每個任務都有一個或兩個單詞來指定它。電子郵件中的其他信息是服務交付的地點,時間以及涉及的人員姓名。該電子郵件還包含一個ID,一個相當標準格式的長號碼。 電子郵件是非結構化的,但都包含上面的關鍵信息。我的問題是:掃描這些電子郵件並提取關鍵信息(如服務類型,地點,人名,

    0熱度

    1回答

    我怎樣才能得到一個請求的url的內容,返回一個HTML頁面,傳遞到一個字符串,在Flash動作的Java 。 ?! 我有這個現在 var req:URLRequest = new URLRequest("http://somedomain.com/index.php"); var loader:URLLoader = new URLLoader(); loader.dataFormat = U