html-content-extraction

    7熱度

    2回答

    我一直在做很多研究,找出編寫應用程序以從幾乎任何HTML網頁獲取主要文章內容的最佳方法。我有一個使用libxml2解析XML的C程序,但我遇到了Alchemy API,它看起來像我想要的。 但是,它只有一個在線API,我想在不依賴任何外部呼叫的情況下將應用程序保留在內部。 那麼有人有提示嗎?我希望能有一個能夠完成Alchemy API可以做的(付費/不付費)的離線選擇。 我的選擇可能是解析HTML

    2熱度

    1回答

    我要開始我的文章提取工作。 ,我會做的任務是提取的酒店點評被張貼在不同的網頁(例如1 http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html,2 http://www.travelpod.com/

    0熱度

    3回答

    我的iPhone應用程序有一個信息頁面,其中包含一個UIWebView,我已經指出,在我的網站的信息頁面: NSString *urlAddress = @"http://www.toneme.org/Software"; NSURL *url = [NSURL URLWithString: urlAddress]; NSURLRequest *requestObj = [NSURLReque

    0熱度

    3回答

    什麼是Java網頁刮板最好的庫?我知道以下選擇: 硒 的HtmlUnit 洛沃瀏覽器 我需要選擇一個選項,以建立一個可擴展的項目刮刀。

    0熱度

    1回答

    我的要求是動態地從網頁中提取所有鏈接(使用「a href」)。我正在使用JSP。更具體地說,我正在JSP中構建一個元搜索引擎。所以當用戶輸入查詢條目時,我必須從雅虎的搜索結果頁面中提取鏈接,請求,谷歌,媽媽等。 爲了獲得字符串格式的頁面,我現在使用的代碼是。 > > try { > String sUrl_yahoo = "http://www.mamma.com/result.php?typ

    0熱度

    2回答

    我想從使用PHP的大型HTML頁面中提取超過100個字的文本塊。文本是否包含在<p>...</p>中並不重要。我只關心構成連貫文本塊的單詞數量,因此也應該考慮HTML段落之外的文本。 這怎麼辦?

    1熱度

    3回答

    我正在通過創建一個小程序學習C#,並找不到類似的帖子(如果此答案發布在其他地方,道歉)。 如何可能我去屏幕抓取的鏈接,PDF文件(我可以再下載到指定位置)一個網站嗎?有時候,一個頁面會鏈接到另一個具有實際PDF鏈接的HTML頁面,因此如果在第一頁上找不到真正的PDF,我希望它自動查找鏈接中包含「PDF」的鏈接鏈接的文本,然後在真正的PDF鏈接中搜索生成的HTML頁面。 我知道我可以通過谷歌搜索文件

    2熱度

    1回答

    讓我解釋一下。我想要做的是,給定一個網頁,我想知道有多少嵌入式視頻及其鏈接。 我不是要求代碼本身,而是關於如何實現這一點的一些信息。

    2熱度

    3回答

    考慮下面的HTML: <p><span class="xn-location">OAK RIDGE, N.J.</span>, <span class="xn-chron">March 16, 2011</span> /PRNewswire/ -- Lakeland Bancorp, Inc. (Nasdaq: <a href='http://studio-5.financialcontent.c

    3熱度

    1回答

    使用HTML敏捷性包是偉大的,讓後代和整個表等...但你怎麼能在以下情況 ...Html Code above... <dl> <dt>Location:</dt> <dd>City, London</dd> <dt style="padding-bottom:10px;">Distance:</dt> <dd style="padding-bottom:10px;">0 miles<