html-content-extraction

7熱度

2回答

我一直在做很多研究，找出編寫應用程序以從幾乎任何HTML網頁獲取主要文章內容的最佳方法。我有一個使用libxml2解析XML的C程序，但我遇到了Alchemy API，它看起來像我想要的。但是，它只有一個在線API，我想在不依賴任何外部呼叫的情況下將應用程序保留在內部。那麼有人有提示嗎？我希望能有一個能夠完成Alchemy API可以做的（付費/不付費）的離線選擇。我的選擇可能是解析HTML

2熱度

1回答

從網頁中提取通用文章

我要開始我的文章提取工作。，我會做的任務是提取的酒店點評被張貼在不同的網頁（例如1 http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html，2 http://www.travelpod.com/

0熱度

3回答

iPhone：從提取文本和檢索網頁的磁盤緩存

我的iPhone應用程序有一個信息頁面，其中包含一個UIWebView，我已經指出，在我的網站的信息頁面： NSString *urlAddress = @"http://www.toneme.org/Software"; NSURL *url = [NSURL URLWithString: urlAddress]; NSURLRequest *requestObj = [NSURLReque

0熱度

3回答

Java網頁刮板

什麼是Java網頁刮板最好的庫？我知道以下選擇：硒的HtmlUnit 洛沃瀏覽器我需要選擇一個選項，以建立一個可擴展的項目刮刀。

0熱度

1回答

如何使用jsp從網頁中提取鏈接？

我的要求是動態地從網頁中提取所有鏈接（使用「a href」）。我正在使用JSP。更具體地說，我正在JSP中構建一個元搜索引擎。所以當用戶輸入查詢條目時，我必須從雅虎的搜索結果頁面中提取鏈接，請求，谷歌，媽媽等。爲了獲得字符串格式的頁面，我現在使用的代碼是。 > > try { > String sUrl_yahoo = "http://www.mamma.com/result.php?typ

0熱度

2回答

如何從HTML頁面中提取文本塊？

我想從使用PHP的大型HTML頁面中提取超過100個字的文本塊。文本是否包含在...中並不重要。我只關心構成連貫文本塊的單詞數量，因此也應該考慮HTML段落之外的文本。這怎麼辦？

1熱度

3回答

屏幕抓取PDF鏈接下載

我正在通過創建一個小程序學習C＃，並找不到類似的帖子（如果此答案發布在其他地方，道歉）。如何可能我去屏幕抓取的鏈接，PDF文件（我可以再下載到指定位置）一個網站嗎？有時候，一個頁面會鏈接到另一個具有實際PDF鏈接的HTML頁面，因此如果在第一頁上找不到真正的PDF，我希望它自動查找鏈接中包含「PDF」的鏈接鏈接的文本，然後在真正的PDF鏈接中搜索生成的HTML頁面。我知道我可以通過谷歌搜索文件

2熱度

1回答

如何從網頁上的所有嵌入式視頻獲取鏈接？

讓我解釋一下。我想要做的是，給定一個網頁，我想知道有多少嵌入式視頻及其鏈接。我不是要求代碼本身，而是關於如何實現這一點的一些信息。

2熱度

3回答

如何使用RegEx從HTML中提取值？

考慮下面的HTML： OAK RIDGE, N.J., March 16, 2011 /PRNewswire/ -- Lakeland Bancorp, Inc. (Nasdaq: <a href='http://studio-5.financialcontent.c

3熱度

1回答

Http Agility Pack - 訪問兄弟姐妹？

使用HTML敏捷性包是偉大的，讓後代和整個表等...但你怎麼能在以下情況 ...Html Code above... <dl> <dt>Location:</dt> <dd>City, London</dd> <dt style="padding-bottom:10px;">Distance:</dt> <dd style="padding-bottom:10px;">0 miles<