html-content-extraction

1熱度

3回答

我需要將美元兌換爲另一種貨幣（比如歐元）的歷史日期列表。 www.xe.com網站提供歷史查詢工具，並使用詳細的網址，可以獲取特定日期的費率表，無需填寫Date:和From:框。例如，網址http://www.xe.com/currencytables/?from=USD&date=2012-10-15給出了2012年10月15日當天美元兌換其他貨幣的轉換率表。現在，假設我有一個日期列表，我可以

1熱度

1回答

從網頁中提取鏈接並在Visual Studio中寫入控制檯VB

我正在使用VB爲VS創建Web 2012應用程序。當用戶輸入網址時，我希望網頁返回頁面上所有鏈接和文本輸入框的列表，這些鏈接和文本輸入框可以點擊並輸入到該頁面或填入輸入框。我不希望網址可見。例如：如果我在地址欄鍵入一個網址並回車，一個新的窗口會出現只顯示的鏈接，如以下格式菜單項或文本unput框：鏈接： About Us Text Input Box 它不會顯示：（實際的HTML代碼 - 完成

0熱度

1回答

無需前往網站即可存檔網頁內容

我想取網頁數據而無需轉到實際網站。 http://archive.org/web/web.php是一個保持網站快照的例子。問題在於數據相當老舊（5-6個月）。我們有任何其他存檔存儲可以找到最新的html內容嗎？謝謝

0熱度

2回答

用Python提取HTML數據字段

請原諒我缺乏相關知識，但給出以下格式的HTML，提取單個數據字段的最佳方法是什麼？請記住，在這種情況下，我們會將它們保持爲NULL，而且它們中的一些或全部通常都是NULL。 <div class="profile-section" id="a-bit-more-about"> <dl> <dt>Name:</dt> <dd><span class=

0熱度

3回答

XPATH/PHP - 更智能的方法來實現這一點？

我有以下幾點： $html = "<a href="/path/to/page.html" title="Page name"><img src="path/to/image.jpg" alt="Alt name" />Page name</a>" 我需要提取href和src屬性和錨文本我的解決辦法： $dom = new DOMDocument; $dom->loadHTML($html

1熱度

1回答

算法在網頁中查找「文章」？

一些瀏覽器插件，如readability可以從網頁中提取'文章'。有沒有人有想法如何做到這一點？真實的文章和廣告或評論有什麼區別？

0熱度

1回答

如何以編程方式獲取contentPlaceHolder的代碼

我希望能夠使用任何Html分析器提取contentPlaceHolder的代碼。問題是，我需要一個url，但是因爲它是一個masterpage我不能擁有它。實際上有一個select標籤，您可以在其中選擇一個選項，當您選擇一個選項時，它將加載一個contentPlaceHolder。我想從contentPlaceHolder中提取代碼。注：我沒有建立網站。下面是一些圖片來更好地解釋它：這是

1熱度

1回答

Selenium IDE Parse存儲屬性

我對編程非常陌生，並且正努力通過在Selenium IDE中創建自動化測試工作。我已經找到了如何節約使用「storeAttribute」命令屬性.. 命令：storeAttribute 目標：鏈接= $ {} projectlabel @onclick 價值：objectID 然後它存儲以下變量：「parent.loadPod（'time_pod'，'time/index.cfm？act

-1熱度

2回答

如何閱讀網頁的某些部分並將其文本保存在excel文件中

我已經通過網站複印機軟件下載了一些網站。我想從所有頁面中提取一些信息。假設有很多產品頁面，我只想從所有頁面收集產品信息並將其存儲在Excel文件中。我想知道做什麼的可能方法。我的朋友告訴我，他可以寫一些腳本並實現它，但我不明白腳本如何解決這一整個目的。是否有任何免費軟件或任何可以完成這項工作的代碼。我非常瞭解java，如果我可以通過編寫代碼使其發生，請提供一些指導。

0熱度

1回答

從頁面加載div ..從類href

我的頁面有很多div與<a href>的打開modalboxes（colorbox）。這些鏈接打開的頁面有id="mainColumn"。內容只需要從這個ID加載。 <div> <a href="includes/page_1.html" class="pop"></a> </div> <div> <a href="includes/page_2.html" clas