scrape

-1熱度

1回答

許多Facebook粉絲頁面現在採用以下格式 - https://www.facebook.com/TiltedKiltEsplanade其中「TiltedKiltEsplanade」是頁面所有者聲明的名稱示例。但是，同一頁面的RSS源可在https://www.facebook.com/feeds/page.php?id=414117051979234&format=rss20處找到，其中414

-1熱度

1回答

跨域iframe中的訪問內容

是否有任何方法可以跨不同域訪問IFRAME內容？我試圖將外部頁面加載到iframe中並刪除它們的信息。但在Chrome中出現安全錯誤。

0熱度

1回答

屏幕刮通過curl和PHP登錄

我一直在閱讀捲曲屏幕抓取信息幾個小時，我似乎無法弄清楚我做對或錯的事情。我不知道如何判斷我的登錄嘗試是否有效。目標是「簡單」，發佈到登錄頁面，然後從登錄頁面拉出數據。從這我可以告訴從篡改數據該網站似乎主要使用網頁導航後params，所以我做了兩個curl請求。一個登錄，一個從頁面獲取HTML。到目前爲止，我得到的轉儲是這樣的：串（7097）「HTTP/1.1 200 OK 的Set-Cook

2熱度

2回答

Scrapy不能刮網站

0熱度

1回答

如何在LeagueOfLegends.com/board上進行php cURL登錄，驗證碼和會話？

我只是玩弄試圖學習PHP，並決定寫一個PHP頁面，可以從英雄聯盟板拉動信息。我遇到的問題是該網站需要我先登錄。香港專業教育學院嘗試過 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, 'http://forums.euw.leagueoflegends.com/board'); curl_setopt($ch, CURLOPT_U

1熱度

1回答

如何才能最好地隔離2個不同的未標記HTML片段，使用美麗的湯打印到CSV？

前言，我是一名Python初學者，這是我第一次使用BeautifulSoup。任何輸入是不勝感激。我試圖從this site颳去所有的公司名稱和電子郵件地址。有3層鏈接可以抓取（Alphabetized分頁列表 - >公司詳細信息列表 - >公司詳細信息頁面），然後我將它們打印到csv。到目前爲止，我已經能夠用下面的代碼隔離按字母順序排列的鏈接列表，但是當試圖隔離不同的公司頁面然後從未標記的h

1熱度

1回答

如何訪問網站，登錄，導航到頁面並抓取數據

在Windows環境中，您如何建議我完成以下任務：訪問網站，輸入用戶名和密碼，從下拉菜單中選擇一個選項，點擊幾個鏈接（一個是動態的，但事先已知並存儲在本地文件中），然後從顯示的頁面中刪除信息並將其保存到文件中。我試圖在人力方面解決的問題是;我從我以後的信息類型的大型聚合商那裏購買我的一個業務的數據。他們給我發送了這個信息的快照，以獲得完整的信息並將其輸入到我的後臺客戶管理數據庫中。我必須加載瀏覽

1熱度

3回答

node.js + cheerio scrape：傳遞一個url數組下載？

首先，這裏是我的代碼，我到目前爲止的進展： var http = require("http"); // Utility function that downloads a URL and invokes // callback with the data. function download(url, callback) { http.get(url, function(res

2熱度

4回答

任何人都知道一個在線工具，可以刮一個頁面，並創建一個REST API的刮取數據？

我正在尋找能夠登錄平臺，刮取數據（報告）並允許通過API訪問數據的SaaS解決方案。我有一些報告平臺提供網絡報告和電子郵件報告，但沒有API。在線報告無助於電子郵件報告，雖然可以自動化並被刮取，但並不可靠。

0熱度

1回答

如何使用由JavaScript函數生成的Ruby來擦除數據？

我想從this頁面的最新日期（表格的第一行）中刮取數據鏈接。但似乎表格的內容是由Javascript函數生成的。我嘗試使用Nokogiri來獲得它，但徒勞無功，因爲nokogiri不能刮掉Javascript。然後，我嘗試用只得到使用引入nokogiri腳本部分： url = "http://www.sgx.com/wps/portal/sgxweb/home/marketinfo/histori