scrape

    -1熱度

    1回答

    許多Facebook粉絲頁面現在採用以下格式 - https://www.facebook.com/TiltedKiltEsplanade其中「TiltedKiltEsplanade」是頁面所有者聲明的名稱示例。但是,同一頁面的RSS源可在https://www.facebook.com/feeds/page.php?id=414117051979234&format=rss20處找到,其中414

    -1熱度

    1回答

    是否有任何方法可以跨不同域訪問IFRAME內容? 我試圖將外部頁面加載到iframe中並刪除它們的信息。 但在Chrome中出現安全錯誤。

    0熱度

    1回答

    我一直在閱讀捲曲屏幕抓取信息幾個小時,我似乎無法弄清楚我做對或錯的事情。我不知道如何判斷我的登錄嘗試是否有效。 目標是「簡單」,發佈到登錄頁面,然後從登錄頁面拉出數據。 從這我可以告訴從篡改數據該網站似乎主要使用網頁導航後params,所以我做了兩個curl請求。一個登錄,一個從頁面獲取HTML。到目前爲止,我得到的轉儲是這樣的: 串(7097)「HTTP/1.1 200 OK 的Set-Cook

    2熱度

    2回答

    我已經上了幾天,但我仍然無法找到答案。 我正在使用scrapy(python)來刮this webpage。 我這裏還有我的目錄: hotels/ |_ scrapy.cfg |_ hotels/ |_ __init__.py |_ items.py |_ pipelines.py |_ settings.py |_ spiders/

    0熱度

    1回答

    我只是玩弄試圖學習PHP,並決定寫一個PHP頁面,可以從英雄聯盟板拉動信息。我遇到的問題是該網站需要我先登錄。香港專業教育學院嘗試過 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, 'http://forums.euw.leagueoflegends.com/board'); curl_setopt($ch, CURLOPT_U

    1熱度

    1回答

    前言,我是一名Python初學者,這是我第一次使用BeautifulSoup。任何輸入是不勝感激。 我試圖從this site颳去所有的公司名稱和電子郵件地址。有3層鏈接可以抓取(Alphabetized分頁列表 - >公司詳細信息列表 - >公司詳細信息頁面),然後我將它們打印到csv。 到目前爲止,我已經能夠用下面的代碼隔離按字母順序排列的鏈接列表,但是當試圖隔離不同的公司頁面然後從未標記的h

    1熱度

    1回答

    在Windows環境中,您如何建議我完成以下任務:訪問網站,輸入用戶名和密碼,從下拉菜單中選擇一個選項,點擊幾個鏈接(一個是動態的,但事先已知並存儲在本地文件中),然後從顯示的頁面中刪除信息並將其保存到文件中。 我試圖在人力方面解決的問題是;我從我以後的信息類型的大型聚合商那裏購買我的一個業務的數據。他們給我發送了這個信息的快照,以獲得完整的信息並將其輸入到我的後臺客戶管理數據庫中。我必須加載瀏覽

    1熱度

    3回答

    首先,這裏是我的代碼,我到目前爲止的進展: var http = require("http"); // Utility function that downloads a URL and invokes // callback with the data. function download(url, callback) { http.get(url, function(res

    2熱度

    4回答

    我正在尋找能夠登錄平臺,刮取數據(報告)並允許通過API訪問數據的SaaS解決方案。我有一些報告平臺提供網絡報告和電子郵件報告,但沒有API。在線報告無助於電子郵件報告,雖然可以自動化並被刮取,但並不可靠。

    0熱度

    1回答

    我想從this頁面的最新日期(表格的第一行)中刮取數據鏈接。但似乎表格的內容是由Javascript函數生成的。我嘗試使用Nokogiri來獲得它,但徒勞無功,因爲nokogiri不能刮掉Javascript。然後,我嘗試用只得到使用引入nokogiri腳本部分: url = "http://www.sgx.com/wps/portal/sgxweb/home/marketinfo/histori