scrape

    1熱度

    2回答

    我正在擺弄一些刮擦,並且在將它寫入我的json文件之前需要處理一些數據。 var Xray = require('x-ray'); var x = Xray(); x('http://myUrl.com', '#search_results div div a', [{ title: '.responsive_search_name_combined .sea

    1熱度

    1回答

    我有一些代碼在兩個其他字符串(三明治)之間刮字符串。它正在工作 - 但我需要循環使用各種「三明治」字符串。 //needle in haystack $result 'sandwich: Today is a nice day. sandwich: Today is a cloudy day. sandwich: Today is a rainy day. sand

    -2熱度

    3回答

    我有一個需要抓取多個網站(如100個不同的網站),並將其主頁內容保存在數據庫中。但問題不是所有這些網站都有相同的結構和相同的鏈接文本。例如,一個網站可能有「關於我們」,而另一網站的相同內容可能在一個名爲「我們是誰」的頁面下。因此,很難識別並列出一個數據庫列中的常見內容。同樣遍歷100個或更多網站的內部頁面並保存每個頁面的抓取數據並將它們放在公共列中變得更加難以解決。 我該如何解決這個問題?我會很感

    0熱度

    1回答

    任何人都知道如何修改下面的刮刀以達到預期的效果: Array ([0] => Gold_Needle [1] => Silver_Needle) 的代碼可以@http://ideone.com/QATj5a 在線跑 結果是: Array ([0] => this is a bunch of hay hay1= Gold_Needle [1] => Silver_Needle) 期望結果是:

    1熱度

    1回答

    我有基本代碼必應搜索API,此代碼可行,但我想獲得下一個結果。 這是我的代碼: $rootUri_image = 'https://api.datamarket.azure.com/Bing/Search/v1/'; $acctKey_image = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"; $query_image = urlencode("ho

    0熱度

    2回答

    刮我想刮此鏈接中的國名和國家的首都: https://en.wikipedia.org/wiki/List_of_national_capitals_in_alphabetical_order 從HTML代碼中,我正在尋找所有這些: from bs4 import BeautifulSoup import requests BASE_URL = "https://en.wikipedia.o

    2熱度

    2回答

    如果我跑我的代碼沒有最後一行:getVal(tweet['retweeted_status']['favorite_count']),然後刮作品,但是當我加入這行我得到一個錯誤信息KeyError: 'retweeted_status' 有誰知道我做錯了嗎? q = "David_Cameron" results = twitter_user_timeline(twitter_api, q)

    0熱度

    1回答

    我正嘗試在新計算機上重新設置我的應用程序並運行刮擦來構建數據庫。當我運行我的第一把耙刮刀時:刮,這是我得到的錯誤。我不知道爲什麼我得到這個錯誤任何幫助將使我的一天..乾杯! Art [email protected] ~/desktop/duckduckjeep-master $ rake scraper:scrape --trace ** Invoke scraper:scrape (fir

    1熱度

    1回答

    我想刮掉顯示在Google搜索上的23000搜索的第一個鏈接,並將它們追加到我正在使用的數據框中。這是我得到的錯誤: Traceback (most recent call last): File "file.py", line 26, in <module> website = showsome(company) File "file.py", line 18, in showsome

    0熱度

    1回答

    你好,我有一堆divs我試圖從內容價值中挖出,我已經成功地取出了其中一個值,結果!不過,我已經碰到了一堵磚牆,現在我想在現在的代碼裏面把它拿出來。打磚牆在這裏將不勝感激任何幫助。 這是我目前使用的代碼位。 foreach ($arr as &$value) { $file = $DOCUMENT_ROOT. $value; $doc = new DOMDocument();