我試圖抓取一些網站。但是,我的爬行過程很長,我需要使用多個實例來縮短它。我已經尋找其他方法並放棄了所有不必要的資源請求,但對我來說太慢了(大約8-9秒)。CasperJS和並行抓取
什麼是平行casperjs情況下甚至只有同時並行抓取運行兩個casperjs最簡單的方法?
我已經使用GNU平行從博客中我找到了但是好像雖然過程是活的,他們也不會以並行抓取,因爲總的執行時間仍然是一個實例相同。
我應該用一個服務器的NodeJS創建實例? 什麼是最簡單最實用的方法?
我試圖抓取一些網站。但是,我的爬行過程很長,我需要使用多個實例來縮短它。我已經尋找其他方法並放棄了所有不必要的資源請求,但對我來說太慢了(大約8-9秒)。CasperJS和並行抓取
什麼是平行casperjs情況下甚至只有同時並行抓取運行兩個casperjs最簡單的方法?
我已經使用GNU平行從博客中我找到了但是好像雖然過程是活的,他們也不會以並行抓取,因爲總的執行時間仍然是一個實例相同。
我應該用一個服務器的NodeJS創建實例? 什麼是最簡單最實用的方法?
你能適應這樣的: 服務器的https://www.gnu.org/software/parallel/man.html#EXAMPLE:-Breadth-first-parallel-web-crawler-mirrorer
#!/bin/bash
# E.g. http://gatt.org.yeslab.org/
URL=$1
# Stay inside the start dir
BASEURL=$(echo $URL | perl -pe 's:#.*::; s:(//.*/)[^/]*:$1:')
URLLIST=$(mktemp urllist.XXXX)
URLLIST2=$(mktemp urllist.XXXX)
SEEN=$(mktemp seen.XXXX)
# Spider to get the URLs
echo $URL >$URLLIST
cp $URLLIST $SEEN
while [ -s $URLLIST ] ; do
cat $URLLIST |
parallel lynx -listonly -image_links -dump {} \; \
wget -qm -l1 -Q1 {} \; echo Spidered: {} \>\&2 |
perl -ne 's/#.*//; s/\s+\d+.\s(\S+)$/$1/ and do { $seen{$1}++ or print }' |
grep -F $BASEURL |
grep -v -x -F -f $SEEN | tee -a $SEEN > $URLLIST2
mv $URLLIST2 $URLLIST
done
rm -f $URLLIST $URLLIST2 $SEEN
嘿,感謝然而答案,我適應不了,因爲網頁我爬行需要啓用和wget或curl我只能得到網頁的第一部分的JavaScript。 – kck
你可以構建導出鏈接像一個工具:「猞猁-listonly -image_links突降URL」和一個工具,可以讓頁面像「wget的-qm -l1 -Q1 URL」,那麼你應該是金:只需更換lynx/wget在上面的腳本中。這就是我'適應'的意思。 –
你可能會觸及身體或人爲的限制。你能檢查一下嗎? –