我有以下問題。我想從以下鏈接下載文本:wget/curl下載文件
http://www.ncbi.nlm.nih.gov/nuccore/NC_021206.1?report=fasta&log$=seqview&format=text
我既wget
和curl
但不是下載的文本文件,嘗試他們下載一個HTML頁面。有沒有辦法解決這個問題?
我有以下問題。我想從以下鏈接下載文本:wget/curl下載文件
http://www.ncbi.nlm.nih.gov/nuccore/NC_021206.1?report=fasta&log$=seqview&format=text
我既wget
和curl
但不是下載的文本文件,嘗試他們下載一個HTML頁面。有沒有辦法解決這個問題?
問題是,該服務器不會返回真正的文本文件,而是一個腳本,它會在客戶端生成它。我想,這是自動浸出腳本的保護措施,就像您正在嘗試創建的腳本一樣。
但是,在另一方面,這是相當跛腳的措施,因爲它們是加載他們想從另一個URL來保護文本,你的情況的:
http://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?val=498907917&db=nuccore&dopt=fasta&extrafeat=0&fmt_mask=0&maxplex=1&sendto=t&withmarkup=on&log$=seqview&maxdownloadsize=1000000
所以,在這裏,你應該做的:
wget "whatever" -O temp.html
id=`cat temp.html | grep ncbi_uidlist | sed -e 's/^.*ncbi_uidlist\" content=\"//' | sed -e 's/".*//'`
wget "http://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?val=$id&db=nuccore&dopt=fasta&extrafeat=0&fmt_mask=0&maxplex=1&sendto=t&withmarkup=on&log$=seqview&maxdownloadsize=1000000"
太棒了。有用! – fabioln79
@ fabioln79我知道。我測試了它。 –
它使用Javascript來在瀏覽器中生成文本。 – Barmar