2015-10-31 106 views
1

我需要存儲在谷歌NGRAM網站上的圖表顯示的數據。例如,我想在1800-2008之間存儲「它」的出現百分比,如以下鏈接所示:https://books.google.com/ngrams/graph?content=it%27s&year_start=1800&year_end=2008&corpus=0&smoothing=3&share=&direct_url=t1%3B%2Cit%27s%3B%2Cc0如何存儲Google Ngram API的數據?

我想要的數據是你能在圖上滾動過來的數據。我怎樣才能提取約140個不同的術語(例如「它是」,「他們是」,「她」等)?

+0

谷歌在這裏http://storage.googleapis.com/books/ngrams/books/datasetsv2.html提供了完整的數據集 - 我想從圖形/ SVG提取是不值得的。 – rebeling

+0

我見過。我只是不想要下載的語料的很大一部分只是這種分析 – blacksite

回答

1

econpy寫了nice little module in Python,你可以通過命令行界面使用。

爲貴「是」的例子,你需要在終端/ Windows控制檯輸入以下命令:

python getngrams.py it's -startYear=1800 -endYear=2008 -corpus=eng_2009 -smoothing=3 

這將自動查詢結果保存在您的查詢參數命名的CSV文件。

+0

我使用蟒蛇的Spyder(運行2.7)..我怎麼這個代碼集成到我的現有代碼?我是否需要將其作爲模塊打包並導入?我遇到了將代碼複製粘貼到現有代碼並運行的問題。 – blacksite

+0

什麼問題?也許我們可以解決這個問題,而不會經歷包裝它的麻煩。我也問過他是否想成爲一個模塊。如果他說不,我會照顧把它放在PyPi上,這樣人們可以用點子下載它。 – HugoMailhot

+0

好的。感謝那。我實際上已經開始工作......我只是在錯誤地查詢!謝謝你的幫助。 – blacksite

相關問題