2016-12-25 48 views
-1

我正在開發一個項目,希望從Google學術搜索中獲取數據。我想刮掉所有在某個類別中標記的作者(例如,Anaphylaxis),並將他們的引用次數,h-index和i-10索引存儲在CSV文件中。但是,鑑於Google學術搜索沒有API,我不確定如何執行此操作。我知道我可以使用刮刀像美麗的湯,但我不確定如何刮取數據而不被阻塞。根據Google學術搜索的標籤刮掉作者

所以,我的問題是如何使用bs4來存儲標記爲過敏反應的所有作者以及每個作者的引文,h-index和i-10索引在csv文件中。

+0

那麼問題是什麼? – Peaceful

+0

@Peaceful已更新澄清 – user7339949

+0

聽起來很有趣!我沒有答案,尤其是被阻止。但是,也許你沒有看到https://pypi.python.org/pypi/scholarly/0.2.2?代碼可以在這些結果上形成圖案。 –

回答

0

所有的刮板正在解析一些HTML頁面。在搜索時,作者在class =「gs_a」的div中。如果您使用Beautiful Soup並尋找這個類,您將能夠找到所有作者。您可以通過更新網址逐頁瀏覽。

https://scholar.google.ca/scholar?start=20&q=polymer&hl=en&as_sdt=0,5https://scholar.google.ca/scholar?start=30&q=polymer&hl=en&as_sdt=0,5

即。開始= 30,然後是40等。

然後您可以遍歷gs_a類標記中鏈接路徑上的作者姓名。

讓我知道這是否有幫助!

-Kyle

+0

我對每位作者的引文總數感興趣,而不是論文 – user7339949