根據Google學術搜索的標籤刮掉作者

-1

我正在開發一個項目，希望從Google學術搜索中獲取數據。我想刮掉所有在某個類別中標記的作者（例如，Anaphylaxis），並將他們的引用次數，h-index和i-10索引存儲在CSV文件中。但是，鑑於Google學術搜索沒有API，我不確定如何執行此操作。我知道我可以使用刮刀像美麗的湯，但我不確定如何刮取數據而不被阻塞。根據Google學術搜索的標籤刮掉作者

所以，我的問題是如何使用bs4來存儲標記爲過敏反應的所有作者以及每個作者的引文，h-index和i-10索引在csv文件中。

來源

2016-12-25 user7339949

那麼問題是什麼？ – Peaceful

@Peaceful已更新澄清 – user7339949

聽起來很有趣！我沒有答案，尤其是被阻止。但是，也許你沒有看到https://pypi.python.org/pypi/scholarly/0.2.2？代碼可以在這些結果上形成圖案。 –

所有的刮板正在解析一些HTML頁面。在搜索時，作者在class =「gs_a」的div中。如果您使用Beautiful Soup並尋找這個類，您將能夠找到所有作者。您可以通過更新網址逐頁瀏覽。

https://scholar.google.ca/scholar?start=20&q=polymer&hl=en&as_sdt=0,5 到 https://scholar.google.ca/scholar?start=30&q=polymer&hl=en&as_sdt=0,5

即。開始= 30，然後是40等。

然後您可以遍歷gs_a類標記中鏈接路徑上的作者姓名。

讓我知道這是否有幫助！

-Kyle

來源

2016-12-25 15:42:55

我對每位作者的引文總數感興趣，而不是論文 – user7339949

根據Google學術搜索的標籤刮掉作者

回答

相關問題