我正在開發一個項目,希望從Google學術搜索中獲取數據。我想刮掉所有在某個類別中標記的作者(例如,Anaphylaxis),並將他們的引用次數,h-index和i-10索引存儲在CSV文件中。但是,鑑於Google學術搜索沒有API,我不確定如何執行此操作。我知道我可以使用刮刀像美麗的湯,但我不確定如何刮取數據而不被阻塞。根據Google學術搜索的標籤刮掉作者
所以,我的問題是如何使用bs4來存儲標記爲過敏反應的所有作者以及每個作者的引文,h-index和i-10索引在csv文件中。
我正在開發一個項目,希望從Google學術搜索中獲取數據。我想刮掉所有在某個類別中標記的作者(例如,Anaphylaxis),並將他們的引用次數,h-index和i-10索引存儲在CSV文件中。但是,鑑於Google學術搜索沒有API,我不確定如何執行此操作。我知道我可以使用刮刀像美麗的湯,但我不確定如何刮取數據而不被阻塞。根據Google學術搜索的標籤刮掉作者
所以,我的問題是如何使用bs4來存儲標記爲過敏反應的所有作者以及每個作者的引文,h-index和i-10索引在csv文件中。
所有的刮板正在解析一些HTML頁面。在搜索時,作者在class =「gs_a」的div中。如果您使用Beautiful Soup並尋找這個類,您將能夠找到所有作者。您可以通過更新網址逐頁瀏覽。
https://scholar.google.ca/scholar?start=20&q=polymer&hl=en&as_sdt=0,5 到 https://scholar.google.ca/scholar?start=30&q=polymer&hl=en&as_sdt=0,5
即。開始= 30,然後是40等。
然後您可以遍歷gs_a類標記中鏈接路徑上的作者姓名。
讓我知道這是否有幫助!
-Kyle
我對每位作者的引文總數感興趣,而不是論文 – user7339949
那麼問題是什麼? – Peaceful
@Peaceful已更新澄清 – user7339949
聽起來很有趣!我沒有答案,尤其是被阻止。但是,也許你沒有看到https://pypi.python.org/pypi/scholarly/0.2.2?代碼可以在這些結果上形成圖案。 –