我在做需要大量引用數據的研究。我想訪問科學網的數據庫。例如,我可能需要2013年在Nature上發表的所有論文的引文。我如何獲得這樣的數據集?科學網絡是否向用戶開放數據庫?或者我需要以某種方式自己抓取數據?任何建議表示讚賞。 T如何訪問(大規模,不只是搜索幾個結果)科學網絡的數據庫?
0
A
回答
0
如果您想在自己的計算機上獲得離線的Citations,則必須抓取數據並存儲。爲了抓取數據,我建議使用Apache Tika:「Apache Tika™工具包可以從Tika網站Apache Tika中檢測並提取來自各種文檔的元數據和文本內容 - 從PPT到CSV到PDF - 使用現有的解析器庫」。
在大規模談話時,我認爲這是最好的方法,因爲一旦下載完成,它將在您的計算機上執行許多您想要的搜索,而無需等待由於遠程延遲而完成搜索搜索
0
你可以使用Zillabyte的domain_crawler組件:
$ zillabyte execute domain_crawl "example.com" --output_file some_file
相關問題
- 1. 數據庫搜索只返回1搜索結果
- 2. 如何訪問搜索LookupFields結果
- 3. 訪問Google搜索結果
- 4. 訪問搜索結果
- 5. 網絡搜索中的查詢結果
- 6. 如何訪問網站的CMS只能訪問數據庫
- 7. 兵網絡搜索顯示結果只爲我的域
- 8. 硒的Python - 搜索的訪問下一個網頁的結果
- 9. 只獲得來自YouTube的api的幾個搜索結果
- 10. 網絡搜刮是否合法用於科學目的?
- 11. 微軟認知網絡搜索有不同的結果/結構
- 12. 在網絡上訪問數據庫
- 13. PHP - 訪問其他網絡數據庫
- 14. 訪問火力數據庫從網絡
- 15. 通過網絡訪問數據庫
- 16. 神經網絡訓練。只有幾個結果
- 17. 排序數據庫結果後搜索
- 18. 搜索MySql數據庫&查看結果
- 19. 網站上的動態數據庫搜索結果
- 20. 訪問數據庫搜索和顯示
- 21. 搜索標題在訪問數據庫
- 22. 數據庫訪問搜索文本框
- 23. 如何搜索MYSQL數據庫有幾個何在
- 24. Mysql:按月搜索數據只產生一個結果不是全部
- 25. 如何告訴搜索引擎只在安全的網站搜索結果
- 26. 訪問數據庫VB - 在數據庫中搜索大多數「最近」記錄
- 27. Sharepoint網絡服務搜索:返回的結果數量指定
- 28. Google如何抓取數據庫,例如科學數據庫?
- 29. 訪問Magento搜索結果集合
- 30. 一個好的網絡數學Java庫