如何提取給定網站的社交信息？

-3

我有一個網站的URL像www.example.com如何提取給定網站的社交信息？

我想收集這個網站的社會信息，如：facebook的網址（facebook.com/example），推特網址（twitter.com/example）等，如果可以在任何地方，在網站的任何頁面。

如何完成這個任務，建議任何教程，博客，技術..

2017-10-05 S N Tiwari

既然你不知道到底哪裏（哪個網站的頁面），這些鏈接的位置，你可能想你基地蜘蛛CrawlSpider類。這樣的蜘蛛可以讓你定義鏈接提取和網站導航的規則。看到這個小例子：

from scrapy.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

class MySpider(CrawlSpider): 
    name = 'example.com' 
    start_urls = ['http://www.example.com'] 

    rules = (
     Rule(LinkExtractor(allow_domains=('example.com',)), callback='parse_page', follow=True), 
    ) 

    def parse_page(self, response): 
     item = dict() 
     item['page'] = response.url 
     item['facebook_urls'] = response.xpath('//a[contains(@href, "facebook.com")]/@href').extract() 
     item['twitter_urls'] = response.xpath('//a[contains(@href, "twitter.com")]/@href').extract() 
     yield item

這種蜘蛛會爬example.com網站的所有網頁，並提取含facebook.com和twitter.com網址。

來源

2017-10-05 08:11:53

有幫助，但我只需要同一網站的社交網址。如果網站擁有多個不同域名（網站）的社交網站，就像博客一樣 –

如果您在具體示例中更詳細地指定了需求，則會更容易。提供您想要檢索的網站和信息。 –

實際上我有大約10000個網址，我想爲所有人收集社交地址，所以我想要這樣做！ –

最有可能要 1.搜索在HTML頁面佈局的頁眉/頁腳鏈接。因爲這是他們最常見的地方。 2.您可以在同一網站的其他頁面上找到鏈接並參考。 3.您可以檢查網站/組織的名稱是否在鏈接中。但是這個名稱可能會有所不同，或者使用絕對陌生的手柄並不可靠。

這就是我能想到的。

來源

2017-11-07 14:51:53

如何提取給定網站的社交信息？

回答

相關問題