嗨,我有CSV文件,其中包含這樣的www.google.com,www.ibm.com公司的URL列表.....如何讓公司的聯繫頁面URL
在這裏,我想聯繫我們或公司簡介頁面url(示例http://www.google.com/contact)爲csv文件中存在的每個url我有一個想法檢查鏈接與以下模式(聯繫我們,關於我們,關於,位置)。
如果您沒有找到其中的任何一個,請將該網址標記並將其寫入日誌文件。如果你發現這個模式,只是打印地址(它用於其他進程)
嗨,我有CSV文件,其中包含這樣的www.google.com,www.ibm.com公司的URL列表.....如何讓公司的聯繫頁面URL
在這裏,我想聯繫我們或公司簡介頁面url(示例http://www.google.com/contact)爲csv文件中存在的每個url我有一個想法檢查鏈接與以下模式(聯繫我們,關於我們,關於,位置)。
如果您沒有找到其中的任何一個,請將該網址標記並將其寫入日誌文件。如果你發現這個模式,只是打印地址(它用於其他進程)
我建議使用Beautiful Soup解析頁面。另一種選擇是在Mechanical Turk上設置一個HIT。
scrapy是最好的。關於scrapy的最好的事情是它是一個開源的。 scrapy documentation