好吧,我想通過正則表達式從google主頁中提取所有鏈接。正則表達式什麼都不返回
但我面臨一個莫名其妙的問題。當我發送請求到谷歌主頁,並嘗試從頁面中提取所有鏈接時,我通常會得到一個結果,其餘部分是垃圾。但是,當我手動查看頁面的源並提取一些鏈接來測試它的工作模式。
現在我不知道這裏出了什麼問題,我認爲我的模式有缺陷,我正在努力解決問題,或者Google可能會向我的代碼和瀏覽器發送不同的響應。我非常感謝能否對此問題有所瞭解。
我的圖案
string pattern = @"=("")?(https?:\/\/)?[\w.-]+\.[\w]*([/]?[\w]*)*("")?";
我的顯示屏代碼
Match match = Regex.Match(source, pattern);
if (match.Success)
{
foreach (var res in match.Groups)
{
Console.WriteLine(res);
}
Console.ReadKey();
}
我們需要的'source' ... –
把你的代碼和提取斷點任何數據附加到'source'和你的內容」我們將看看Google是如何展示您的程序的。 – Logarr
那麼這將是谷歌主頁的整體來源不知道是否適合發佈 –