html-parsing

    6熱度

    4回答

    嘿所以我想要做的就是抓住第一段的內容。該字符串$blog_post包含以下格式有很多段落: <p>Paragraph 1</p><p>Paragraph 2</p><p>Paragraph 3</p> 我遇到的問題是,我寫一個正則表達式的第一<p>標籤和第一閉合</p>標籤之間搶的一切。然而,它抓住了第一個<p>標籤和最後關閉</p>標籤,這導致我抓住一切。 這裏是我當前的代碼: if (pr

    4熱度

    6回答

    我試圖將包含HTML標記的HTML字符串中的>字符的所有實例轉換爲與其等效的HTML實體>。我用這個解決方案得到的最遠距離是使用正則表達式。 這是我到目前爲止有: public static readonly Regex HtmlAngleBracketNotPartOfTag = new Regex("(?:<[^>]*(?:>|$))(>)", RegexOptions.Compiled |

    1熱度

    2回答

    我正在通過使用我的抓取工具挖掘網頁內容來進行一些分析。網頁通常包含文章主體周圍的混亂(例如廣告,不必要的圖像和無關鏈接),從而將用戶從實際內容中分散出來。 據我瞭解,提取合理的內容是一個難題,因爲沒有標準定義新聞報道/博客文章/論壇評論/文章在網頁中的實際位置。 我能找到一些這樣的開源解決方案:https://metacpan.org/pod/HTML::ContentExtractor 但我很好

    49熱度

    4回答

    我想抓住幾個單詞的大寫字母,並將它們包裹在span標籤中。我使用preg_replace作爲提取和包裝目的,但它不輸出任何內容。 preg_replace("/[A-Z]/", "<span class=\"initial\">$1</span>", $str)