html-parsing

6熱度

4回答

嘿所以我想要做的就是抓住第一段的內容。該字符串$blog_post包含以下格式有很多段落： Paragraph 1Paragraph 2Paragraph 3 我遇到的問題是，我寫一個正則表達式的第一標籤和第一閉合標籤之間搶的一切。然而，它抓住了第一個標籤和最後關閉標籤，這導致我抓住一切。這裏是我當前的代碼： if (pr

4熱度

6回答

轉換爲HTML字符串中的HTML實體

我試圖將包含HTML標記的HTML字符串中的>字符的所有實例轉換爲與其等效的HTML實體>。我用這個解決方案得到的最遠距離是使用正則表達式。這是我到目前爲止有： public static readonly Regex HtmlAngleBracketNotPartOfTag = new Regex("(?:<[^>]*(?:>|$))(>)", RegexOptions.Compiled |

1熱度

2回答

從網頁中提取含義全部內容

我正在通過使用我的抓取工具挖掘網頁內容來進行一些分析。網頁通常包含文章主體周圍的混亂（例如廣告，不必要的圖像和無關鏈接），從而將用戶從實際內容中分散出來。據我瞭解，提取合理的內容是一個難題，因爲沒有標準定義新聞報道/博客文章/論壇評論/文章在網頁中的實際位置。我能找到一些這樣的開源解決方案：https://metacpan.org/pod/HTML::ContentExtractor 但我很好

49熱度

4回答

如何在PHP中使用preg_replace時獲得匹配結果？

我想抓住幾個單詞的大寫字母，並將它們包裹在span標籤中。我使用preg_replace作爲提取和包裝目的，但它不輸出任何內容。 preg_replace("/[A-Z]/", "$1", $str)