2013-05-13 30 views
0

我想編寫一個腳本來檢查關鍵字 文檔並指定包含它們的html文檔節點(可能 分配唯一標識符)。獲取html文檔中的節點包含單詞

我不是一個專業的程序員,也不知道底層語言和PLO的實力。我害怕做一些非常糟糕和不受支持的事情。

如何隔離所需的節點?

我的經驗 - js和php - php僅適用於非常簡單的事情。另外,我 不想使用此機會與js節點一起工作 。我的想法:

  • 使HTML
  • 一串驗證的話存在的頁面
  • 上,如果頁面上的字存在:在主體元素,我得到第一個和最後一個位置 的foreach節點(例如,我們看到每個字符的開始標籤,我們最初知道的位置爲 ,因此我們計算第一個 位置,其中標籤打開,最後在關閉位置,以此類推)。

我們知道這個詞(如192,199 )的位置和在什麼範圍內它得到了檢查(在這種情況下 ,這些樂隊 - 節點html文件)。

我需要有經驗的程序員的想法。 無論你是什麼語言 編程(除了面向網絡) - 每一個意見對我來說都很重要。有可能是 有庫解決這樣的 問題。我非常希望你會 瞭解我。英語不是我的本地語言 。

回答

1

我總是建議Beautiful Soup這種事情。它是一個Python庫,允許您真正快速地解析XML/HTML文檔。你可以很快得到一些東西,從每個div元素中提取我想象中的文本。然後使用Pythons內置的字符串操作工具,我確定搜索特定的單詞會相當簡單。

相關問題