2016-06-08 54 views
2

我正在做一個網頁瀏覽,使用美麗的湯提取一些文本。如何在python中的html頁面中獲得文本的偏移位置

我成功地從網頁中提取了所需的文字,但是我的新要求與我需要的文字一起提取文檔中實際開始和結束的文本的偏移號碼/位置。

有沒有可能爲此使用美麗的湯或任何有用的包?

請提供您的想法和建議...

感謝

回答

0

嘗試使用下面的代碼

import re 

DATA = "This is test message" 

for match in re.finditer(r'(?s)((?:[^\n][\n]?)+)', DATA): 
    print match.start(), match.end() 

輸出

相關問題