解析HTML爲句子 - 如何處理表/列表/標題/等？

你如何解析一個包含自由文本，列表，表格，標題等的HTML頁面到句子中？例如解析HTML爲句子 - 如何處理表/列表/標題/等？

自由文本：http://en.wikipedia.org/wiki/Neurotransmitter#Discovery
名單：http://en.wikipedia.org/wiki/Neurotransmitter#Actions
表：http://en.wikipedia.org/wiki/Neurotransmitter#Common_neurotransmitters

與蟒蛇NLTK亂搞後，我想測試一下這些不同的語料庫註釋方法（從http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-of-annotation-to-include）：

單詞標記：正文形式的文本不能明確標識其標記。除了傳統的拼寫版本之外，標記化和標準化版本可能是非常方便的資源。
句子分割：正如我們在第3章中看到的那樣，句子分割可能比看起來更難。因此一些語料庫使用明確的註釋來標記句子分段。
段落分割：段落和其他結構元素（標題，章節等）可能被明確註釋。
言語部分：文檔中每個單詞的句法分類。
句法結構：顯示句子組成結構的樹形結構。
淺語義：命名實體和共同註釋，語義角色標籤。
對話與話語：對話行爲標籤，修辭結構

一旦你打破一個文檔分成句子似乎很簡單。但是，你如何去分解那些來自維基百科頁面的HTML？我非常熟悉使用HTML/XML解析器並遍歷樹，我試圖剝離HTML標籤來獲取純文本，但是因爲在刪除HTML之後缺少標點符號，所以NLTK不會解析表格單元格，甚至正確列出。

是否有一些最佳做法或NLP解析這些東西的策略？或者你是否需要手動編寫特定於該單獨頁面的解析器？

只是在正確的方向尋找一些指針，真的想試試這個NLTK了！

來源

2012-06-30 Lance Pollard

您是否嘗試過在剝離的文本中使用Punkt（它在NLTK中實現）以查看是否可以讓您獲得任何位置？ – dmh

我的非正式觀察是解析器通常在處理和表示顯示文本方面不好（而不是運行散文）。如果你找到或設計出一個好的解決方案，請在這裏跟進！ – tripleee

聽起來就像你剝離了所有的HTML並生成一個平面文檔，由於鬆散的碎片粘在一起，這會使解析器混淆。由於您對XML有豐富的經驗，因此建議將輸入映射到一個簡單的XML結構，以保持各個部分獨立。你可以儘可能地簡單，但也許你會想保留一些信息。例如，標題標題，章節標題等可能是有用的。當你有一個可操作的XML樹使塊保持獨立時，使用XMLCorpusReader將其導入到NLTK Universe中。

來源

2012-07-01 16:33:01 alexis

我必須編寫特定於我正在分析的XML文檔的規則。

我所做的是將html標籤映射到段。該映射基於研究多個文檔/頁面並確定html標籤所代表的內容。例如， <h1>是一個短語段; <li>是段落; <td>是令牌

如果您想使用XML，則可以將新映射表示爲標記。例如， <h1>至<短語>; <li>至<段落>; <TD>到<令牌>

如果你想在純文本的工作，你可以代表映射爲一組字符的（例如：[PHRASESTART] [PHRASEEND]），就像POS或EOS標識。

來源

2013-12-06 23:44:28 ezio808

你可以使用像python-goose這樣的工具，它旨在從html頁面中提取文章。

否則，我做了以下的小程序，讓好樣的結果：

from html5lib import parse 


with open('page.html') as f: 
    doc = parse(f.read(), treebuilder='lxml', namespaceHTMLElements=False) 

html = doc.getroot() 
body = html.xpath('//body')[0] 


def sanitize(element): 
    """Retrieve all the text contained in an element as a single line of 
    text. This must be executed only on blocks that have only inlines 
    as children 
    """ 
    # join all the strings and remove \n 
    out = ' '.join(element.itertext()).replace('\n', ' ') 
    # replace multiple space with a single space 
    out = ' '.join(out.split()) 
    return out 


def parse(element): 
    # those elements can contain other block inside them 
    if element.tag in ['div', 'li', 'a', 'body', 'ul']: 
     if element.text is None or element.text.isspace(): 
      for child in element.getchildren(): 
       yield from parse(child) 
     else: 
      yield sanitize(element) 
    # those elements are "guaranteed" to contains only inlines 
    elif element.tag in ['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']: 
     yield sanitize(element) 
    else: 
     try: 
      print('> ignored', element.tag) 
     except: 
      pass 


for e in filter(lambda x: len(x) > 80, parse(body)): 
    print(e)

來源

2016-11-10 20:38:56 amirouche

由於alexis回答，python-goose可能是一個不錯的選擇。

也有HTML Sentence Tokenizer，一個（新）圖書館，旨在解決這個確切的問題。它的語法非常簡單。在一行parsed_sentences = HTMLSentenceTokenizer().feed(example_html_one)中，您可以獲取存儲在數組parsed_sentences中的HTML頁面中的句子。

來源

2018-02-01 17:37:05 BlueOxile

解析HTML爲句子 - 如何處理表/列表/標題/等？

回答

相關問題