我試圖使用反向標記Ruby gem將HTML頁面轉換爲Markdown。不幸的是它失敗:在Ruby中自動解決未關閉的HTML標記
/usr/lib/ruby/1.9.1/rexml/parsers/treeparser.rb:95:in `rescue in parse': #<REXML::ParseException: Missing end tag for 'img' (got "td") (REXML::ParseException)
源包含一些IMG
,INPUT
等標籤來結束與>
,而不是/>
。
我已經試過tidy_ffi寶石:
doc = Nokogiri::HTML(TidyFFI::Tidy.new(Nokogiri::HTML(page).to_html,
:numeric_entities => 1,
:output_html => 1,
:merge_divs => 0,
:merge_spans => 0,
:join_styles => 0,
:clean => 1,
:indent => 1,
:wrap => 0,
:drop_empty_paras => 0,
:literal_attributes => 1).clean)
但並沒有區別。有什麼建議麼?
請顯示一些HTML樣本。 –
你在哪一點得到錯誤?向我們展示相關代碼,請 –
HTML從哪裏來?降價處理器? –