0
我正在處理大量的html文檔。我的任務之一是從文檔中提取所有文本。我已經得到了很多,但現在我因爲使用表格作爲容器/格式化結構來獲得非數字性質的信息而難住了在lxml中對錶格進行分類
我的目標是忽略 - 留下 - 不提取'表'是一個數字字段表
我準備實施基於暴力規則的方法,通過獲取一個表,並且如果超過一定比例的td.text_content()可以分類爲數字,我將決定該表是一張數值表
我想知道如果別人可以建議更好的方法
定義「數字字段表」 - 所有字段都包含數字?大多數字段可以通過int()來解析? ...? – delnan 2010-09-04 18:37:37
是不確定是否大多數((> 50%)是正確的閾值,但基本上是 – PyNEwbie 2010-09-04 19:20:53