從HTML頁面中提取所有「標題」中具有特定字符串的「ul a」實體

以this page上的示例樣式，我試圖獲取所有可以應用特定名稱的感官一個基於維基百科消歧頁面的特定人物。從HTML頁面中提取所有「標題」中具有特定字符串的「ul a」實體

問題在於維基百科頁面非常不均勻。

的一個共同特點是，雖然名稱列表將在ul元素作爲一個鏈接出現a的一部分，並在鏈接的title=成分會有對我們正在尋找的名稱的引用。由於這些是關聯維基百科頁面的鏈接。

使用jsoup或其他方法，我怎麼能識別這些組件？

h2:contains(people) + ul a

^，對於當他們都在題爲People部分工作，但正如我所說，這並非總是如此。

也許在僞代碼，我們可以做這樣的事情：

ul a && title contains *String*

也許是這樣的：

a[href], [title]

，但只有部分匹配的標題，而不是整個事情。

This是一個非常非結構化的頁面，這樣的方法將被稱爲對的一個例子。

This是一個不重要的例子。

但我試圖做出一些概括性的東西，同樣適用於這兩種類型。

這種作品：

 Elements linx = docx.select("a:contains(Corzine)"); 

     for (Element linq : linx) 
     { 
      System.out.println(linq.text()); 
     }

，但也許一箇中你可能會在一個更好的解決方案命中。

2015-04-23 02:22:34

回答