2015-05-11 62 views
0

如何獲取網址不是通過標題,而是通過鏈接描述(在這種情況下,「następnastrona」這意味着下一頁)與HTML代碼? 更具體地繪製它是文本按名稱搜索地址鏈接 - Jsoup

<a href="/w/index.php?title=Kategoria:angielski_(indeks)&amp;pagefrom=abstract+art#mw-pages" title="Kategoria:angielski (indeks)">następna strona</a> 

package outerDictionary; 

import java.io.IOException; 
import java.util.ArrayList; 
import java.util.List; 

import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 

public class adressWWW { 


    public static void main(String[] args) { 
     Document doc; 
     List<String> wikiWords = new ArrayList<String>(); 
     String addresWWW="http://pl.wiktionary.org/w/index.php?title=Kategoria:angielski_(indeks)&pagefrom=abducent#mw-pages"; 



      try { 
       doc = Jsoup .connect(addresWWW).get(); 

       String title = doc.title(); 
       System.out.println(title); 

       //Element inDiv = doc.select("a[title=Kategoria:angielski (indeks)]").first(); 
       Element inDiv = doc.select("a[title=Kategoria:angielski (indeks)]następna strona").first(); 
       System.out.println(inDiv); 
       String row = inDiv.attr("abs:href"); 
       System.out.println("xxx "+row);  

       // System.out.println(row.text());} 
      } catch (IOException e) { 
       // TODO Auto-generated catch block 
       e.printStackTrace(); 
      } 
      for (String x : wikiWords) 
       System.out.println(x); 

      System.out.println(wikiWords.size()); 

    }} 
+0

試試'doc.select(「a [href * =następnastrona]」)',它應該爲您提供您發佈的示例鏈接。 – JonasCz

回答

0

您可以測試各個環節的文本之間的鏈接名稱的網絡地址:

Document doc = Jsoup.connect("http://pl.wiktionary.org/w/index.php?title=Kategoria:angielski_(indeks)&pagefrom=abducent#mw-pages").get(); 

for(Element element : doc.select("a")) 
{ 
    if(element.text().equalsIgnoreCase("następna strona")) 
    { 
     System.out.println(element); 
    } 
} 

或者使用selector syntax

// ... 

for(Element element : doc.select("a:contains(następna strona)")) 
{ 
    System.out.println(element); 
} 

在這兩種情況下,結果是:

<a href="/w/index.php?title=Kategoria:angielski_(indeks)&amp;pagefrom=abstract+art#mw-pages" title="Kategoria:angielski (indeks)">następna strona</a> 
<a href="/w/index.php?title=Kategoria:angielski_(indeks)&amp;pagefrom=abstract+art#mw-pages" title="Kategoria:angielski (indeks)">następna strona</a>