2016-05-15 151 views
0

我有一個問題,我無法從包含來自PHP表單內容的網站抓取內容。我假設這是問題,因爲所有其他網頁都沒有問題被抓取。我使用Nutch 1.11和Apache Solr 5.4.1將抓取的文檔編入索引。唯一獲取索引的文本是菜單鏈接中的樣板文本等。整個文本主體永遠不會被解析。
我目前正在這一隻除了那些允許在URL中執行一個PHP查詢,以便字符,如默認CONFIGS「?=」接受比這所有的默認設置等。 如果有人能解釋爲什麼這種情況我真的很感激它,我似乎無法將它作爲網上任何地方的問題。
下面是一個示例網站,我無法獲取要解壓縮和解析的正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我已經通過日誌,它說它解析了網址。它設法提取菜單文本,但沒有任何主要內容。正如我所說,域中的所有其他頁面都可以在沒有問題的情況下進行提取。Nutch不抓取頁面內容

回答

0

一般來說查詢網址是默認忽略,這是因爲他們可以有抓取的網站上了沉重的打擊(如查詢URL通常動態地從數據存儲/ DB產生的),爲了解決這個問題,請檢查文件,您將白名單的正則表達式放入其中,並在那裏明確說明接受的url模式 - 這將需要進行更改以允許查詢URL(帶有?的URL)。

文件感興趣的是所謂的:正則表達式,URLFILTER.TXT

,將有:

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

內容

對此事有趣的博客:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隸屬於