嘿所以我開始研究Solr並就Solr的工作方式提出了一些問題。我知道模式定義了Solr應用程序中存儲和索引的內容。但是我對Solr如何知道「內容」是網站的內容還是URL是網址感到困惑?Solr的模式以及它是如何工作的
我的主要目標是我試圖從網站上提取的電話號碼,我想Solr中很好地吐出1234567890
嘿所以我開始研究Solr並就Solr的工作方式提出了一些問題。我知道模式定義了Solr應用程序中存儲和索引的內容。但是我對Solr如何知道「內容」是網站的內容還是URL是網址感到困惑?Solr的模式以及它是如何工作的
我的主要目標是我試圖從網站上提取的電話號碼,我想Solr中很好地吐出1234567890
您需要Solr的schema.xml中通過聲明的所有字段及其字段定義它類型。然後您可以查詢Solr以搜索任何字段。從網站http://wiki.apache.org/solr/SchemaXml
的Solr不會自動索引內容:
請參閱此。你需要告訴它如何索引你的內容。 Solr只知道你告訴它知道的內容。提取電話號碼聽起來非常簡單,因此編寫更新腳本或在線查找應該不是問題。祝你好運!
當你說「網站」和「網址」你想做什麼? – Ansari
@Ansari當我提到網站我的意思是整個網站,當我說網址我的意思是隻有鏈接。對困惑感到抱歉。我想要做的是有nutch抓取網站,然後推它solr,以便它可以索引url到電話號碼。 – Oak