2009-11-20 78 views
1

我有一個Drupal網站,其頁面由Google Mini Search Appliance索引。Drupal和Google Search Appliance(Google Mini)

在本週早些時候,我注意到一堆鏈接被標記爲索引,但被排除在外,因爲有一個「打印此頁」鏈接回到同一頁面並且具有rel =「nofollow」。我把nofollow拿出來,讓GSA在2天前重新編制網站。

現在,所討論的頁面在GSA中被標記爲索引,但它們沒有出現在網站的搜索結果中。

我可以在/ search/google_appliance/TERM搜索,並且它們不顯示。當我搜索其他條款時,它們確實顯示出來。換句話說,我知道GSA正在工作。

當我在/ search/node/TERM搜索[Drupal默認搜索]時,我得到了不同的Drupal結果[頁面中出現了術語顯示]。這讓我很確定我正在擊中GSA。

關於爲什麼新索引的頁面沒有出現在GSA搜索中的任何想法?

編輯/已解決: 有幾個問題。以前,搜索使用xslt來處理它如何顯示頁面,以及當您點擊提交時(在設備上,而不是網站上的提交按鈕),它在頁面上發送查詢的位置。查詢字符串以舊格式傳遞到網站,然後給出404(同樣的事情,如果您搜索bookstore.site.com和origin.site.com)。更多的'不能從這裏到達'比任何搜索都要做的問題更困難。我已經刪除了xslt,因此它只是使用默認的Google外觀和感覺,並且可以讓我們對設備的數據庫進行很好的通用搜索。

但是,仍然有一些奇怪的搜索結果回來,Drupal模塊無法解析,並且日誌被simplexml_load_string()[function.simplexml-load-string]命中:^在\ sites \ all \ modules中\ google_appliance \ GoogleMini.php on line 318.

我嘗試了一些查詢字符串變量並註釋掉了設置輸出編碼的行,並且所有行爲似乎都行得通。 有問題的行是google_appliance.module行322:

$gm->setOutputEncoding('utf8'); 
+0

這方面的進展如何?你有沒有找到任何有助於減少要考慮的假設/幫助追蹤問題的信息? – mac

回答

2

我不是100%肯定,我收到了你的問題的權利。我在這裏假設:

  1. 什麼GSA丟失索引是從其中有鏈接「打印此頁」(而不是假設這些網頁索引的網頁和問題是在索引的打印版本這樣的頁面)
  2. 下位意味着你可以找到包含其他條款,而不是你能找到缺頁,如果你與另一個術語搜索它們的其他頁面。

我可以在/ search/google_appliance/TERM搜索並且不顯示。當我搜索其他條款時,它們確實顯示出來。換句話說,我知道GSA正在工作

請糾正我,如果我誤解了你的問題。如果我錯了,請提供一些關於您使用的術語的更多細節。

但是,這是什麼II將用於識別問題的根源做(儘管我可能會在這個精確的順序做這些):

  1. 我會試着去了解哪些與衆不同「壞頁面」的元素(如果有)會觸發奇怪的行爲。看來你已經完成了一些挖掘工作,並將其視爲打印鏈接的罪魁禍首。你是否通過完全刪除鏈接來驗證這一點,並看看在這種情況下頁面是否正確索引?
  2. 我會檢查robots.txt是否有任何可能干擾索引的規則。 GSA贊同該文件,例如,如果您的網頁的網址以/admin/開頭,則這些網頁將被跳過。
  3. 我會檢查我的網頁是否有某種限制其視圖的訪問控制。如果是這樣,我會檢查GSA has been configured for that。 (當然這同樣適用於未發佈的頁面,您必須是管理員才能查看或使用外部應用程序將其編入索引)。
  4. 我不確定GSA是否使用sitemap.xml來執行索引。但是,我會檢查Drupal生成的sitemap.xml文件(如果有的話)檢查公然錯誤,如優先級設置爲0,例如。如果你還沒有這樣的文件,並且知道GSA使用它,我會嘗試生成一個with the appropriate module,看看是否可以解決問題。
  5. 我會inspect the sitemap generated by GSA看看它是否顯示任何公然異常也。這顯然不是問題,但任何形式的自我解釋異常都可能使你走上正軌。
  6. 我問題不是特定於頁面結構(請參閱此列表的第1點)我將開始系統性地搜索什麼是非結構元素生成錯誤。一個不同的主題是否解決了這個問題。停用給定的模塊是否可以解決問題? (也許問題出在元標籤上?也許是用「打印此頁」模塊?也許模塊會將這些頁面的語言設置爲與網站其餘部分不同的語言?)。所有這些都是不太可能的,但在用大錘擊碎GSA之前,我也會嘗試。
  7. 我會通過(可能是第N次)所有的settings of my GSA

以上所有 - 如果我有機會 - 我會與同伴一起做。他或她可以幫助排除「人爲因素」作爲問題的根源(即配置面板中的小複選框對他/她而言非常重要,但以前您從未注意過)。

如果您設法找出有關正在進行的更多提示,請在此處將其回報。如果這是drupal方面的問題,我很確定我或者其他一些優秀的「drupalists」懸掛在SO上能夠提供幫助。

HTH!

0

我最近苦於類似的東西。

一個建議在這裏 - 選擇一個你知道有搜索詞的頁面。在瀏覽器中打開頁面的HTML,並確保您看到該字詞。絕對確定。

接下來,將該URL作爲抓取中的起始頁之一放入。

爬網後,進入搜索診斷並深入該頁面。你看到它爬行嗎?好的,好,現在看看頁面的緩存。在「鏈接到此頁面」右下方應該是一個名爲「緩存版本」的超鏈接。看那個。你可能會驚喜!我當然是。

相關問題