2010-01-02 81 views
1

我需要指導如何計算GoogleShare的幾個術語。計算Google的N條款

例如,採取以下基本條件:

  • 「湯姆·克魯斯」 = 1200萬頁
  • 「約翰·特拉沃爾塔」 = 4,900,000

現在,如果我們添加第二項:

  • 「湯姆·克魯斯」 + 「科學教」 = 784,000頁
  • 「約翰·特拉沃爾塔」 + 「科學教」 = 331000頁

所以GoogleShare的湯姆·克魯斯和山達基是(784000 * 100/12000000)= 6.53%,而John Travolta和Scientology的GoogleShare爲(331000 * 100/4900000)= 6.76%


現在,如果我們增加第三個任期到我們的查詢:

  • 「湯姆·克魯斯」 + 「科學教」 + 「的StackOverflow」
  • = 100頁「 John Travolta「 + 」科學教「 + 」StackOverflow「 = 181

現在應該如何計算GoogleShare百分比?

// Tom Cruise 
100 * 100/784000 = 0.01% // StackOverflow/Scientology 
// or... 
100 * 100/12000000 = 0.00083% // StackOverflow/Tom Cruise 

// John Travolta 
181 * 100/331000 = 0.05% // StackOverflow/Scientology 
// or... 
181 * 100/4900000 = 0.00369% // StackOverflow/John Travolta 

約翰特拉沃爾塔似乎比SO社區內的湯姆克魯斯科學家多5倍。

什麼是計算GoogleShare of N terms的正確方法?

+1

想想維恩圖吧! – James 2010-01-02 13:27:22

回答

1

這取決於。首先,讓我們爲GoogleShare的內容奠定一些基礎。

考慮您的搜索

"Tom Cruise" + "Scientology" 
"John Travolta" + "Scientology" 

你計算什麼,當你計算這裏的GoogleShare的是搜索爲"Scientology"百分比還含有"Tom Cruise"與搜索的"Scientology"百分比也含有"John Travolta"。因此,要計算這個方法如下:

Google search for "Scientology": 4,730,000 hits 

對比:

Google search for "Tom Cruise" and "Scientology": 825,000 hits 
Google search for "John Travolta" and "Scientology": 340,000 hits 

因此,"Scientology""Tom Cruise" GoogleShare的是17.44%。 "John Travolta"GoogleShare of "Scientology"爲7.18%。我們說相對於"Tom Cruise"更多地連接到"Scientology"而不是"John Travolta"連接到"Scientology"。因此,我注意到您在中的GoogleShare "Tom Cruise"與GoogleShare "John Travolta"的初始計算不正確。關鍵是弄清楚你的基本搜索是什麼(這裏是"Scientology")以及你想看看他們在這個空間上的份額是什麼(這裏是"Tom Cruise""John Travolta")。

現在考慮搜索

"Scientology" + "Tom Cruise" + keyword 

"Scientology" + "John Travolta" + keyword. 

有兩種方法來查看這一點。您是否試圖在("Scientology" + keyword)的空間中測量"Tom Cruise""John Travolta"的份額,或者您是否想要測量"Scientology"空間中的"Tom Cruise" + keyword的份額?這些不同。

Google search for "Scientology" + "StackOverflow": 34,300 

Google search for "Tom Cruise" and "Scientology" and "StackOverflow": 1,360 
Google search for "John Travotla" and "Scientology" and "StackOverflow": 1,660 

如果你想的"Tom Cruise""John Travolta"在("Scientology" + "StackOverflow")的空間共享你計算:

"Tom Cruise": 1360/34300 = 3.97% 
"John Travolta": 1660/34300 = 4.84% 

如果你想在空間的"Tom Cruise" + "StackOverflow""John Travolta" + "StackOverflow"份額"Scientology"你會計算:

"Tom Cruise" + "StackOverflow": 1360/4730000 = .0029% 
"John Travolta" + "StackOverflow" : 1660/4730000 = .0035% 

你看,這一切都取決於發現你的基本搜索是什麼,以及你嘗試的術語是什麼,找到他們在這個基本術語中的份額。在第一個版本中,我們的基本搜索是"Scientology" + "StackOverflow",我們看到有什麼份額"Tom Cruise""John Travolta"有這個空間。在第二個版本中,我們的基本搜索是"Scientology",我們看到在此空間中共享"Tom Cruise" + "StackOverflow""John Travolta" + "StackOverflow"

0

這取決於你在做什麼。第一個數字是Stack Overflow被提及的比例,它顯示了Tom Cruise和Scientology的所有結果的比例,第二個數字是Stack Overflow和Scientology作爲顯示Tom Cruise的所有結果的比例。

1

我沒有看到N個術語和2個術語之間的差異。無論何時您有超過1個字詞,您都隱式地使用GoogleShare 相對於某個初始搜索字詞。對於任何N> = 2,針對窄查詢的每個子集都有多個GoogleShares。

您聲明「湯姆克魯斯和科學教育的GoogleShare」爲6。53%,但這有些誤導,因爲術語「」傾向於暗示某種對稱性,您可以在不改變含義的情況下切換「Tom Cruise」和「Scientology」。實際上並非如此,因爲你的初始任期是「湯姆克魯斯」。

也許你計算得分的更好的描述是說「湯姆克魯斯 a'科學教育'GoogleShare 6.53%。」這消除了所有含糊不清的情況,因爲現在我們知道「湯姆克魯斯」6.53%的時間與「科學論」一起出現,而不是相反(即Scientology結果的6.53%提到湯姆克魯斯)。

當你這樣想時,相應的對N個術語的泛化就會落空。只需在「已擁有/已擁有」之前加上任何您想要的最初條款,以及您之後喜歡的任何其他縮小條款。根據您提供的數字,您可以說「John Travolta的科學論文參考文獻的堆棧溢出GoogleShare爲0.05%」,或者「John Travolta的科學論文堆棧溢出GoogleShare爲0.00369%」。選擇哪種方式在上下文中更具信息性。