目前,我在data_article_key_terms表中有大約900,000個條目,以將關鍵術語與其各自的文章相關聯。目標是能夠選擇任意日期範圍,並根據該日期範圍內的文章顯示前15個關鍵字詞。按頻率和日期範圍排列關鍵字
我正在運行的問題是,我正在運行的查詢需要將近6秒,但我需要它比這更快。我意識到這是基於我正在運行的系統的相對基礎,我可以使用更多功率的機器,但我試圖在我走這條路線之前儘可能地優化它。
我使用InnoDB作爲MySQL存儲引擎來保持數據的完整性。據我瞭解,MyISAM的計數(*)更快,但使用該引擎也不是一種選擇。
我也考慮過將關鍵項計數存儲在基於固定時間範圍的表中,但這最終會導致大量數據存儲和跟蹤。
有沒有人有關於如何優化這種體驗的好建議?
我有以下表格:
該表存儲文章:
CREATE TABLE `data_article` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`connection_id` int(11) NOT NULL,
`folder_id` int(11) NOT NULL,
`user_id` int(11) NOT NULL,
`uid` varchar(100) NOT NULL,
`date` date NOT NULL,
`influencer_id` int(11) NOT NULL,
PRIMARY KEY (`id`),
KEY `data_article_5930b15a` (`connection_id`),
KEY `data_article_4e5f642` (`folder_id`),
KEY `data_article_fbfc09f1` (`user_id`),
KEY `data_article_43ae76a1` (`influencer_id`),
KEY `data_article_date` (`date`),
CONSTRAINT `connection_id_refs_id_b2ae9152` FOREIGN KEY (`connection_id`) REFERENCES `account_connection` (`id`),
CONSTRAINT `folder_id_refs_id_e343586a` FOREIGN KEY (`folder_id`) REFERENCES `account_folder` (`id`),
CONSTRAINT `influencer_id_refs_id_45cd3615` FOREIGN KEY (`influencer_id`) REFERENCES `data_influencer` (`id`),
CONSTRAINT `user_id_refs_id_aca13cc9` FOREIGN KEY (`user_id`) REFERENCES `auth_user` (`id`)
)
此表存儲關鍵術語:
CREATE TABLE `data_keyterm` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`term` varchar(100) NOT NULL,
PRIMARY KEY (`id`),
KEY `data_keyterm_term` (`term`)
)
此表存儲文章和關鍵術語之間的關係:
CREATE TABLE `data_article_key_terms` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`article_id` int(11) NOT NULL,
`keyterm_id` int(11) NOT NULL,
PRIMARY KEY (`id`),
UNIQUE KEY `article_id` (`article_id`,`keyterm_id`),
KEY `data_article_key_terms_30525a19` (`article_id`),
KEY `data_article_key_terms_1d848ca4` (`keyterm_id`),
CONSTRAINT `article_id_refs_id_d87be8f5` FOREIGN KEY (`article_id`) REFERENCES `data_article` (`id`),
CONSTRAINT `keyterm_id_refs_id_50d233f8` FOREIGN KEY (`keyterm_id`) REFERENCES `data_keyterm` (`id`)
)
個
與該物品相關的該表存儲有影響力:
CREATE TABLE `data_influencer` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(100) NOT NULL,
`title` varchar(100) NOT NULL,
`email` varchar(100) NOT NULL,
`active` tinyint(1) NOT NULL,
`user_id` int(11) NOT NULL,
PRIMARY KEY (`id`),
KEY `data_influencer_fbfc09f1` (`user_id`),
KEY `data_influencer_name` (`name`),
CONSTRAINT `user_id_refs_id_b1bb5d4f` FOREIGN KEY (`user_id`) REFERENCES `auth_user` (`id`)
)
這是SQL語句我使用基於時間範圍內,他們組拉的關鍵字,並責令其按頻率:
SELECT dk.id, dk.term as term, COUNT(dk.id) as count
FROM data_keyterm dk
INNER JOIN data_article_key_terms dakt ON dakt.keyterm_id = dk.id
INNER JOIN data_article da ON da.id = dakt.article_id
INNER JOIN data_influencer di ON di.id = da.influencer_id
WHERE da.user_id = 1
AND da.date between '2010-08-07' AND '2012-08-07'
AND di.active = True
GROUP BY dk.id
ORDER BY count DESC
LIMIT 15;
您最後的SQL語句看起來不是有效的GROUP BY語句。你可以仔細檢查? – Olaf 2012-08-07 15:01:49
是的,這是正確的,這個聲明運行沒有問題。 – bmorrise 2012-08-07 15:04:01
@Olaf:這不是有效的SQL GROUP BY子句,但[它在MySQL中有效](http://dev.mysql.com/doc/refman/5.0/en/group-by-hidden-columns.html)。 – 2012-08-07 15:40:31