我有一個數據集,其中有一個名爲WebsiteData
的表中存儲了名爲Website
(類型VARCHAR
)的列中的數千個網址。有許多對URL(存儲在單獨的行中)是相同的,除了一個以www
開始,例如, www.google.com
,另一個不是,例如google.com
。我將如何設計一個標識這些僞重複項的SQL查詢並刪除不以www
開頭的版本?使用SQL查詢去除相似但不相同的URL
0
A
回答
1
我衍生2代表一個與具有www.
和一個沒有網址。通過添加www將它們加入在一起。到沒有的網站。
-- SELECT first to review the records.
select *
from
(select * from website where url not like 'www.%') wA
join
(select * from website where url like 'www.%') wB
on 'www.' + wa.url = wb.url
delete wA
from
(select * from website where url not like 'www.%') wA
join
(select * from website where url like 'www.%') wB
on 'www.' + wa.url = wb.url
0
使用SUBSTRING首先獲取網站部分。並與任何重複條目匹配並刪除它。
DELETE tableW
FROM tableW W
JOIN
(
select W1.website
FROM tableW W1
inner join tableW W2
on W1.website = SUBSTRING(W2.website,CHARINDEX('.',W2.website, 0)+1, LEN(w2.website))
) T
on T.website = W.website
相關問題
- 1. 用於排除具有相似值但不相同的行的SQL查詢
- 2. 使用SQL根據相似的ID查詢不同的對
- 3. SQL查詢計數除以相同查詢的不同計數
- 4. 表中的SQL查詢,但ID相同
- 5. SQL與子查詢相似
- 6. 的Sql相同的查詢,但示出了不同的結果
- 7. sql查詢總和相同的id,但不同的值?
- 8. 查詢相同ACCOUNT_ID,相同的狀態,但不是CURRENT_USER SQL鋼軌
- 9. 相同查詢但執行計劃不同,服務器相同
- 10. 相同的XPath查詢使用Google文檔,但不使用PHP
- 11. Django Trigram相似查詢速度不及原始查詢的結果相同
- 12. 相同的Neo4j查詢不使用JDBC
- 13. 使用不同但相似但沒有分支的對象
- 14. sql查詢不拉記錄相同
- 15. 匹配類似但不相同的列
- 16. PHP變量似乎是相同的,但它們並不相同
- 17. Ruby類似乎是相同的,但並不相同
- 18. SQL Server查詢運行SQLServer的內部罰款,但相同的查詢不JDBI
- 19. 相似性的MDX查詢
- 20. 不要重複自己:相同的SQL查詢,但兩個不同的表
- 21. 兩個字符似乎相同,但UTF-8編碼不相同
- 22. SQL Server - 相同的查詢,相同的數據庫,不同的結果
- 23. 多頁,但相同的查詢URL重寫
- 24. Sql加入類似的列,但不相同
- 25. 從python列表中刪除類似但不相同的列表
- 26. 相同的查詢
- 27. SQL服務器T SQL 2014(重複使用相同的查詢)
- 28. 相同的查詢使用相同的數據,不同的性能
- 29. Solr中的相似度/近似查詢
- 30. 這三個相似但不相同的問題。怎麼樣?
你應該知道這些不一定是重複的URL – Lamak 2014-09-25 15:40:31
你能否詳細說明一下? – zgall1 2014-09-25 15:51:01
好吧,只是因爲*通常*'www.someurl.com'指向'someurl.com',這並不意味着在所有的 – Lamak 2014-09-25 15:53:06