什麼是最好的數據庫類型(面向文檔,關係,鍵值等)來存儲一個HTML文件(小尺寸,〜最大700kb)進入數據庫?最好的數據庫來存儲HTML文件(或一般的文件)
目前我使用python的sqlite3,但它似乎變得非常緩慢,如果條目/文件的數量超過3000(.db文件大約是260mb然後)。除此之外,sqlite不適合多處理用例。
sqlite的模式是這樣的:
CREATE TABLE articles (url TEXT NOT NULL,published DATETIME,title TEXT, fetched TEXT NOT
NULL,section TEXT,PRIMARY KEY (url), FOREIGN KEY(url) references
contents(url));
CREATE TABLE contents(url TEXT NOT NULL,date DATETIME,content TEXT,PRIMARY KEY (url));
CREATE TABLE shares (url TEXT NOT NULL, date DATETIME,likes INTEGER NOT NULL,
totals INTEGER NOT NULL,clicks INTEGER, comments INTEGER NOT
NULL,share INTEGER NOT NULL,
tweets INTEGER NOT NULL,PRIMARY KEY(date,url),FOREIGN KEY (url)
REFERENCES articles(url));
和HTML文件到內容
你的sqlite3模式是怎樣的? –
出於好奇,爲什麼你不想將它們存儲在文件系統上? –
我不想,但我認爲我必須:)將它們存儲在文件系統上是由兩個原因造成的:a)在寫入sqlite-db時,寫入文件具有多處理能力(每個進程都可以寫入)不是的(你必須以另一種表示形式收集所有獲取的html文件,列表並將它們插入數據庫中的單個語句/進程中)。這可能是一個問題,當你處理> 1000個HTML文件.. b)也許我錯了,但我不知道它是否「製造」用於存儲HTML文件(可擴展性等)..是我提到,它很快就會很慢:) – dorvak