在數(shù)據(jù)庫中,字符 型的數(shù)據(jù)是最多的,可以占到整個數(shù)據(jù)庫的80%以上。為此正確處理字符型的數(shù)據(jù),對于提高數(shù)據(jù)庫的性能有很大的作用。在字符型數(shù)據(jù)中,用的最多的就是 Char與Varchar兩種類型。前面的是固定長度,而后面的是可變長度?,F(xiàn)在我們需要考慮的是,在什么情況下使用Char字符型數(shù)據(jù),什么情況下采用 Varchar字符型數(shù)據(jù)。
一、VARCHAR與CHAR字符型數(shù)據(jù)的差異
在MySQL數(shù)據(jù)庫中,用的最多的字符型數(shù)據(jù)類型就是Varchar和Char.。這兩種數(shù)據(jù)類型雖然都是用來存放字符型數(shù)據(jù),但是無論從結(jié)構(gòu)還是 從數(shù)據(jù)的保存方式來看,兩者相差很大。而且其具體的實現(xiàn)方式,還依賴與存儲引擎。我這里就以大家最常用的MYISAM存儲引擎為例,談?wù)勥@兩種數(shù)據(jù)類型的 差異。在后續(xù)建議中,也是針對這種存儲類型而言的。
這里首先需要明白的一點是,這兩種數(shù)據(jù)類型,無論采用哪一種存儲引起,系統(tǒng)存儲數(shù)據(jù)的方式都是不同的。正是因為如此,我們才有必要研究兩者的不同。然后在合適的情況下,采用恰當(dāng)?shù)姆绞?。了解這一點之后,我們再來看后續(xù)的內(nèi)容。
Varchar往往用來保存可變長度的字符串。簡單的說,我們只是給其固定了一個最大值,然后系統(tǒng)會根據(jù)實際存儲的數(shù)據(jù)量來分配合適的存儲空間。為 此相比CHAR字符數(shù)據(jù)而言,其能夠比固定長度類型占用更少的存儲空間。不過在實際工作中,由于某系特殊的原因,會在這里設(shè)置例外。如管理員可以根據(jù)需要 指定ROW_FORMAT=FIXED選項。利用這個選項來創(chuàng)建MyISAM表的話,系統(tǒng)將會為每一行使用固定長度的空間。此時會造成存儲空間的損耗。通 常情況下,VARCHAR數(shù)據(jù)類型能夠節(jié)約磁盤空間,為此往往認為其能夠提升數(shù)據(jù)庫的性能。不過這里需要注意的是,這往往是一把雙刃劍。其在提升性能的同 時,往往也會產(chǎn)生一些副作用。如因為其長度是可變的,為此在數(shù)據(jù)進行更新時可能會導(dǎo)致一些額外的工作。如在更改前,其字符長度是10位(Varchar規(guī) 定的最長字符數(shù)假設(shè)是50位),此時系統(tǒng)就只給其分配10個存儲的位置(假設(shè)不考慮系統(tǒng)自身的開銷)。更改后,其數(shù)據(jù)量達到了20位。由于沒有超過最大 50位的限制,為此數(shù)據(jù)庫還是允許其存儲的。只是其原先的存儲位置已經(jīng)無法滿足其存儲的需求。此時系統(tǒng)就需要進行額外的操作。如根據(jù)存儲引擎不同,有的會 采用拆分機制,而有的則會采用分頁機制。
CHAR數(shù)據(jù)類型與VARCHAR數(shù)據(jù)類型不同,其采用的是固定長度的存儲方式。簡單的說,就是系統(tǒng)總為其分配最大的存儲空間。當(dāng)數(shù)據(jù)保存時,即使 其沒有達到最大的長度,系統(tǒng)也會為其分配這么多的存儲空間。顯然,這種存儲方式會造成磁盤空間的浪費。這里筆者需要提醒的一點是,當(dāng)字符位數(shù)不足時,系統(tǒng) 并不會采用空格來填充。相反,如果在保存CHAR值的時候,如果其后面有空值,系統(tǒng)還會自動過濾其空格。而在進行數(shù)據(jù)比較時,系統(tǒng)又會將空格填充到字符串 的末尾。
顯然,VARCHAR與CHAR兩種字符型數(shù)據(jù)類型相比,最大的差異就是前者是可變長度,而后者則是固定長度。在存儲時,前者會根據(jù)實際存儲的數(shù)據(jù) 來分配最終的存儲空間。而后者則不管實際存儲數(shù)據(jù)的長度,都是根據(jù)CHAR規(guī)定的長度來分配存儲空間。這是否意味著CHAR的數(shù)據(jù)類型劣于VARCHAR 呢?其實不然。否則的話,就沒有必要存在CHAR字符類型了。雖然VARCHAR數(shù)據(jù)類型可以節(jié)省存儲空間,提高數(shù)據(jù)處理的效率。但是其可變長度帶來的一 些負面效應(yīng),有時候會抵消其帶來的優(yōu)勢。為此在某些情況下,還是需要使用Char數(shù)據(jù)類型。
二、項目建議
根據(jù)上面的分析,我們知道VARCHAR數(shù)據(jù)類型是一把雙刃劍,其在帶來性能提升的同時,也可能會存在著一些額外的消耗。我們在評估到底是使用VARCHAR數(shù)據(jù)類型還是采用CHAR數(shù)據(jù)類型時,就需要進行均衡。在實際項目中,我們會考量如下情況。
一是根據(jù)字符的長度來判斷。如某個字段,像人的名字,其最長的長度也是有限的。如我們給其分配18個字符長度即可。此時雖然每個人的名字長度有可能 不同,但是即使為其分配了固定長度的字符類型,即18個字符長度,最后浪費的空間也不是很大。而如果采用NVARCHAR數(shù)據(jù)類型時,萬一以后需要改名, 而原先的存儲空間不足用來容納新的值,反而會造成一些額外的工作。在這種情況下,進行均衡時,會認為采用CHAR固定長度的數(shù)據(jù)類型更好。在實際項目中, 如果某個字段的字符長度比較短此時一般是采用固定字符長度。
二是考慮其長度的是否相近。如果某個字段其長度雖然比較長,但是其長度總是近似的,如一般在90個到100個字符之間,甚至是相同的長度。此時比較 適合采用CHAR字符類型。比較典型的應(yīng)用就是MD5哈希值。當(dāng)利用MD5哈希值來存儲用戶密碼時,就非常使用采用CHAR字符類型。因為其長度是相同 的。另外,像用來存儲用戶的身份證號碼等等,一般也建議使用CHAR類型的數(shù)據(jù)。
另外請大家考慮一個問題,CHAR(1)與VARCHAR(1)兩這個定義,會有什么區(qū)別呢?雖然這兩個都只能夠用來保存單個的字符,但是 VARCHAR要比CHAR多占用一個存儲位置。這主要是因為使用VARCHAR數(shù)據(jù)類型時,會多用1個字節(jié)用來存儲長度信息。這個管理上的開銷CHAR 字符類型是沒有的。
三是從碎片角度進行考慮。使用CHAR字符型時,由于存儲空間都是一次性分配的。為此某個字段的內(nèi)容,其都是存儲在一起的。單從這個角度來講,其不 存在碎片的困擾。而可變長度的字符數(shù)據(jù)類型,其存儲的長度是可變的。當(dāng)其更改前后數(shù)據(jù)長度不一致時,就不可避免的會出現(xiàn)碎片的問題。故使用可變長度的字符 型數(shù)據(jù)時,數(shù)據(jù)庫管理員要時不時的對碎片進行整理。如執(zhí)行數(shù)據(jù)庫導(dǎo)出導(dǎo)入作業(yè),來消除碎片。
四是即使使用Varchar數(shù)據(jù)類型,也不能夠太過于慷慨。這是什么意思呢?如現(xiàn)在用戶需要存儲一個地址信息。根據(jù)評估,只要使用100個字符就可 以了。但是有些數(shù)據(jù)庫管理員會認為,反正Varchar數(shù)據(jù)類型是根據(jù)實際的需要來分配長度的。還不如給其大一點的呢。為此他們可能會為這個字段一次性分 配200個字符的存儲空間。這VARCHAR(100)與VARCHAR(200)真的相同嗎?結(jié)果是否定的。雖然他們用來存儲90個字符的數(shù)據(jù),其存儲 空間相同。但是對于內(nèi)存的消耗是不同的。對于VARCHAR數(shù)據(jù)類型來說,硬盤上的存儲空間雖然都是根據(jù)實際字符長度來分配存儲空間的,但是對于內(nèi)存來 說,則不是。其時使用固定大小的內(nèi)存塊來保存值。簡單的說,就是使用字符類型中定義的長度,即200個字符空間。顯然,這對于排序或者臨時表(這些內(nèi)容都 需要通過內(nèi)存來實現(xiàn))作業(yè)會產(chǎn)生比較大的不利影響。所以如果某些字段會涉及到文件排序或者基于磁盤的臨時表時,分配VARCHAR數(shù)據(jù)類型時仍然不能夠太 過于慷慨。還是要評估實際需要的長度,然后選擇一個最長的字段來設(shè)置字符長度。如果為了考慮冗余,可以留10%左右的字符長度。千萬不能認為其為根據(jù)實際 長度來分配存儲空間,而隨意的分配長度,或者說干脆使用最大的字符長度。
更多信息請查看IT技術(shù)專欄