這篇文章主要介紹了oracle并行操作的并行查詢技術(shù),需要的朋友可以參考下。
oracle數(shù)據(jù)庫的并行操作特性,其本質(zhì)上就是強行榨取除數(shù)據(jù)庫服務(wù)器空閑資源(主要是cpu資源),對一些高負荷大數(shù)據(jù)量數(shù)據(jù)進行分治處理。并行操作是一種非確定性的優(yōu)化策略,在選擇的時候需要小心對待。目前,使用并行操作特性的主要有下面幾個方面:
parallel query:并行查詢,使用多個操作系統(tǒng)級別的server process來同時完成一個sql查詢;
parallel dml:并行dml操作。類似于parallel query。當要對大數(shù)據(jù)量表進行dml操作,如insert、update和delete的時候,可以考慮使用;
parallel ddl:并行ddl操作。如進行大容量數(shù)據(jù)表構(gòu)建、索引rebuild等操作;
parallel recovery,并行恢復(fù)。當數(shù)據(jù)庫實例崩潰重新啟動,或者進行存儲介質(zhì)恢復(fù)的時候,可以啟動并行恢復(fù)技術(shù)。從而達到減少恢復(fù)時間的目的;
procedural parallel,過程代碼并行化。對我們編寫的代碼片段、存儲過程或者函數(shù),可以實現(xiàn)執(zhí)行的并行化,從而加快執(zhí)行效率;
1、并行查詢parallel query
oracle數(shù)據(jù)庫的并行查詢是比較基礎(chǔ)的技術(shù),也是olap和oracle data warehouse經(jīng)常使用的一種并行技術(shù)。同本系列前面一直強調(diào)的要素相同,在確定使用并行技術(shù)之前,要確定軟硬件的一些先決條件:
任務(wù)task必要條件。備選進行并行操作的任務(wù)task必須是一個大任務(wù)作業(yè),比如,長時間的查詢。任務(wù)時間通??梢砸苑昼?、小時進行計數(shù)。只有這樣的任務(wù)和需要,才值得讓我們冒險使用并行操作方案;
資源閑置條件。只有在數(shù)據(jù)庫服務(wù)器資源存在閑置的時候,才可以考慮進行并行處理。如果經(jīng)常性的繁忙,貿(mào)然使用并行只能加劇資源的爭用。
并行操作最大的風險在于并行爭用引起的效率不升反降。所以,要在確定兩個前提之后,再進行并行規(guī)劃處理。
2、環(huán)境準備
首先,準備實驗環(huán)境。由于筆者使用的一般家用pc虛擬機,所以并行度和存儲量不能反映真實條件需求,見諒。
sql> select * from v$version where rownum<2;
banner
--------------------------------------------------------------------------------
oracle database 11g enterprise edition release 11.2.0.1.0 - production
sql> select count(*) from t;
count(*)
----------
1160704
選擇11gr2服務(wù)器環(huán)境,數(shù)據(jù)表t總數(shù)據(jù)量超過一百萬。
首先,我們觀察一下不使用并行的執(zhí)行情況。
//提取出使用游標信息;
sql> select sql_text, sql_id, version_count from v$sqlarea where sql_text like 'select count(*) from t%';
sql_text sql_id version_count
------------------------------ ------------- -------------
select count(*) from t 2jkn7rpsbj64t 2
sql> select * from table(dbms_xplan.display_cursor('2jkn7rpsbj64t',format => 'advanced', cursor_child_no => 0));
plan_table_output
--------------------------------------------------------------------------------
sql_id 2jkn7rpsbj64t, child number 0
-------------------------------------
select count(*) from t
plan hash value: 2966233522
-------------------------------------------------------------------
| id | operation | name | rows | cost (%cpu)| time |
-------------------------------------------------------------------
| 0 | select statement | | | 4464 (100)| |
| 1 | sort aggregate | | 1 | | |
| 2 | table access full| t | 1160k| 4464 (1)| 00:00:54 |
-------------------------------------------------------------------
該執(zhí)行計劃中沒有使用并行特性,進行全表掃描。執(zhí)行時間為54s。
3、并行查詢計劃
首先,我們設(shè)置相應(yīng)的并行度。設(shè)置并行度有兩種方式,一種是使用hint加在特定的sql語句上。另一種是對大對象設(shè)置并行度屬性。
前者的優(yōu)點是帶有一定的強制性和針對性。就是指定特定的sql語句進行并行處理。這樣的優(yōu)點是易于控制并行度,缺點是帶有很強的強制力,當數(shù)據(jù)量偏小的時候,使用并行優(yōu)勢不大。而且如果是顯示指定并行度,又會帶來移植伸縮性差的缺點。
后者通過對象的屬性指定并行度。就將并行作為一種執(zhí)行手段,提供給優(yōu)化器進行選擇。這樣,cbo會根據(jù)系統(tǒng)中資源的情況和數(shù)據(jù)的實際,進行執(zhí)行計劃生成。計劃中可能是并行,也可能不是并行。這樣的優(yōu)點是將并行與否交予優(yōu)化器cbo去判斷,缺點是并行的濫用風險。
此處,筆者設(shè)置自動確定并行度的方式。
sql> alter table t parallel;
table altered
sql> select count(*) from t;
count(*)
----------
1160704
當啟動查詢時,oracle中的并行伺候進程池會根據(jù)系統(tǒng)中的負荷和實際因素,確定分配出的并行進程數(shù)量。此時,我們可以通過視圖v$px_process來查看進程池中的連接信息。
sql> select * from v$px_process;
server_name status pid spid sid serial#
----------- --------- ---------- ------------------------ ---------- ----------
p000 available 25 5776
p001 available 26 5778
注意,并行伺候進程是一種特殊的server process,本質(zhì)上是一種可共享的slave進程。專用連接模式下,一般的server process與client process是“同生共死”的關(guān)系,終身服務(wù)于一個client process。而伺候slave進程是通過進程池進行管理的,一旦啟動初始化,就會在一定時間內(nèi)駐留在系統(tǒng)中,等待下次并行處理到來。
此時,我們檢查v$process視圖,也可以找到對應(yīng)的信息。
sql> select * from v$process;
pid spid pname username serial# program
-------- ---------- ------------------------ ----- --------------- ---------- -------------------------------
25 5776 p000 oracle 13 oracle@oracle11g (p000)
26 5778 p001 oracle 6 oracle@oracle11g (p001)
(篇幅由于原因,予以省略……)
32 rows selected
對應(yīng)的os中,也存在相應(yīng)的真實進程伺候。
[oracle@oracle11g ~]$ ps -ef | grep oracle
(篇幅由于原因,予以省略……)
oracle 5700 1 0 17:29 ? 00:00:02 oraclewilson (local=no)
oracle 5723 1 0 17:33 ? 00:00:00 ora_smco_wilson
oracle 5764 1 2 17:40 ? 00:00:05 oraclewilson (local=no)
oracle 5774 1 0 17:42 ? 00:00:00 oraclewilson (local=no)
oracle 5776 1 0 17:43 ? 00:00:00 ora_p000_wilson
oracle 5778 1 0 17:43 ? 00:00:00 ora_p001_wilson
oracle 5820 1 1 17:44 ? 00:00:00 ora_w000_wilson
由于此時查詢已經(jīng)結(jié)束,對應(yīng)的并行會話信息,已經(jīng)消失不可見。
sql> select * from v$px_session;
saddr sid serial# qcsid qcserial#
-------- ---------- ---------- ---------- ----------
但是,如果任務(wù)的時間長,是可以捕獲到對應(yīng)信息的。
從上面的情況看,我們執(zhí)行一個并行操作時,oracle會從伺候進程池中獲取到對應(yīng)的并行進程,來進行操作。當操作完成后,伺候進程還會等待一定時間,之后回收。
并行操作進程的資源消耗,通過v$px_sysstat視圖查看。
sql> col statistic for a30;
sql> select * from v$px_process_sysstat;
statistic value
------------------------------ ----------
servers in use 0
servers available 0
servers started 2
servers shutdown 2
servers highwater 2
servers cleaned up 0
server sessions 6
memory chunks allocated 4
memory chunks freed 0
memory chunks current 4
memory chunks hwm 4
buffers allocated 30
buffers freed 30
buffers current 0
buffers hwm 8
15 rows selected
下面,我們檢查一下執(zhí)行計劃信息。
sql> set pagesize 10000;
sql> select * from table(dbms_xplan.display_cursor('2jkn7rpsbj64t',format => 'advanced',cursor_child
_no => 1));
plan_table_output
----------------------------------------------------------------------------------------------------
sql_id 2jkn7rpsbj64t, child number 1
-------------------------------------
select count(*) from t
plan hash value: 3126468333
----------------------------------------------------------------------------------------------------
| id | operation | name | rows | cost (%cpu)| time | tq |in-out| pq distrib
----------------------------------------------------------------------------------------------------
| 0 | select statement | | | 2478 (100)| | | |
| 1 | sort aggregate | | 1 | | | | |
| 2 | px coordinator | | | | | | |
| 3 | px send qc (random) | :tq10000 | 1 | | | q1,00 | p->s | qc (rand)
| 4 | sort aggregate | | 1 | | | q1,00 | pcwp |
| 5 | px block iterator | | 1160k| 2478 (1)| 00:00:30 | q1,00 | pcwc |
|* 6 | table access full| t | 1160k| 2478 (1)| 00:00:30 | q1,00 | pcwp |
----------------------------------------------------------------------------------------------------
predicate information (identified by operation id):
---------------------------------------------------
6 - access(:z>=:z and :z<=:z)
從執(zhí)行計劃的條件(6 - access(:z>=:z and :z<=:z))中,我們可以看到任務(wù)分配,之后分別進行全表掃描。最后排序計算count,合并結(jié)果的過程。
4、結(jié)論
oracle parallel query是經(jīng)常使用到的一種并行操作技術(shù)。相對于ddl、dml等類型操作,并行查詢更可以作為系統(tǒng)功能的一個步驟來進行。
進行并行查詢最大的風險就是并行濫用和失控的出現(xiàn)。這也是oracle一直致力解決的問題。在oracle11gr2中,引入了parallel statement queuing(psq)技術(shù)特性。通常,只要并行伺候池允許,oracle會引入盡可能多的并行進程進行操作。psq技術(shù)的出現(xiàn),就是從資源角度加入了并行控制。
當系統(tǒng)繁忙的時候,psq會將一些要進行的并行操作進入等待狀態(tài),防止并行環(huán)境的惡化。當環(huán)境好轉(zhuǎn)之后,等待隊列中的并行語句就進入執(zhí)行狀態(tài)。這個特性就可以有效的防止并行濫用的出現(xiàn)。