Serverele redundante din familia VITAL TWIN a firmei SALIENT permit
rularea aplicațiilor critice de firmă timp de 24 de ore din 24 și
7 zile din 7. Au o arhitectură duală specifică, care permite detectarea
unor anomalii majore în funcționare a componentelor hard/soft și pornirea,
în timp util, a unei rezerve identice. Acesta va prelua din mers toate
funcționalitățile sistemului defectat, și va continua deservirea clienților
de rețea, în mod transparent pentru utilizator.
Cvasisimultan cu firme ca Dell, Digital, HP etc., SALIENT a lansat
încă în anul trecut această soluție interesantă (și mult așteptată
),
imediat ce a fost disponibil softul de gestiune specific pentru un
astfel de cluster (masiv) de două PC-uri: Microsoft Cluster Server
(MSCS), prima versiune comercială. Rolul acestuia este supravegherea
continuă a celor două sisteme interconectate, și la o oprirea unuia
(defectare hard sau soft, operații de service, upgrade hard și soft
etc.) permite aplicarea unui scenariu dinainte stabilit, scopul fiind
deservirea continuă, fără opriri costisitoare, a clienților din rețea.
Simplific vorbind, un astfel de server redundant se compune din
două PC- uri high-end, montate în aceeași carcasă, care funcționează
independent. Ele sunt dotate absolut identic: placă de bază (P6DLF,
Supermicro, USA) dual procesor (Pentium II la 266MHz), disc hard local
(Quantum Atlas II, SCSI UW, 4,5 GB), adaptor de disc SCSI UW (Adaptec,
AHA 2940, BIOS Rev. 1.32), monitor (Philips 102B, 14, digital), tastatură
(Win95, US), unitate CD-ROM (TEAC 32x) etc. Ambele noduri rulează
același sistem de operare - Windows NT 4.0 - de pe cele două discuri
locale. Alimentarea este rezolvată din două surse (400W) independente,
hot-swapable, cuplate la rețea printr-un UPS (sursă neîntreruptibilă;
1KW).
Ambele noduri comunică cu exteriorul prin propriul său adaptor de
rețea de 10/100MBps (Intel EtherExpress Pro 100-TX), și între ei prin
alte două plăci de 10 Mbs (SMC 1208). În contrast cu soluțiile simple
tolerante la erori (gen servere de back-up, oglindiri etc.), care
rulează doar aceleași aplicații client-server critice, aici aveți
o libertate mai mare: de exemplu, unul din noduri poate fi configurat
ca server de Web și celălalt ca server SQL.
Nu sunt dublate doar câteva elemente: carcasa metalică, sursa UPS
și matricea de discuri RAID (care are un sistem propriu, eficient,
pentru securitatea datelor), în rest toate componentele au o "rezervă
caldă", comutabilă în timp real.
Pentru stocarea datelor, cele două noduri NT partajează o matrice
de discuri RAID, cuplată la cele două sisteme prin două adaptoare
SCSI UW (AHA 2940). Este formată din 4 discuri rapide (Quantum Atlas
II, SCSII UW, 4,5 GB, 7200 RPM), cuplate la un controler RAID performant:
IFT 3102UA (Infortrend), dotat cu propriul procesor 486/66MHz și cu
un cache de 32 MB (expandabil la 128 MB). Permite implementarea mai
multor nivele RAID: 0, 1, 0+1, 3, 5 etc. Discurile sunt, evident,
hot swapable, deci pot fi scoase/schimbate/introduse din mers, fără
repornirea sistemului.
Pentru a vedea eficiența unui astfel de server redundant, am făcut
un scurt test relevant cu un SALIENT VITAL TWIN 2x266. Acesta folosește
în total 4 procesoare Pentium II 266 MHz, și are instalat Windows
NT 4.0 (multiprocessor kernel, enterprise edition) cu suportul 4GT
(4 GB RAM Tunning vechea limitare de 2 GB per proces crește la 3
GB). Am configurat un server virtual pentru partajarea fișierelor
(File Share) și un server Internet.
Oprirea nodului activ din comutatorul de alimentare a fost observată
după 10 secunde de către "fratele" său operativ, și după
alte 8 secunde el a și preluat integral serviciul de Fail Sharing.
A rezultat deci o durată de doar 18 secunde - numită fail-back-timp
în care clientul trebuia să aștepte suplimentar pentru rezolvarea
cererii sale, dacă exact atunci a căzut nodul activ. La refacerea
nodului inițial (repornire din comutator), serviciul a fost trecut
înapoi, pe nodul inițial, în timp util: 26 de secunde (durata fail-back).
Testul cu serverul virtual de Internet a dat următoarele valori:
fail-over de 20 secunde (trecere pe rezervă) și fail-back de 60 secunde
(întoarcere pe nodul inițial). De reținut că, datorită acestor timpi
(nesemnificativi pentru un acces WWW, dar totuși mari pentru o aplicație
Windows clasică), softul care poate beneficia din plin de această
arhitectură de clustering trebuie să fie scris special (în primul
rând, este important ca el să poată aștepta).
Această soluție autohtonă de vârf, bazată pe o arhitectură x86 duală,
are un grad ridicat de fiabilitate și performanță. Folosește componente
hard de la fabricanți de marcă, garantate pentru 3 ani. Softul principal,
Microsoft Cluster Server, permite o gestiune extrem de eficientă și
o oarecare echilibrare a încărcării.