si Rodica Avram-Nitchi
Cu ani în urmă, unul dintre autori, Stefan Nitchi, conducea mai multe proiecte de implementare a bazelor de date medicale la o serie de institutii sanitare din Cluj, cum ar fi, Institutul Oncologic „Ion Chiricută“, Institutul Inimii „Niculae Stăncioiu “ etc. Spre surprinderea lui, un număr mare de medici renumiti manifestau un interes cu totul iesit din comun pentru utilizarea bazelor de date si a metodelor statisticii medicale. Intrebându-l, deci, pe prof. N. Ghilezan, directorul adjunct al Institut ului Oncologic, de motivatia acestei preocupări, el a răspuns dând următorul exemplu, care ar putea constitui un interesant studiu de caz. Unul dintre cei mai cunoscuti clinicieni pe care i-a avut Clujul, prof. Goia, intrând odată într-un salon la vizita mare, i s-a prezentat un pacient care urma să fie operat. Profesorul a oprit imediat pregătirile în vederea operatiei, sustinând, spre mirarea asistentei, fără nici un fel de analize, că bolnavul este diabetic si deci nu poate fi operat fără pregătiri speciale. Explicatia dată de profesor era simplă. Unii diabetici emit un miros specific, miros pe care profesorul l-a perceput la intrarea în salon. Deci, în cazul relatat, profesorul Goia a luat decizia pe baza a două elemente esentiale, si anume: cunostintele sale medicale si mijloacele de achizitie de date. Din păcate, asa cum arăta profesorul Ghilezan, asemenea situatii, în care se pot lua decizii ad-hoc, în medicină sunt extrem de rare si numai cei cu un talent iesit din comun le p ot lua. Medicii moderni, în general, trebuie să se bazeze pe date pe care le obtin din analize, istoricul bolii si diferite statistici.
Această adevărată „foame“ după date nu este însă specifică numai lumii medicale. Astfel, citate ca: „Managerii au nevoie de date ca alcoolicii de băutură. Consumă cantităti din ce în ce mai mari, dar le digeră din ce în ce mai greu pe cele ingerate“ 1 au intrat de mult în folclorul informaticii economice. Evident că trebuie făcută o distinctie clară între date si informatii, deoarece „managerul poate fi bogat în date, dar sărac în informatii“ 2.
„În ultimii zece ani asistăm la o crestere explozivă a capacitătii noastre de a genera si colecta date. Progresele realizate în colectarea datelor, răspândirea utilizării codurilor bară pentru majoritatea produselor comerciale si computerizarea majorit ătii tranzactiilor de afaceri si guvernamentale ne-au inundat cu informatii“ 3. Se discută din ce în ce mai mult despre oceanul de date, care în literatura de specialitate se numeste „ubiquitous“ 4. Acest termen nu are o traducere exactă si nici o semnificatie foarte precisă. El se referă la datele care urmăresc în mod aproape invizibil viata de zi cu zi a omului modern. Originile acestor date sunt diferite, iar existenta lor, aproape insesizab ilă cu ochiul liber. Ele provin din cele mai diverse surse, de la dispozitivele cele mai simple, cum ar fi, masinile de spălat cu program, cuptoarele cu microunde, telefoanele digitale, automatele de eliberat numerar, si până la baze de date complexe, le gate de evidenta populatiei, sănătate, circulatie etc.
Aceste cantităti mari de date se memorează în depozite sau antrepozite de date, numite si data warehouse, utilizând tehnici speciale, denumite OLTP, OLAP etc.
În ultimul timp, aparitia Internetului a dus la o crestere exponentială a informatiilor. Practic, este foarte greu de imaginat cantitatea de informatii vehiculată între cele 13.000.000 4 de calculatoare, câte se apreciază a cuprinde în acest moment Internetul. Se apreciază 5 că în 1995, în Internet erau peste 2.000.000 de servere situate în peste 1500 de noduri. Dacă tinem seama că numărul calculatoarelor legate în Internet se dublează în fiecare an, ne putem da seama usor de uriasul volum de date care se ascunde în spatele lui.
„… informatiile numerice se captează simplu si practic se memorează ieftin. Dar ce poate face lumea cu atât de multe date?“ 6.
Pentru luarea unor decizii, asa după cum s-a văzut mai sus, omul are nevoie de cunostinte. Se pune deci problema cum se pot analiza datele si cum se pot extrage cunostintele necesare din ele?
Dacă datele sunt relativ putine, analiza se poate realiza simplu, manual, de către specialisti din diferite domenii sau statisticieni. Pe acestia, unii autori 7 îi numesc „mineri“ sau „excavatori manuali de date“. Ce ne facem însă în situatia în care avem „munti“ de date? Cât de mare poate fi azi o bază de date dintr-o aplicatie oarecare? Un răspuns poate fi găsit în caseta „Studiu de caz 1: Observatorul astronomic Palomar II“.
Bine, bine, pot spune scepticii, astronomia este un exemplu de utilizare exhaustivă a datelor. În alte domenii volumul datelor este mult mai mic. Să ne gândim, de exemplu, la o clinică. Aici sunt mii de bolnavi, care au fiecare un volum considerabil de date ce rezultă din istoricul bolii, analize de laborator, imagini captate cu ecografe, angiografe nucleare etc. Considerând pentru o imagine numai 500 Ko, faceti un calcul să vedeti cam ce volum ocupă aceste date.
Situatia este si mai pregnantă în domeniul afacerilor. Astfel, un studiu realizat de META Grup în 1995 8 arată că peste 19% din depozitele de date au peste 50 Giga baiti, iar în domeniul vânzărilor cu amănuntul, volumele vor fi mult mai mari.
Deci, evident că pentru astfel de volume de date amorfe, sunt necesare instrumente speciale pentru extragerea cunostintelor. Nu este de mirare că s-a născut o nouă disciplină pe care cei mai multi o denumesc Data Mining (DM), altii o denumesc Knowledge Discovery (KD), altii Knowledge Discovery in Databases (KDD), altii Information Discovery (ID), altii Information Archeology (IA) etc. Fiecare denumire poate fi justificată în felul ei. Trebuie subliniat însă că unii autori fac deosebire între unele din tre acestea, de exemplu între DM si KDD sau KD.
Ce este deci DM? Numărul definitiilor fiind foarte mare, vom alege doar două, care ni se par mai simple si sugestive. „DM este extragerea informatiilor predictive ascunse din bazele mari de date“ 9, sau „torturarea datelor până când acestea se confesează“ 10.
Functia principală a DM este, deci, de a extrage modele de cunostinte din date. Pentru aceasta, DM utilizează o varietate de algoritmi din statistică, recunoasterea formelor, clasificare, logică fuzzy, machine learning, algoritmi genetici, retele neuron ale, vizualizarea datelor, etc. Varietatea de algoritmi poate fi grupată în principalele componente ale DM. Numărul acestor componente diferă de la un autor la altul. Astfel, unii consideră că DM are 3 componente, altii, 4, etc. Noi considerăm că princip alele componente ale DM sunt:
Bineînteles că fiecare produs comercial utilizează mai multi algoritmi si în fiecare dintre ei se regăsesc o parte sau toate componentele de mai sus în diferite proportii.
Autorii care fac deosebire între DM si KDD consideră KDD ca fiind un proces iterativ si interactiv complex, care include DM. Astfel, în cadrul KDD se consideră că extragerea cunostintelor se realizează în următorii pasi 11:
Este evident că aceia care consideră KD sau KDD sinonime cu DM, consideră că aceste faze sunt faze ale DM.
Majoritatea autorilor sunt de părere că stadiul actual al DM este cel de „artă“.
Desi fisierele si bazele de date mari sunt bine cunoscute de mult timp, se poate considera că primele investigatii în DM au început la sfârsitul anilor 80. Astfel, primele ateliere de lucru (workshop-uri) au avut loc în 1989, 1991, 1993 si 1994. De altfe l, rezultatele atelierului din 1994, completate si sistematizate, au fost introduse în cartea editată de U.M.Fayyad si altii3. Începând din 1995, atelierele de lucru s-au transformat în conferinte anuale. Astfel, prima conferintă anuală a avut loc la Pa lais Des Congres din Montreal, Canada, în 20-21 august 199512. A doua conferintă anuală a avut loc la Portland, Oregon, SUA, în 2-4 august 1996 si s-a bucurat de un succes enorm 13, participând peste 500 de persoane. Principalele rezultate ale acestei conferinte au fost prezentate într-un număr special al prestigioasei reviste Communications of ACM vol. 39, nr. 11, November, 1996. În sfârsit, în 1997 va avea loc cea de a treia confe rintă în domeniul DM si KDD, la Newport Beach, California, în perioada 14-17 August 1997 14. De altfel, în 1997 vor avea loc cel putin 11 manifestări de importantă majoră în acest domeniu (vezi caseta „Data Mining si KDD: reuniuni majore în 1997“).
În 1997 este anuntată aparitia primului număr al unei reviste destinate acestui domeniu, intitulată Data Mining and Knowledge Discovery. Ea se va adăuga unei alte reviste gratuite pe Internet, KDD Nugget, care începând din 1993 a reusit să apară în 108 numere. Un site excelent, în care se poate găsi această revistă precum si multe alte informatii legate de DM si KDD, este cel al GTE, întretinut de Gregory Piatetsky-Shapiro de la GTE si de Michael Bedows de la Boston University 15. Numărul articolelor care se scriu despre acest domeniu este impresionant. Astfel, reviste de informatică cu o mare circulatie, ca Datamation16, BYTE17, LAN Magazine18, alături de reviste cu o reputatie stiintifică deosebită 19, consacră numere sau sectiuni speciale domeniului. Alte reviste, cum ar fi Journal of Intelligent Information Systems (JIIS-Kluwer), Machine Learning, Intelligent Data Analysis (Elsevier), contin un număr însemnat de articole din acest domeniu. Alături de s iturile prezentate anterior, alte situri interesante unde pot fi găsite informatii legate de astfel de articole, white paper-uri etc., sunt în lista lui Michael Ley 20, în situl lui Thierry Van de Merckt21 sau în cel al lui Andy Prike 22.
Starea actuală a DM si KDD se datorează însă si faptului că, spre deosebire de alte dezvoltări ale informaticii, cum au fost Internetul, obiectualitatea, retelele neuronale, algoritmii genetici, etc., care au pornit de la lumea academică, fiind ulterior preluată de cea a afacerilor, în cazul DM s-a întâmplat invers, a pornit de la firmele puternice, cum sunt IBM, Microsoft, GTE, etc., lumea academică sesizând ulterior problema.
Cine sunt deci principalii producători de DM si KDD? Desigur că este dificil de trecut în revistă pe toti si toate produsele într-un domeniu atât de dinamic. Nici nu ne propunem acest lucru, doritorii putând găsi acestea în situl GTE15. Conform celor pr ezentate de autorii sitului respectiv, azi se naste o nouă categorie de instrumente specifice DM, categorie denumită de acestia SITWARE.
Vom prezenta deci doar câteva exemple de producători si domenii de utilizare. Poate cel mai semnificativ exemplu în domeniu este cazul IBM (caseta „Studiu de caz 2: IBM“).
Alte firme mai interesante ar putea fi considerate:
HMC, care în toamna anului 1995 a elaborat o solutie mixtă hard-soft, Marksman, la un pret de 48.000$. Produsul are facilităti de modelare predictivă pentru analiza bazelor de date destinate marketingului direct;
Information Discovery, care a introdus în acelasi an produsul MAP Discovery, ce utilizează combinatii între statistică, inductie si algoritmi de construire a clusterelor si claselor; MAP Discovery rulează pe servere Sun UltraSPARC si HP9000;
Angoss Software din Toronto, care a lansat un produs DM, KnowledgeSeeker; ea a încheiat o întelegere cu firma Cognos pentru a include KnowledgeSeeker în produsul acesteia de EIS (Executive Information System).
Alte firme care se afirmă în acest domeniu sunt DataMind, Thinking Machines, etc.
Poate si mai interesant decât de a trece în revistă producătorii si produsele este să prezentăm putin piata DM. „DM este o piată instabilă si nematurizată. Avem de perfectat tehnologia si sa o întelegem prin analize de afaceri. Dar trebuie supravietui t. Dacă nu-l utilizezi în scopuri previzionale înaintea competitorilor tăi, vei muri“ spune directorul pentru tehnologii avansate a Gartner Group din Paris, citat în articolul din Datamation. În Figura 1, este redată segmentarea pietei DM, conform aceluiasi articol.
DM si KDD sunt foarte legate de o serie de domenii noi ale informaticii. Nu ne punem problema de a prezenta toate aceste legături. Subliniem, însă, că cele mai apropiate domenii de DM si KDD sunt OLAP (On Line Analitic Processing) si DSS (Decision Suppo rt Systems). Având în vedere faptul că intentionăm să abordăm tema OLAP si DSS într-un articol viitor, nu vom intra acum în amănunte legate de aceste domenii. Există multe prezentări, mai mult sau mai putin complete, despre ceea ce este OLAP si DSS. Con form acestora, OLAP este un mod de utilizare a depozitelor de date, utilizare care presupune pe de o parte un acces în timp real (OLTP - On Line Transactional Processing), iar pe de altă parte, o analiză multidimensională (vectorială) a bazelor de date mari. DSS este un ansamblu format din baze si depozite de date, precum si alte ansambluri de informatii utile, împreună cu produse soft adecvate întocmirii rapoartelor, analizei datelor, precum si implementării unor algoritmi de optimizare în vederea sprijinirii actului decizional al oamenilor de afaceri. Aceste două domenii fiind foarte apropiate de DM, determină o serie de furnizori de OLAP sau DSS să sustină că livrează DM. „Dând o interpretare slabă notiunii de Data Mining, vânzătorii OLAP pot spune că se ocupă de DM“ afirmă Steve Smith, director de analize avansate la Pilot Software. „Una dintre liniile de demarcare clară dintre cele două domenii este gradul de automatizare. A doua este gradul de utilizare a mijloacelor statistice de determinare a ceea ce este interesant si a ceea ce este irele vant“. Acestea sunt clar în favoarea DSS. OLAP si DSS utilizează mai putini algoritmi si depind de cererile si ipotezele livrate de utilizator. În ceea ce priveste răspunsurile, diferenta dintre OLAP si DSS, pe de o parte, si DM si KDD, pe de altă par te, se poate asemăna cu cea dintre răspunsurile date de o bază de date si una de cunostinte. Astfel, de exemplu, un mod tipic de a pune o întrebare în OLAP si DSS este: „Au cumpărat persoanele din Cluj mai multe masini decât cele din Brasov în ultimul an?“. Răspunsul OLAP si DSS este de forma: „Populatia din Cluj a cumpărat 12.000 de masini, în timp ce în aceeasi perioadă, cea din Brasov a cumpărat 10.000“. Acest răspuns este deci clar, dar se limitează la ipoteze, deci este rigid. Răspunsurile din DM si KDD sunt mult mai flexibile. În cazul lor, întrebările se pun sub forma: „Dă-mi un model care identifică caracteristica cea mai previzibilă a populatiei care va cumpăra masini“ . Învătând din experienta trecută, DM va răspunde sub forma: „Depinde de an si zonă geografică. Astfel, de exemplu, populatia din Cluj a cumpărat anul trecut mai multe masini (12.000) fată de cea din Brasov (10.000)“. Avantajul este că DM si KDD pot descoperi răspunsuri mai sofisticate si subtile, pe care OLAP si DSS nu le pot detecta.
Există si multe alte diferente, dintre care cea mai importantă este modul de rationare. Astfel, rationarea în sistemele OLAP si DSS este deductivă, în timp ce în DM si KDD este inductivă.
Pe de altă parte, trebuie subliniat că diferentele dintre DM, OLAP si DSS au tendinta să dispară. Algoritmii si facilitătile DM au început să fie incluse în produsele DSS si OLAP. De exemplu, AT&T, care este un mare utilizator si furnizor de OLAP, a în ceput să lucreze la un produs DM, numit Nearest Neighbor System, care clasifică uti lizatorii săi după similarităti. La rândul lor, si furnizorii de DSS au sisteme specifice de vizualizare a bazelor de date, deci includerea unor functionalităti de DM este o optiune normală a lor. Nu este deci de mirare că marii furnizori de OLAP si DSS, cum sunt Pilot si Comshare, s-au orientat rapid către DM.
Unul dintre domeniile preferate de utilizare a DM, de către producătorii de DSS si OLAP este valorificarea Internetului. Acest fapt este normal, având în vedere caracterul eterogen al bazelor si depozitelor de date în acest caz. Astfel, de exemplu, Arbo r Software a introdus un gateway Web la un pret de 10.000 de dolari, gateway care este un site între serverul Web si o bază de date OLAP multidimensională de tip Essbase a companiei. Produsul asigură citirea si scrierea usoară a analizei informatiilor de afaceri furnizate de browserul Web, ceea ce va usura răspândirea ei pe piata DSS, OLAP si DM.
În ultimii ani, informatica a surprins omenirea, ca de atâtea ori până acum, printr-o serie de rezultate noi si inedite, cum au fost: aparitia si extinderea Internetului sub forma World Wide Web la scară planetară, aparitia tehnologiei agentilor intelig enti, a algoritmilor genetici, a depozitelor de date, a sistemelor fuzzy etc. Toate acestea au pornit însă de la lumea academică, fiind urgent preluate de cea a afacerilor. Asa cum am mai subliniat, DM si KDD au pornit invers, de la necesitătile de aface ri, mai exact, de la necesitatea extragerii cunostintelor din imensitatea de date în mijlocul căreia se află omul modern. Nu este de mirare deci că firmele mari, cum sunt IBM, Microsoft, GTE etc., si-au format grupuri proprii de cercetare sau au format g rupuri de cercetare cu universităti puternice ca MIT, Stanford, Rutgers, Santafe etc. pe acest domeniu. Nu trebuie să ne surprindă nici numărul mare de întâlniri, conferinte, ateliere de lucru, grupuri de interes etc., în care se investesc acum sume mari de bani. Asa după cum am mai amintit, piata este în formare, domeniul în stare de artă, primele rezultate apar greu, deoarece aici este vorba de un domeniu multi si pluri disciplinar, dar lumea afacerilor simte că este vorba de un avantaj strategic, iar cea a informaticii, că poate pentru ea se deschide o nouă eră. n
Dl. dr. Stefan Nitchi este seful catedrei de Informatică Economică al Facultătii de Stiinte Economice, Universitatea Babes-Bolyai, Cluj. Poate fi contactat prin e-mail la: .A 3-a Conferintă Internatională în domeniul DM si KD (3rd Int. Conference on Knowledge Discovery and Data Mining) - KDD-97, 14-27, august, Newport Beach, California, http://www-aig.jpl.nasa.gov/kdd97
Observatorul astronomic nr.2, de la Palomar (SUA-POSSII), a efectuat timp de sase ani, mai mult de 3000 de fotografii la rezolutia de 16 biti/pixel, fiecare fotografie având 23.040 x 23.040 pixeli. S-au urmărit 2 miliarde de obiecte ceresti, fiecare obie ct având măsurate 40 de atribute, stabilite de astronomi. În felul acesta a rezultat o bază de date de 3 tera baiti. Problema fundamentală era de a clasifica aceste obiecte în corpuri ceresti si galaxii. Acest lucru evident nu era posibil să se realizeze manual, asa că s-a elaborat un instrument special, numit Sky Image Cataloging and Analysis Tool (SKI-CAT).
IBM - este de departe lider în domeniul depozitelor de date, OLAP si sistemelor expert destinate bazelor de date. Cifra sa de afaceri în acest domeniu se ridică la aproximativ 1 miliard de dolari anual si zilnic 20 milioane de utilizatori folosesc DB2 si IMS. Ele sunt implementate sub AIX, HP-UX, Solaris, OS/2 si mai nou Windows NT. De curând, acestea sunt implementate si pe calculatoare non-IBM.
În luna aprilie 1996, IBM a introdus un pachet DM numit The Inteligent Miner, care este un toolkit ce utilizează modelarea predictivă, segmentarea bazelor de date si analiza conexiunilor. Date legate de conceptia IBM pot fi obtinute din raportul tehnic a l Claudiei Gardner11. Pachetul DM include un toolkit, aplicatii si servicii cu 8 algoritmi avansati si 18 functii de preprocesare integrate (CAPI) într-o interfată de programare care face părtile interschimbabile. El poate opera pe Inteligent Data Server -ul IBM. Testul beta al toolkit-ului, precum si al aplicatiilor legate de acesta, a început să poată fi utilizat în aprilie 1996 pe servere AIX precum si pe clienti AIX si Windows; versiunea finală a apărut în iulie 1996. Pretul de vânzare este între 40. 000-50.000$. Lucrează, deocamdată limitat, numai cu baze de date de tip DB2. Evident că multi utilizatori ar dori folosirea lui si pe alte platforme. IBM a promis extinderea în acest an si pe alte platforme IBM, precum si non-IBM.