[Java lista] C++ levelezolistak

2009. Dec. 11., P, 10:00:02 CET

Hali,

>>>>>>>>
ne keverjük a szezont a fazonnal :)
Az adatbányászat általában a modellezést jelenti, vagyis rahedli összefüggés
kiszámítását, feltárását, mérését és visszamérését. (google: pl. clementine,
SAS, datamining)
Az OLAP "csak" egy eszköz az adatok rendezett kezelésére, de egy deka
adatbányászat sincs benne. Ott fúrni szoktak :) 
>>>>>>>>

Hadd pontosítsak egy kicsit! 

Igen, nem mindegy, hogy Gizike, vagy gőzeke: az OLAP és a DM diszjunkt két
külön technológia. Bár van ami összekapcsolja, pl.: sql-nyelv,
információ-feltárás stb.

Én a magam számára (OLAP-tudás nélkül) úgy szoktam fogalmazni, hogy az OLAP
a _jelenidejű_ adatokra és információkra korlátozódik (elsősorban erősen
business-centrikus felhasználási területtel), amikor a továbblépés
gyakorlatilag 100%-ban humán intelligencián alapul (menedzseri emberi
döntések -> "hogyan növelhető a profit" típusú kérdések irányába).

Az adatbányászat is megakarja érteni a jelent, de ő minőségileg több abban,
hogy _jövőidejű_ dolgokra is fókuszál, ráadásul algoritmikus alapokon.
Sokkal több területen (pl.: orvosi is akár), sokkal színesebb interakciók
képzelhetők el az emberi és gépi intelligencia között.

Az eredeti kérdést illetően, hogy miért nem gyári /pl.Clementine,
pontosabban ma már IBM PASW Modeler, vagy mi a szösz ;)/ és miért kézi
algoritmussal dolgozzon az adatbányász, az messzire visz. Mindkettőnek
megvan a maga létjogosultsága. Netflix-versenyen a 10% javulás nem gyári
eszközökkel lett összehozva. ;) Ökölszabályszerűen azt lehet mondani, hogy
egy-egy spéci algoritmus egy konkrét spéci területen tud a leghatékonyabb
(versenyt megnyerő) lenni, de ugyanúgy van létjogosultsága a régóta létező
pl.: gyári lineáris regressziónak is. Konkrét kutatások vannak arra, hogy
mit lehet általánosítani, vagy a specialitásokból milyen előnyök csiholhatók
ki.

MM