[Javalist] Csatolások szoftverekben

Molnár Miklós timortinj at freemail.hu
2012. Május. 20., V, 10:13:19 CEST


Hali,

>>>>>>>>>
Bocs, de ezt nem tartom nagy felfedezésnek, de még tudott tény
megerősítésének sem.
>>>>>>>>>

Természetesen nem kell velem egyetérteni "lelkesedésemet" illetően, továbbá
teljesen reális az első megközelítésed. Aki nem mozog otthonosabban az
adatbányászatban és szövegbányászatban azok mind ezekbe a kérdésekbe botlik
bele "first look"-ra. A jó hír az, hogy van egy másik - erősebb -
megközelítés is, azaz ennyire azért nem "gagyi" a cikk ;), a rossz hír az,
hogy ennek tolmácsolására nemfeltétlen én vagyok az alkalmas személy.

Ajánlott magyar nyelvű szakirodalom hozzá:
Tikk Domonkos szerkesztésében: Szövegbányászat (Typotex adta ki, kapható).

(1) Nem érted jól pontosan. Fogalmi (értsd koncepcionális) csatolásban
gondolkodik a szerző, aminek kereteit specifikálta, illetve reverse engine
során azonosít nyelvi elemeket, azokat súlyozza egy adott metódus szerint,
majd szakmában bevett módon "indexeli" azokat. Hogy _pontosan_ hogyan az nem
derül ki a cikkből, csak áttételesen. Azt próbálom csak meg érzékeltetni,
hogy az LSI-ről ír ugyan a cikkében a szerző ("dióhéjban"), de ettől ez még
itt a levlistán önmagában egy fekete doboz.

(2) Se explicit se implicit módon nem állítja a szerző azt, hogy alakilag
egyező szavak között fogalmi csatolás áll fenn. 

A helyes megközelítés az, hogy a gyakoriság és a relevancia éppenhogy
"fordított arányban" van egymással (és ennek a mailnek ez a legfontosabb
üzenete, ebbe kell a legmélyebben belegondolni). Köznapian szólva pont hogy
fordítva kell ülni a lóra.

Az a releváns ami kevésszer fordul elő, amire épít is a cikkben is említett
TF-IDF algoritmus. Hogy közelebbi példát hozzak, amikor írsz egy blogposztot
és taggeled, akkor a taglistába nem a sokszor előforduló például "és"-t
teszed be (sőt az tiltószónak számít egyenesen, mert nincs érdemi
infóértéke), hanem keresel olyan kulcsszavakat amik egyszerre relevánsak és
mástól megkülönböztethetőek. 
Vagy mondok egy másik köznapibb példát annak az érzékeltetésére miről akarok
szólni. Lehet két szempontod, ha nicket akarsz választani internetes
fórumoláshoz:
(A) Valaki választhatja azt, hogy "Luke Skywalker", mert az ő alakjával tud
azonosulni, saját identitásának részének érzi a figurát, ezt akarja magáról
kommunikálni, hogy ő hozzá hasonló.
(B) Valaki választhatja azt, hogy b32_4jZGGH, aminek az az előnye, hogy ha
sok hozzászólást ír, akkor a google kereső nagyon jól elszeparálja netes
tevékenységét mindenki mástól (hiszen ilyen nicket kicsi valószínűséggel
választ más is).

(3) A program-kommenteknél általad elmondottak is a fentiek miatt
problémásak. 
Persze ettől még teljesen jogos a felvetésed, hogy mi van ha például nincs
komment. Meg hogy néz ki, ha egyszerzős vagy többszerzős a programrendszer.
A pontos részleteket én sem tudom, mert ehhez el kell végezni a pontos
szöveg-elemzést.

(4) A szövegbányászat nem pusztán hype, nagyon komoly eredmények vannak
benne, amiket persze célszerű a helyükön kezelni. 
Mint ahogy igazad van a szkepticizmusodban is, hogy sok használhatatlan cikk
jelenik meg a világban. Én csak azt állítom, hogy soraid nem elegendőek a
cikk és eredménének ilyetén kétségbevonásához, mert ezen kételyeidre van
magyarázat.

(5) Blogomban én is írtam a cikk érvényességi körének problémáját, ahogy te
is feszegeted. Ebben egyetértünk tehát. Szó nincs arról, hogy ezzel "minden
szeget be lehet kalapálni". :o) Már ott jelentkezik az első kérdés, hogy
milyen méretű programrendszertől érdemes vizsgálódni.

(6) Végül a legnehezebb téma, direkt a végére hagyva. A Látens Szemantikai
Indexelés az egyik legszebb dolog amit a mesterséges intelligencia alapú
újabb "bányászkodós" kutatások fel tudnak mutatni. Elegáns, és sok esetben
megdöbbentő erejű.
Ha analógiát akarnék hozni, akkor valami ahhoz hasonlatos, mint a
hálózatelméletben (-analizisben, lásd Barabási köztudatban lévő
tevékenységét), a hálózatokban lévő "gyenge kötés" sokszor félelmetesnek
bizonyuló ereje.
Az LSI (magyarul és angolul is müxik a rövidítés) alapja a következő:
Vannak dokumentumok (itt metódusok), és vannak szavak (itt lexikális elemek)
Ezek egy baromi nagy ritka mátrixba képezhetők le, ami mátrix mindenféle
szempontból kezelhetetlen. A (speciális) "indexelés" célja az, hogy
egyszerre legyen "sűrűbb" és jóval kisebb dimenzionalitású ez a mátrix ÉS
(ha lúd akkor legyen kövés), a relatív súlyozást tartsa is meg egyúttal
("mintázattartás"). A poén az, hogy ez a két dolog egyszerre tud működni sok
esetben. 
Na most nagyon fontos tudni, hogy a kapott (kevesebb) dimenziók közvetlenül
nem interpretálhatók, tehát semmilyen direkt követeztetés levonására per
definitionem nem alkalmasak (tehát soraidban ebben is tévedtél). Csak a
kapcsolatokat, a "szemantikai szerkezetet" jellemzik ezek a dimenziók, de
azokat nagyon jól. Hogy hogyan és mennyire az viszont csak elemzés révén
deríthető ki, "szemmel veréssel" nem.

MM



További információk a(z) Javalist levelezőlistáról