[Java lista] HTML tartalomban való keresés adatbázis szinten

Veres Lajos vlajos at ludens.elte.hu
2008. Okt. 5., V, 00:06:41 CEST


Sziasztok,

Az oracle text magában tudja amit az eredeti kérdező akar.
Dióhélyban:
create index alma on tabla(mezo) indextype ctxsys.context;
(Jó lassú lesz. DML-ek lockolódnak...)

Adat manipuláció után: (index szinkronizálás)
exec EXEC CTX_DDL.SYNC_INDEX('alma');
(ctxcat index típus esetén ez automatikus.)

queryben:
select mezok from tabla where contains('keresett szoveg',mezo)>0;

Index készítés előtt lehet beállítani, hogy azt milyen preferenciákkal
készítse. Konkrétan meg lehet neki mondani, hogy az ott html szöveg, és
csak a "nem tag"-eket keresse.
(Nem vagyok benne biztos, de mintha ez lenne a default is.)
http://download.oracle.com/docs/cd/B19306_01/text.102/b14218/cdatadic.htm#sthref422
(Egyébként elég sokmindent tud még indexelni:
http://download.oracle.com/docs/cd/B19306_01/text.102/b14218/afilsupt.htm#g639477
)

A lentebb felvetett xpath/xml téma kicsit más lesz. XML dokumentumokat is
tud indexelni xpath részleteik alapján, illetve html/egyéb xml doksikból
is tud xpath alapján lekérdezni, és ezt indexekkel tuningolni. De ez most
talán nem lényeges.

(Bocs, hogy kicsit megkésve. Ritkán járok erre.)

On Mon, 29 Sep 2008, Szabó Árpád Zoltán wrote:

> Szerintem nagyon is xml formátumban vannak az fckeditor által előállított szövegek (lásd korábbi üzenetemet, lehet, h mégse akkora mellényúlás?), hiszen maga az editor is xml műveletekkel oldja meg a szöveg keresését a böngészőben, javascripttel.
>
> Ez:
> http://www.oracle.com/technology/products/text/index.html
>
> mintha ilyesmit pedzegetne (xml/html keresést emleget), a white paperben vannak is példák, igaz, többnyire xpath-ttal megfogalmazott keresésre, de mibe telne egy olyat megfogalmazni, hogy csak szövegben keressen...
>
> Üdv.
> Árpád
>
>
>
> >
> >
> >
>
>
> Az éppen aktuális oracle, db2 (nem tom, mi még), egészen biztosan
> támogat ilyesmit, de az nagyon más szervezést igényel(het).
>
> Itt van egy HTML fragment, amiből lehet XML-t csinálni tidy-val, de
> utána vissza is kell tölteni esetleg az editorba, ami ezt vagy eszi
> vagy nem. Ezen túl meglehetősen lassú is lehet a keresés, ha nincs
> indexelve XML-ként. XQuery lekérdezés is van pl. DB2-ben, de ott még
> az xquery megfogalmazásánál is figyelni kell, nehogy lassú legyen.
>
> Ha jól értem itt nincs struktúrált adat, hanem csak HTML fragment van,
> megjelenítési jelölésekkel. Erre overkill lehet az XPath/XQuery.
>
> czinkos
>
> 2008/9/29 Tamás Viktor <viktor.tamas at gmail.com>:
>
>
> > > Eppen az Oracle (nem tudom melyik verziotol es melyik edition-ben ill.
> > > mennyire hatekonyan)
> > > tamogat bizonyos XPath alapú lekerdezeseket. Talan ez az irany is alkalmas
> > > lehet a feladat megoldasahoz.

-- 
Veres Lajos
vlajos at ludens.elte.hu
+36 20 438 5909


További információk a(z) Javalist levelezőlistáról