[Java lista] HTML tartalomban való keresés adatbázis szinten
Zsolt Czinkos
czinkos at gmail.com
2008. Sze. 29., H, 15:25:29 CEST
Valóban. Megnéztem, a fckeditor ezt mondja magáról: "Outputs XHTML
1.0". Szóval az adat XML, nem kell semmilyen masszírozás.
Fenntartom viszont, hogy XML-ként tárolni és feldolgozni valamit, ami
nem adat, és az egyetlen cél, hogy indexelni lehessen az egész
szöveget: overkill. XML-t tárolni/lekérdezni drága.
Ha a szöveget XPath-al szeded ki/kérdezed le, akkor ott egy parser fog
dolgozni. Oké, értem, a mai gépeken, kisebb állományokon elég gyors
lehet, de nem erre való. Persze lehet, hogy a regexp még lassabb. Nem
értek adatbázisokhoz, nem ismerem a feltételeket, elhangzott, hogy a
szöveg tárolása külön valamiért nem lenne szerencsés. Elméleti síkon
ellenzem az XML használatát csak. Én is nyúlok olyasmihez, amihez nem
kéne, mert "holnapra kell", és "úgy is jó lesz".
A lucene-t (vagy solr-t, ha az is belefér) mondanám én is, mint itt a
többiek, de adottak a keretek, azon belül kell mozogni.
üdv
czinkos
2008/9/29 Szabó Árpád Zoltán <szaboaz at freemail.hu>:
> Szerintem nagyon is xml formátumban vannak az fckeditor által előállított
> szövegek (lásd korábbi üzenetemet, lehet, h mégse akkora mellényúlás?),
> hiszen maga az editor is xml műveletekkel oldja meg a szöveg keresését a
> böngészőben, javascripttel.
>
> Ez:
> http://www.oracle.com/technology/products/text/index.html
>
> mintha ilyesmit pedzegetne (xml/html keresést emleget), a white paperben
> vannak is példák, igaz, többnyire xpath-ttal megfogalmazott keresésre, de
> mibe telne egy olyat megfogalmazni, hogy csak szövegben keressen...
>
> Üdv.
> Árpád
>
>
>
>>
>>
>>
>
>
> Az éppen aktuális oracle, db2 (nem tom, mi még), egészen biztosan
> támogat ilyesmit, de az nagyon más szervezést igényel(het).
>
> Itt van egy HTML fragment, amiből lehet XML-t csinálni tidy-val, de
> utána vissza is kell tölteni esetleg az editorba, ami ezt vagy eszi
> vagy nem. Ezen túl meglehetősen lassú is lehet a keresés, ha nincs
> indexelve XML-ként. XQuery lekérdezés is van pl. DB2-ben, de ott még
> az xquery megfogalmazásánál is figyelni kell, nehogy lassú legyen.
>
> Ha jól értem itt nincs struktúrált adat, hanem csak HTML fragment van,
> megjelenítési jelölésekkel. Erre overkill lehet az XPath/XQuery.
>
> czinkos
>
> 2008/9/29 Tamás Viktor <viktor.tamas at gmail.com>:
>
>> Eppen az Oracle (nem tudom melyik verziotol es melyik edition-ben ill.
>> mennyire hatekonyan)
>> tamogat bizonyos XPath alapú lekerdezeseket. Talan ez az irany is alkalmas
>> lehet a feladat megoldasahoz.
>>
>> http://www.oradev.com/xml_functions.jsp
>> V
>>
>> _______________________________________________
>> Javalist mailing list
>> Javalist at javagrund.hu
>> http://javagrund.hu/mailman/listinfo/javalist
>>
>>
>
> _______________________________________________
> Javalist mailing list
> Javalist at javagrund.hu
> http://javagrund.hu/mailman/listinfo/javalist
>
>
>
> _______________________________________________
> Javalist mailing list
> Javalist at javagrund.hu
> http://javagrund.hu/mailman/listinfo/javalist
>
>
További információk a(z) Javalist levelezőlistáról