[Java lista] offline web wearch engine

Istvan Bencze istvan.bencze at gmail.com
2009. Aug. 24., H, 14:05:31 CEST


Sziasztok!



indexfileokat. Persze nem tudom, h pdf-et tud-e olvasni.


Erre én korábban a http://incubator.apache.org/pdfbox/ -ot használtam, kb.
ennyi kivenni egy pdf-ből a szöveget:

String text = pdfTextStripper.getText(document);

Aztán mehet is a Lucene-nek.



Steve



>
>
> On Mon, 24 Aug 2009 13:38:09 +0200, zamek <zamek at vili.pmmf.hu> wrote:
>
> > hello,
> >
> > Az a feladatom, hogy egy konferencia eloadasaibol csnaljak egy
> > cd-rom-ot. Az eloadasok pdf/html formatumuak.
> >
> > Kellene egy java/javascript/gwt eszkoz, amivel  tudok kulcsszavakra
> > keresni a hatml/pdf tartalmakban. Szoval egy offline search engine
> > kellene, ami persze meg az utodott ie-n is mukodik:)
> >
> > A felsooktatasban a legtobb egybites professzornak ie6/7/8 van a gepen.:)
> >
> >
>
>
>
> --
> Üdvözlettel,
> Böszörményi Péter
> _______________________________________________
> Javalist mailing list
> Javalist at javagrund.hu
> http://javagrund.hu/mailman/listinfo/javalist
>
--------- következő rész ---------
Egy csatolt HTML állomány át lett konvertálva...
URL: http://javagrund.hu/pipermail/javalist/attachments/20090824/549cdcd1/attachment.html 


További információk a(z) Javalist levelezőlistáról