[Javalist] web spider tapasztalatok
Gábor Garami
gabor.garami at hron.me
2012. Jún. 29., P, 15:56:19 CEST
A js evaluation biztosan necces, foleg ha headless kell. Ugyanis a selenium
kepes js-ezni is, de csak vmelyik browser backenddel.
Egyebkent ha unit teszteleshez kell, en felulvizsgalnam a kiindulo
kovetelmenyeket. A selenium nagyon elterjedt, profi framework, az itt
felsorolt elonyokkel rendelkezik, cserebe viszont megkeri az arat. Vmit
vmiert.
Garami Gábor
gabor.garami at hron.me
Skype: hron84
Tel: +36 20 235 9621
Sent from my T-Mobile G2
Ezt a levelet telefonról adták fel, ékezethibákat tartalmazhat.
2012.06.29. 10:28, "Tamás Viktor" <viktor.tamas at gmail.com> ezt írta:
> Helló!
> Open source java web spiderekkel kapcsolatban van valakinek tapasztalata?
> Kiindulópontnak ezt találtam: http://java-source.net/open-source/crawlers
> De mielőtt elkezdem végigpróbálgatni, kíváncsi lennék gyakorlati
> tapasztalatokra.
>
> Ezek a kritériumok:
> - Headless / nem akar GUI-t indítani. (követelmény)
> - Teljesen java, ne akarjon külső processzt indítani (követelmény)
> - Kényelmes az API-ja. XPath-ot, regexp-eket, iterátorokat jól lehet
> használni. (előny)
> - Némileg toleráns legyen a nem XML komform HTML-ekkel. (előny)
> - Kevés külső függősége legyen. (előny)
> - Legyen lehetőség a HTTP kapcsolat nyitásának felüldefiniálására. (előny)
> - Nemcsak letölteni tudja a HTML-t, hanem ki is tudja értékelni a
> javascripteket és azoknak megfelelően megváltoztatja a DOM-ot ha kell.
> (előny, még nagyobb előny, ha ez a feature kikapcsolható)
> - Fenn van Maven publikus repo-ban. (előny, de nem túl fontos)
>
> Üdv, V
> _______________________________________________
> Javalist mailing list
> Javalist at lists.javaforum.hu
> http://lists.javaforum.hu/mailman/listinfo/javalist
>
--------- következő rész ---------
Egy csatolt HTML állomány át lett konvertálva...
URL: <http://lists.javaforum.hu/pipermail/javalist/attachments/20120629/1684d42a/attachment.html>
További információk a(z) Javalist levelezőlistáról