[Javalist] web spider tapasztalatok

Tamás Viktor viktor.tamas at gmail.com
2012. Jún. 29., P, 10:28:31 CEST


Helló!
Open source java web spiderekkel kapcsolatban van valakinek tapasztalata?
Kiindulópontnak ezt találtam: http://java-source.net/open-source/crawlers
De mielőtt elkezdem végigpróbálgatni, kíváncsi lennék gyakorlati
tapasztalatokra.

Ezek a kritériumok:
- Headless / nem akar GUI-t indítani. (követelmény)
- Teljesen java, ne akarjon külső processzt indítani (követelmény)
- Kényelmes az API-ja. XPath-ot, regexp-eket, iterátorokat jól lehet
használni. (előny)
- Némileg toleráns legyen a nem XML komform HTML-ekkel. (előny)
- Kevés külső függősége legyen. (előny)
- Legyen lehetőség a HTTP kapcsolat nyitásának felüldefiniálására. (előny)
- Nemcsak letölteni tudja a HTML-t, hanem ki is tudja értékelni a
javascripteket és azoknak megfelelően megváltoztatja a DOM-ot ha kell.
(előny, még nagyobb előny, ha ez a feature kikapcsolható)
- Fenn van Maven publikus repo-ban. (előny, de nem túl fontos)

Üdv, V


További információk a(z) Javalist levelezőlistáról