[Javalist] web spider tapasztalatok

Böszörményi Péter zmblevlist at gmail.com
2012. Jún. 29., P, 16:16:31 CEST


htmlunit tud javascriptet vegrehajtani (talan rhinoe van a hatterben), de  
nem crawler, a bejarast nektek kell megoldani.

On Fri, 29 Jun 2012 16:04:20 +0200, Tamás Viktor <viktor.tamas at gmail.com>  
wrote:

> Nem unit teszteléshez kell, hanem le akarok kérdezgetni weboldalat és
> elemezni a tartalmukat.
> A js kiértékelésre lehet hogy nem lesz szükségem, de szerintem az
> újabb Selenium meg tudja csinálni ezt már browser nélkül, valami
> általános böngészőt szimulálva.
> Amúgy a Selenium is képben van.
> V
>
> 2012/6/29 Gábor Garami <gabor.garami at hron.me>:
>> A js evaluation biztosan necces, foleg ha headless kell. Ugyanis a  
>> selenium
>> kepes js-ezni is, de csak vmelyik browser backenddel.
>>
>> Egyebkent ha unit teszteleshez kell, en felulvizsgalnam a kiindulo
>> kovetelmenyeket. A selenium nagyon elterjedt, profi framework, az itt
>> felsorolt elonyokkel rendelkezik, cserebe viszont megkeri az arat. Vmit
>> vmiert.
>>
>> Garami Gábor
>> gabor.garami at hron.me
>> Skype: hron84
>> Tel: +36 20 235 9621
>>
>> Sent from my T-Mobile G2
>> Ezt a levelet telefonról adták fel, ékezethibákat tartalmazhat.
>>
>> 2012.06.29. 10:28, "Tamás Viktor" <viktor.tamas at gmail.com> ezt írta:
>>>
>>> Helló!
>>> Open source java web spiderekkel kapcsolatban van valakinek  
>>> tapasztalata?
>>> Kiindulópontnak ezt találtam:  
>>> http://java-source.net/open-source/crawlers
>>> De mielőtt elkezdem végigpróbálgatni, kíváncsi lennék gyakorlati
>>> tapasztalatokra.
>>>
>>> Ezek a kritériumok:
>>> - Headless / nem akar GUI-t indítani. (követelmény)
>>> - Teljesen java, ne akarjon külső processzt indítani (követelmény)
>>> - Kényelmes az API-ja. XPath-ot, regexp-eket, iterátorokat jól lehet
>>> használni. (előny)
>>> - Némileg toleráns legyen a nem XML komform HTML-ekkel. (előny)
>>> - Kevés külső függősége legyen. (előny)
>>> - Legyen lehetőség a HTTP kapcsolat nyitásának felüldefiniálására.  
>>> (előny)
>>> - Nemcsak letölteni tudja a HTML-t, hanem ki is tudja értékelni a
>>> javascripteket és azoknak megfelelően megváltoztatja a DOM-ot ha kell.
>>> (előny, még nagyobb előny, ha ez a feature kikapcsolható)
>>> - Fenn van Maven publikus repo-ban. (előny, de nem túl fontos)
>>>
>>> Üdv, V
>>> _______________________________________________
>>> Javalist mailing list
>>> Javalist at lists.javaforum.hu
>>> http://lists.javaforum.hu/mailman/listinfo/javalist
>>
>>
>> _______________________________________________
>> Javalist mailing list
>> Javalist at lists.javaforum.hu
>> http://lists.javaforum.hu/mailman/listinfo/javalist
>>
> _______________________________________________
> Javalist mailing list
> Javalist at lists.javaforum.hu
> http://lists.javaforum.hu/mailman/listinfo/javalist


-- 
Üdvözlettel,
Böszörményi Péter


További információk a(z) Javalist levelezőlistáról