StormCrawler

StormCrawler

StormCrawler je odprtokodni SDK za gradnjo distribuiranih spletnih pajkov z Apache Storm.Projekt je pod licenco Apache v2 in je sestavljen iz zbirke virov in komponent za večkratno uporabo, napisanih večinoma na Javi.Cilj StormCrawler je pomagati pri izdelavi spletnih pajkov, ki so: prilagodljiv, prožen z nizko zamudo, enostaven za razširitev vljudnih, a učinkovit StormCrawler je knjižnica in zbirka virov, ki jih lahko razvijalci vzpostavijo za izdelavo lastnih pajkov.Dobra novica je, da je to lahko precej preprosto.Pogosto boste morali razglasiti nevihto s pajkom za Maven odvisnost, napišite svoj topološki razred (namig: lahko razširite ConfigurableTopology), ponovno uporabite komponente, ki jih ponuja projekt in morda napišete nekaj prilagojenihza svojo skrivno omako.Nekaj ​​prilagoditve konfiguracije in izklopite se! ... Poleg osnovnih komponent ponujamo še nekaj zunanjih virov, ki jih lahko ponovno uporabite v projektu, na primer izliv in vijake za ElasticSearch ali ParserBolt, ki uporablja Apache Tikarazčleniti različne oblike dokumentovStormCrawler je popolnoma primeren za uporabo primerov, ko URL za iskanje in razčlenitev prihaja kot tokov, vendar je tudi primerna rešitev za obsežne rekurzivne pajke, zlasti tam, kjer je potrebna nizka zamuda.Projekt uporablja v proizvodnji več podjetij in se aktivno razvija in vzdržuje.
stormcrawler

Spletna stran:

Kategorije

Alternativa StormCrawleru za vse platforme z licenco odprtokodnih kod