Cum Spache Apache ajută la dezvoltarea rapidă a aplicațiilor

Video: PISICI CÂINI PIATA PEȘTILOR și Papagalilor NU Aduce ODESSA 14 februarie TOP 5 câini.

Conţinut

Ce este Apache Spark?
Spache Apache - Noul lider în dezvoltarea rapidă a aplicațiilor
Caracteristici Apache Spark
GraphX
MLib: Biblioteca de învățare a mașinilor
Spark - Un instrument versatil pentru dezvoltatori
Concluzie

Sursa: Chepko / Dreamstime.com

La pachet:

Apache Spark este un instrument de dezvoltare rapidă a aplicațiilor care ajută dezvoltatorii să fie mai eficienți ca niciodată.

Când crezi că ai o idee grozavă, dar trebuie să o testezi, vrei să o testezi cât mai rapid și cât mai economic. Nu doriți să intrați într-un ciclu de dezvoltare și testare îndelungat și să pierdeți mult timp și bani. Apache Spark a facilitat dezvoltarea rapidă a aplicațiilor, în principal pentru că vă permite să vă testați rapid ideile cu ajutorul shell-ului și API-urilor sale.

Ce este Apache Spark?

Tehnic, Apache Spark este un motor de procesare a datelor care poate sări în bucăți de date colosale și să le proceseze într-un flash. Cele două caracteristici principale ale acestuia sunt viteza de procesare a datelor și performanța în memorie. Acest cadru de calcul al clusterului este un instrument open-source care ajută dezvoltatorii în devenire să-și construiască aplicațiile în cel mai scurt timp.

Acest cadru avansat de procesare a datelor este creat de AMP Lab și a fost publicat ca un instrument open-source în 2010, ca parte integrantă a Proiectului Apache. Întregul proiect Spark este codat folosind limbajul Scala și poate rula pe o mașină virtuală bazată pe Java (JVM).

Spache Apache - Noul lider în dezvoltarea rapidă a aplicațiilor

După ce au folosit Apache Spark, dezvoltatorii de pe planetă l-au marcat în unanimitate drept „super-rapid”. Diverse măsurători ale performanței Apache Spark arată că este de 100 de ori mai rapid decât rivalul său existent, și anume Hadoop. Potrivit utilizatorilor săi, primitivele de memorie ale memoriei Spark bat standardul actual al structurii de memorie cu mai multe etape bazate pe disc Hadoop.

De fapt, dacă decalajul de timp dintre orice idee și execuția sa este substanțial lung, atunci de multe ori aceste abordări casual au împiedicat întregul proiect în creștere. În lumina acestui fapt, care este cel mai scump parametru al acestei industrii tehnologice în continuă evoluție?

Desigur, este timpul.

Există un proverb vechi și care spune: „Nimeni nu poate opri executarea unei idei, al cărei timp a venit”. Așadar, dacă săriți în profunzime chiar în scopul dezvoltării unei aplicații, veți constata că scopul este simplu și perpetuu. Trebuie să rezolvați o problemă generală și stabilită. Acum, dacă nu pășiți pe scenă, altcineva o va face. Deci, nevoia unui instrument care poate ridica nivelul de „rapid” este nevoia orei.

Caracteristici Apache Spark

Apache Spark are multe caracteristici sublime și fiecare dintre ele se integrează pentru a alimenta puterea de procesare atât de necesară. Tehnic, componentele Spark îi definesc capacitatea superioară. Fiecare componentă Sparks își îmbunătățește capacitatea de dezvoltare rapidă a aplicațiilor.

Este întregul fundament al Apache Spark. Se ocupă în principal de diferitele sarcini care sunt distribuite în natură, cum ar fi execuțiile I / O, programarea și expedierea. Lumea tehnologiei cunoaște acest lucru și ca un set de date distribuit rezistent (RDD), care este un tablou de date partiționate distribuite logic pe diferite mașini conectate.

În mod normal, aceste RDD pot fi create printr-un proces de transformare a datelor cu granulație grosieră, care include patru execuții de bază: hartă, filtrare, reducere și alăturare. În consecință, întregul RDD este lansat printr-o API care este o amalgamare a trei limbaje de programare diferite (Scala, Java și Python).

Această componentă este pentru a executa fluxuri de analiză a datelor cu ajutorul abilității de planificare rapidă a nucleului Spark. Acesta descompune bucăți de date mai mari în mai multe pachete mici sau loturi și aplică transformări RDD la acestea.

GraphX

Această componentă este o rețea distribuită de procesare a graficului și utilă în situațiile în care este necesară o expresie a calculului grafic complet.

MLib: Biblioteca de învățare a mașinilor

Tehnic, este un cadru distribuit de învățare a mașinilor. Viteza de execuție este mult mai mare decât versiunea bazată pe disc a lui Hadoop, datorită faptului că Spark folosește arhitectura distribuită bazată pe memorie - care este principalul parametru de diferențiere al Apache Spark - cu celelalte cadre similare. MLib folosește practic algoritmi statistici pentru a rezolva o gamă largă de ghicitori de învățare automată, cum ar fi statistici sumare, testarea ipotezelor și eșantionarea datelor. De asemenea, se ocupă de clusteringul de date, filtrarea în colaborare și regresiile de date.

Spark - Un instrument versatil pentru dezvoltatori

Alături de celelalte caracteristici ale sale, Spark este, de asemenea, un cadru versatil de dezvoltare a aplicațiilor pentru toți dezvoltatorii din întreaga lume. Poate funcționa cu diferite limbaje de programare precum Scala, Python, Java, Closure și R.

Concluzie

Spark este transformarea post-Hadoop a datelor mari, întrucât primul are o potrivire tematică cu cel de-al doilea. Datele mari cresc din ce în ce mai repede cu populația în continuă creștere a Internetului Lucrurilor, iar lumea tehnologică avea nevoie de ceva care să-și poată păstra ritmul în același timp cu creșterea sa. Desigur, Hadoop a avut zilele sale de aur cu date mari, dar nu a fost standardul final de dezvoltare rapidă a aplicațiilor în arena de date mari. Apache Spark pare să fie fața ecosistemului de dezvoltare a aplicațiilor care necesită o nouă generație de date.