Analiza Hadoop: combinarea datelor necesită o abordare sursă-agnostică

Autor: Laura McKinney
Data Creației: 1 Aprilie 2021
Data Actualizării: 6 Mai 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn


Sursa: Agsandrew / Dreamstime.com

La pachet:

Metodele sursă-agnostice sunt ideale pentru prelucrarea datelor pentru analiza Hadoop.

Combinarea surselor de date din Hadoop este o afacere complexă. Unele dintre motivele acestui lucru includ:

  • Scripturile personalizate, specifice sursei care combină sursele de date, sunt problematice.
  • Utilizarea instrumentelor de integrare a datelor sau de știința datelor introduce prea multă incertitudine.
  • Adăugarea de date din surse externe este aproape imposibilă.

Astăzi, voi discuta despre cum este îmbunătățită analiza Hadoop prin intermediul tehnologiilor sursă-agnostice care facilitează combinarea surselor de date interne și externe. Pe lângă descrierea modului de funcționare a metodelor agnostice sursă, voi include și de ce analitica Hadoop are nevoie de informații integrate și capacități de transfer de cunoștințe, o înțelegere a relațiilor și a caracteristicilor datelor și o arhitectură scalabilă și performantă.



  • Metode sursă-agnostice include un model flexibil, de rezoluție de entitate, care permite adăugarea de noi surse de date folosind procese științifice de date repetabile, statistic. Aceste procese folosesc algoritmi pentru a strânge cunoștințe din date și pentru a evalua, analiza pentru a determina cea mai bună abordare de integrare.
    Oricât de fragmentate sau incomplete sunt înregistrările sursă originale, tehnologiile de analiză Hadoop ar trebui să fie agnostice sursă și să poată unifica datele fără a schimba sau manipula datele sursă. Aceste tehnologii ar trebui să creeze, de asemenea, indici de entitate bazate pe conținutul de date și atribute despre indivizi și modul în care există în lume. Pentru a realiza acest lucru, ei trebuie să înțeleagă conținutul de date, con, structura și modul în care componentele se raportează între ele.
  • Experiență integrată în domeniul științei și integrării datelor permite curățarea, standardizarea și corelarea datelor cu un grad ridicat de precizie și precizie. Instrumentele de vizualizare și rapoartele îi ajută pe analiști să evalueze și să învețe din date și să efectueze reglarea sistemului pe baza cunoștințelor obținute de la diferiți pași în cadrul procesului.
  • Înțelegerea relațiilor între entități rezultă procese mai precise de rezolvare a entității. Deoarece entitățile din lumea reală nu sunt doar suma atributelor lor, ci și conexiunile lor, cunoștințele de relație ar trebui utilizate pentru a detecta când înregistrările sunt aceleași. Acest lucru este important în special pentru tratarea cazurilor de colț și a datelor mari.
  • Caracterizarea datelor îmbunătățește analiza, rezoluția și conectarea datelor prin identificarea și furnizarea informațiilor în cadrul surselor de date. Poate ajuta la validarea conținutului, densității și distribuției datelor în coloane de informații structurate. Caracterizarea datelor poate fi, de asemenea, utilizată pentru a identifica și extrage date importante legate de entitate (nume, adresă, data nașterii etc.) din surse nestructurate și semi-structurate pentru corelarea cu sursele structurate.
  • Arhitectură scalabilă, paralelă realizează analizele rapid chiar și atunci când susține sute de surse de date structurate, semi-structurate și nestructurate și zeci de miliarde de înregistrări.

Hadoop schimbă modul în care lumea realizează analitice. Atunci când se adaugă noi analize agnostice sursă la ecosistemele Hadoop, organizațiile pot conecta punctele prin multe surse de date interne și externe și obțin o perspectivă care nu mai era posibilă până acum.


Acest articol a fost postat inițial la Novetta.com. A fost stufat aici cu permisiunea. Novetta păstrează toate drepturile de autor.