Datele mari au o problemă, dar nu este tehnologie

Autor: Judy Howell
Data Creației: 26 Iulie 2021
Data Actualizării: 13 Mai 2024
Anonim
Briar aplicație de mesagerie fără internet P2P - fără server central - fără date personale
Video: Briar aplicație de mesagerie fără internet P2P - fără server central - fără date personale

Conţinut


La pachet:

Termenul de date mari este utilizat de marketing și de profesioniștii IT deopotrivă, adesea într-un mod întâmplător și incorect. În acest articol se referă bine la ce sunt datele mari și la ce este doar marketingul.

Datele mari se confruntă cu o mare problemă în aceste zile și, destul de interesant, nu are nicio legătură cu tehnologia. Nu, aceasta este o problemă de relații publice, în care datele mari sunt asemănătoare cu infamele anticsante ale lui Tom Cruise de la Oprah: Toți vorbeau despre asta, dar majoritatea oamenilor nu aveau idee despre ce înseamnă asta (iar restul probabil nu le păsa) . Pentru celebrități, hype obscură poate fi un jackpot binevenit. În ceea ce privește business-ul și tehnologia, cu toate acestea, cuvintele cheie, precum datele mari, nu pun întotdeauna decalajul dintre CTO care dorește să implementeze date mari și CEO-ul care vrea să știe De ce.

O definiție completă a datelor mari poate fi în continuare în dezbatere, dar despre ceea ce nu susține nimeni este faptul că datele mari devin din ce în ce mai mari pe zi ce trece, datele corporative explodând an de an și interacțiunile cu social media se întind până la sute de milioane pe zi. Și pe măsură ce afacerile de tot felul devin din ce în ce mai digitale, cantitatea de date existente va fi tot mai mare. Acesta este motivul pentru care este atât de important să înțelegem cât de importante pot fi utilizate datele mari. Să aruncăm o privire asupra modului în care ar putea fi definite datele mari - și de ce a defini această definiție devine din ce în ce mai valoroasă pentru întreprinderile de toate dimensiunile. (Urmați conversația online în jurul datelor mari, consultând experții de date mari pe care să o urmați.)


Ce este Big Data?

Unii apelează la orice situație cu „o mulțime” de date mari. Acest lucru este incorect. Deși un volum mare de informații face parte din definiție, aceasta este incompletă. Oamenii procesează volume mari de date de zeci de ani. Asta înseamnă că baza dvs. de date de 10 GB din anii 90 a fost date mari, pentru că păreau multe la vremea aceea?

Cred că știm cu toții răspunsul la această întrebare. Deci, ce atrage linia între o mulțime de date și date mari? Acest concept a fost cel mai bine explicat de Doug Laney la sfârșitul anului 2000 - da, scuze, datele mari nu sunt noi! El a făcut referire la „3 V” de date mari: volum, viteză și varietate. Aceste V caracterizează diferitele aspecte ale datelor mari și reprezintă, de asemenea, provocările sale cheie. Cu alte cuvinte, ei sunt cei cu care trebuie să se confrunte oricine încearcă să implementeze date mari. Acest cadru ajută, de asemenea, la explicarea tipurilor de software și tehnologie necesare pentru a face față acestor provocări. Să ne uităm la fiecare pe rând. (Aflați mai multe informații despre cele 3 V-uri din Todays Big Data Challenge provine din varietate, nu din volum sau viteză.)


Gândiți-vă la unele dintre companiile care sunt considerate prevestitori în date mari, cum ar fi Google și. În mod clar, aceste companii au foarte mult volum în ceea ce privește datele digitale, dar ritmul cu care se formează aceste date este, de asemenea, minte rapid și, în multe cazuri, se accelerează. În august 2012, a dezvăluit că sistemul său prelucra 2,5 miliarde de bucăți de conținut - și mai mult decât 500 de terabyți de date - în fiecare zi.

Viteza este în legătură cu cât de rapid pot fi captate și crunchiate date, deoarece rezultatele mai rapide sunt disponibile, cu atât mai rapid companiile pot să le răspundă. În unele cazuri de afaceri, chiar și un minut ar fi complet inacceptabil - viteza de întoarcere este măsurată în câteva secunde (sau fracții de secundă). Un exemplu excelent al acestei necesități de viteză poate fi găsit în comerțul electronic. Gândiți-vă cum Amazon.com poate face o achiziție a clienților și, până la afișarea ecranului de confirmare, oferă-le o recomandare personalizată pentru produsele noi de cumpărare. Acest tip de procesare instantanee este acum norma acceptată. Prin urmare, viteza este o provocare pentru datele mari, deoarece dacă datele nu pot fi cruncate suficient de repede, este posibil să nu fie utile. (Citiți mai multe în Big Data: modul în care este capturat, zdrobit și folosit pentru a lua decizii de afaceri.)

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de software care poate schimba viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

varietate

Dacă numai datele s-au prezentat întotdeauna ca uniforme, ordonate și gata pentru procesare într-o bază de date relațională. Cu toate acestea, cu cât colectează mai multe date, cu atât este mai probabil să apară sub diferite forme, cum ar fi, imagini sau date despre senzori. Pe Web, diferite browsere, software și setări ale utilizatorului pot conduce, de asemenea, la colectarea de date inconsistente. Sigur, puteți curăța lucrurile și păstra ceea ce este util, dar datele mari vizează, în general, păstrarea Tot, ceea ce face ca varietatea de date să fie o provocare uriașă în ceea ce privește configurarea arhitecturii de date mari. Ca urmare, implică dezvoltarea unor baze de date mai agile, mai puțin structurate, pentru a extrage și stoca date diverse. Pentru cei care doresc să pună în aplicare infrastructură de date mari, ceea ce înseamnă cu adevărat este aprofundarea în unele tehnologii noi și intimidante și să depună multă muncă pentru a face utile date atât de diverse.

O definiție mare pentru o mare provocare

În rezumat, gândiți-vă la datele mari ca date care nu sunt structurate și, prin urmare, este dificil de procesat folosind arhitecturi tradiționale de baze de date. Modul în care vine la tine este cam ca să bei dintr-un furtun de incendiu, motiv pentru care modelul de 3 Vs face o treabă atât de grozavă de a-l descrie și defini.

Pentru a fi clar, unii discută cu acest lucru și spun că datele mari sunt încă prost definite. În realitate, este mai mult ca datele mari, ca concept, sunt prea mari și prea complexe pentru a fi încapsulate de un singur termen. Ed Dumbill, președinte de program pentru Conferința Stratelor O’Reilly, descrie datele mari ca „date care depășesc capacitatea de procesare a sistemelor de baze de date”. Această definiție simplă și concisă spune totul - cel puțin în teorie. În practică, provocările care trebuie depășite în datele mari sunt mult mai complicate.

După cum Marc Andreesen a pus-o într-o piesă din august 2011 pentru Wall Street Journal, „toată tehnologia necesară pentru transformarea industriilor prin intermediul software-ului funcționează în sfârșit și poate fi livrată pe scară largă la scară globală”. Aceasta a generat o nouă necesitate pentru abordarea statistică, gândirea sistemelor și învățarea automată, care vine împreună cu date mari. Deci, indiferent de definiție, este clar că datele mari sunt una dintre cele mai importante oportunități în IT.