Cum poate Analytics să îmbunătățească afacerile? - Transcriere episodul 2 al TechWise - Tehnologie

Sursa: Flickr / James Royal-Lawson

La pachet:

Gazda Eric Kavanagh discută despre utilizarea analiticii în afaceri cu oamenii de știință de date și liderii din industrie.

Nota editorilor: Aceasta este o transcriere a unuia dintre transmisiile noastre web anterioare. Următorul episod se apropie rapid, faceți clic aici pentru a vă înregistra.

Eric Kavanagh: Doamnelor și domnilor, salut și bineveniți din nou la episodul 2 din TechWise. Da, într-adevăr, este timpul să obțineți oameni înțelepți! Am o mulțime de oameni cu adevărat deștepți pe linia de azi pentru a ne ajuta în acest demers. Numele meu este Eric Kavanagh, desigur. Voi fi gazda ta, moderatorul tău, pentru această sesiune rotundă de fulgere. Avem mult conținut aici, oameni buni. Avem câteva nume mari în afacere, care au fost analiști în spațiul nostru și patru dintre cei mai interesanți furnizori.Așadar, vom face o acțiune bună în acest apel astăzi. Și, desigur, tu în audiență joci un rol semnificativ în a pune întrebări.

Așadar, încă o dată, emisiunea este TechWise, iar subiectul de astăzi este „Cum poate Analytics îmbunătăți afacerile?” Evident, este un subiect fierbinte în care va încerca să înțelegem diferitele tipuri de analize pe care le poți face și cum îți pot îmbunătăți operațiunile, deoarece asta este totul la sfârșitul zilei.

Deci, te poți vedea acolo sus, acesta este cu adevărat al tău. Dr. Kirk Borne, un bun prieten de la Universitatea George Mason. Este un om de știință de date cu o experiență imensă, o expertiză foarte profundă în acest spațiu și extragerea de date și date mari și tot felul de lucruri distractive. Și, desigur, avem chiar propriul nostru doctor, Robin Bloor, analist șef aici, la Bloor Group. Care s-a antrenat ca actuar cu mulți ani în urmă. Și a fost într-adevăr concentrat asupra acestui spațiu mare de date și a spațiului analitic destul de intens în ultima jumătate de deceniu. Au trecut cinci ani de când am lansat Grupul Bloor în sine. Așadar, timpul zboară când te distrezi.

De asemenea, vom auzi de la Will Gorman, Arhitectul șef al Pentaho; Steve Wilkes, CCO al WebAction; Frank Sanders, director tehnic la MarkLogic; și Hannah Smalltree, director la Treasure Data. La fel cum am spus, este mult conținut.

Deci, cum pot analiticile să vă ajute afacerea? Păi, cum nu vă poate ajuta afacerea, sincer? Există tot felul de modalități prin care analizele pot fi utilizate pentru a face lucruri care vă îmbunătățesc organizația.

Prin urmare, eficientizați operațiunile. Acesta este unul despre care nu auziți la fel de multe despre lucruri precum marketing sau creșterea veniturilor sau chiar identificarea de oportunități. Dar eficientizarea operațiunilor dvs. este acest lucru cu adevărat puternic, pe care îl puteți face pentru organizația dvs., deoarece puteți identifica locuri unde puteți externaliza ceva sau puteți adăuga date la un anumit proces, de exemplu. Și asta îl poate eficientiza prin a nu solicita pe cineva să ridice telefonul la care să apeleze sau pe cineva. Există atât de multe moduri diferite de a vă putea eficientiza operațiunile. Și toate acestea ajută cu adevărat la reducerea costurilor, nu? Aceasta este cheia, reduce costurile. Dar vă permite, de asemenea, să vă serviți mai bine clienții.

Și dacă vă gândiți la modul în care au devenit oamenii nerăbdători și văd asta în fiecare zi în ceea ce privește modul în care oamenii interacționează online, chiar și cu spectacolele noastre, furnizorii de servicii pe care îi folosim. Răbdarea pe care o au oamenii, durata atenției, devine din ce în ce mai scurtă pe zi. Și ceea ce înseamnă că este necesar ca, în calitate de organizație, să răspundeți în perioade de timp mai rapide și mai rapide pentru a vă putea satisface clienții.

Așadar, de exemplu, dacă cineva se află pe site-ul tău webcast sau răsfoiește încerca să găsească ceva, dacă se frustrează și pleacă, ei bine, s-ar putea să fi pierdut un client. Și depinde de cât de mult percepeți pentru produsul sau serviciul dvs. și poate este mare lucru. Așadar, linia de jos este că operațiunile de eficientizare, cred, este unul dintre cele mai tari spații pentru aplicarea analizelor. Și faceți acest lucru uitându-vă la numere, scrâșnind datele, dând seama, de exemplu, „Hei, de ce pierdem atât de mulți oameni pe această pagină a site-ului nostru web?” "De ce primim unele dintre aceste apeluri telefonice chiar acum?"

Și cu cât veți putea răspunde mai mult la acest tip de lucruri, cu atât mai mari sunt șansele de a trece deasupra situației și de a face ceva în acest sens înainte de a fi prea târziu. Deoarece există acea perioadă de timp în care cineva se supără de ceva, nu este nemulțumit sau încearcă să găsească ceva, dar este frustrat; aveți o fereastră de oportunitate acolo pentru a ajunge la ei, a-i apuca, a interacționa cu acel client. Și dacă faceți acest lucru în mod corespunzător cu datele corecte sau cu o imagine bună a clientului - să înțelegeți cine este acest client, care este profitabilitatea lor, care sunt preferințele lor - dacă puteți într-adevăr să vă ocupați de asta, veți face o minunată muncă de a ține clienții și de a obține noi clienți. Și despre asta este vorba.

Așadar, cu asta, o voi transmite, de fapt, lui Kirk Borne, unul dintre oamenii de știință ai datelor noastre la apelul de astăzi. Și sunt destul de rare în aceste zile, oameni buni. Avem doi dintre ei cel puțin la apel, așa că este mare lucru. Cu asta, Kirk, o să vă predau pentru a vorbi despre analize și despre modul în care ajută afacerea. Du-te.

Dr. Kirk Borne: Mulțumesc foarte mult, Eric. Mă puteți auzi?

Eric: E în regulă, mergi mai departe.

Dr. Kirk: Bine, bine. Vreau doar să împărtășesc dacă vorbesc timp de cinci minute și oamenii își flutură mâinile la mine. Așa că observația de deschidere, Eric, ați spus că v-ați legat cu adevărat de acest subiect, voi vorbi pe scurt în următoarele câteva minute, care este utilizarea de date mari și analitice pentru ca datele să fie acceptate. Comentariul pe care l-ați făcut despre eficientizarea operațională, pentru mine, se încadrează în acest concept de analiză operațională în care puteți vedea aproape în fiecare aplicație din lume dacă este vorba despre o aplicație științifică, o afacere, o securitate cibernetică și aplicarea legilor și guvern, asistență medicală. Orice număr de locuri în care avem un flux de date și luăm un fel de răspuns sau decizie în reacție la evenimente, alerte și comportamente pe care le vedem în acel flux de date.

Și, astfel, unul dintre lucrurile despre care aș vrea să vorbesc astăzi este un fel de cum extrageți cunoștințele și informațiile din datele mari pentru a ajunge la acel punct în care putem efectiv lua decizii pentru a lua măsuri. Și deseori vorbim despre asta într-un punct de automatizare. Și astăzi vreau să îmbin automatizarea cu analistul uman din buclă. Prin urmare, mă refer la faptul că analistul de afaceri joacă un rol important aici în ceea ce privește pariurile, calificarea, validarea acțiunilor specifice sau a regulilor de învățare automată pe care le extragem din date. Dar dacă ajungem într-un punct în care suntem convinși destul de mult de regulile de afaceri pe care le-am extras și că mecanismele de alertare sunt valabile, atunci putem transforma acest lucru într-un proces automat. De fapt, facem acea operație de eficientizare despre care vorbea Eric.

Așa că am un mic joc despre cuvinte aici, dar sper că, dacă funcționează pentru tine, am vorbit despre provocarea D2D. Și D2D, nu doar datele care sunt deciziile în toate contra, ne uităm la acest fel în partea de jos a acestei diapozitive, sperăm că o puteți vedea, făcând descoperiri și crescând veniturile din canalele noastre de analiză.

Așadar, în această privință, am de fapt acest rol de marketer pentru mine aici acum, când lucrez și acesta este; primul lucru pe care doriți să îl faceți este să vă caracterizați datele, să extrageți funcțiile, să extrageți caracteristicile clienților dvs. sau orice entitate pe care o urmăriți în spațiul dvs. Poate este un pacient într-un mediu de analiză a sănătății. Poate este un utilizator Web dacă te uiți la un fel de problemă de securitate cibernetică. Dar caracterizați și extrageți caracteristici și apoi extrageți câteva con despre acel individ, despre acea entitate. Și apoi adunați acele piese pe care tocmai le-ați creat și le puneți într-un fel de colecție din care puteți aplica apoi algoritmi de învățare automată.

Motivul pentru care o spun în acest fel este că, să spunem, aveți o cameră de supraveghere la un aeroport. Videoclipul în sine este un volum enorm, mare și este, de asemenea, foarte nestructurat. Dar puteți extrage din supraveghere video, biometrie facială și identifica persoanele din camerele de supraveghere. Deci, de exemplu, într-un aeroport, puteți identifica persoane specifice, le puteți urmări prin aeroport, identificând încrucișarea aceluiași individ în mai multe camere de supraveghere. În așa fel încât caracteristicile biometrice extrase pe care le extrageți și să le urmăriți, nu este video-ul detaliat în sine. Dar, odată ce aveți aceste extrageri, puteți aplica reguli și analize de învățare automată pentru a lua decizii cu privire la faptul dacă trebuie să întreprindeți o acțiune într-un anumit caz sau ceva întâmplat incorect sau ceva care aveți posibilitatea de a face o ofertă. Dacă sunteți, de exemplu, dacă aveți un magazin în aeroport și vedeți că clientul vă vine în cale și știți din alte informații despre clientul respectiv, poate că a fost foarte interesat să cumpere lucruri din magazinul fără taxe vamale sau ceva de genul acesta, face acea ofertă.

Deci ce fel de lucruri aș însemna prin caracterizare și potențializare? Prin caracterizare mă refer, din nou, la extragerea caracteristicilor și a caracteristicilor din date. Și aceasta poate fi generată automat, apoi algoritmii săi pot extrage, de exemplu, semnături biometrice din analiza video sau a sentimentelor. Puteți extrage sentimentele clienților prin recenzii online sau pe social media. Unele dintre aceste lucruri pot fi generate de oameni, astfel încât ființa umană, analistul de afaceri, poate extrage funcții suplimentare pe care le voi afișa în diapozitivul următor.

Unele dintre acestea pot fi abordate cu multitudine. Și prin mulțime de oameni, există o mulțime de moduri diferite în care vă puteți gândi. Dar foarte simplu, de exemplu, utilizatorii dvs. vin pe site-ul dvs. web și introduc cuvinte cheie, cuvinte cheie, iar acestea ajung pe o anumită pagină și petrec de fapt timp pe pagina respectivă. Că, cel puțin, înțeleg că vizionează, navighează, fac clic pe lucrurile din pagina respectivă. Ceea ce vă spune este faptul că cuvântul cheie pe care l-au introdus la început este descriptorul acestei pagini, deoarece a aterizat clientul pe pagina pe care o anticipau. Și, astfel, puteți adăuga acea informație suplimentară, adică clienții care folosesc acest cuvânt cheie, au identificat de fapt această pagină web în arhitectura noastră informațională ca locul unde acel conținut se potrivește cu acel cuvânt cheie.

Așadar, crowdsourcing-ul este un alt aspect pe care uneori oamenii îl uită, acela de a urmări pesmetele clienților, ca să zic așa; cum se deplasează prin spațiul lor, fie că este vorba despre o proprietate online sau o proprietate reală. Și apoi folosiți acest fel de drum pe care clientul îl ia ca informații suplimentare despre lucrurile pe care le privim.

Așadar, vreau să spun lucruri generate de oameni, sau mașini generate, au sfârșit să aibă un con în fel de a adnota sau eticheta granule sau entități specifice de date. Indiferent dacă aceste entități sunt pacienți într-un cadru de spital, clienți sau orice altceva. Astfel, există diferite tipuri de etichetare și adnotări. O parte din aceasta este despre datele în sine. Acesta este unul dintre lucruri, ce tip de informație, ce fel de informații, care sunt caracteristicile, formele, poate ureele și tiparele, anomalia, comportamentele care nu sunt anomalia. Și apoi extrageți câteva semantice, adică, cum se referă asta la alte lucruri pe care le știu, sau acest client este client de electronică. Acest client este un client de îmbrăcăminte. Sau acestui client îi place să cumpere muzică.

Deci, identificând unele semantice despre asta, acești clienți cărora le place muzica tind să le placă divertismentul. Poate le-am putea oferi alte proprietăți de divertisment. Așadar, înțelegerea semanticii și, de asemenea, o oarecare proveniență, care se spune practic: de unde a venit acest lucru, cine a furnizat această afirmație, la ce oră, la ce dată, în ce circumstanță?

Așadar, odată ce aveți toate aceste adnotări și caracterizări, adăugați la acel apoi pasul următor, care este con, tipul de cine, ce, când, unde și de ce. Cine este utilizatorul? Care a fost canalul în care au intrat? Care a fost sursa informației? Ce fel de reutilizări am văzut în această informație sau produs special? Și care este valoarea, în ceea ce privește procesul de afaceri? Și apoi colectați acele lucruri și gestionați-le și ajutați de fapt la crearea bazei de date, dacă doriți să vă gândiți la asta. Faceți-le căutabile, reutilizabile, de către alți analiști de afaceri sau printr-un proces automat care, data viitoare când văd aceste seturi de funcții, sistemul poate lua această acțiune automată. Și astfel ajungem la acest tip de eficiență analitică operațională, dar cu cât colectăm informații utile, cuprinzătoare și apoi le curatăm pentru aceste cazuri de utilizare.

Ajungem la afaceri. Facem analiza datelor. Căutăm modele interesante, surprize, contururi inedite, anomalii. Căutăm noi clase și segmente în populație. Căutăm asocieri și corelații și legături între diferitele entități. Și apoi folosim toate acestea pentru a conduce descoperirea, decizia și procesul de luare a dolarului.

Așadar, din nou, aici am obținut ultima diapozitivă de date pe care o fac doar să rezumăm, să ținem analistul de afaceri în buclă, din nou, nu extrageți acel om și este important să îl mențineți acolo.

Deci, aceste caracteristici, toate sunt furnizate de către mașini sau analiști umani sau chiar de publicitate. Aplicăm acea combinație de lucruri pentru a îmbunătăți seturile noastre de pregătire pentru modelele noastre și să încheiem cu modele predictive mai precise, mai puține false pozitive și negative, un comportament mai eficient, intervenții mai eficiente cu clienții noștri sau cu oricine.

Deci, la sfârșitul zilei, combinăm într-adevăr învățarea mașinăriei și datele mari cu această putere a cunoașterii umane, de unde vine acel fel de piesă de adnotare de etichetare. Și asta poate conduce prin vizualizare și analiză vizuală de tip. instrumente sau medii de date imersive sau crowdsourcing. Și, la sfârșitul zilei, ceea ce face cu adevărat este generarea descoperirii noastre, a perspectivelor și a D2D. Și acestea sunt comentariile mele, așa că vă mulțumesc că ați ascultat.

Eric: Hei, sună minunat și lasă-mă să merg înainte și să predau cheile dr. Robin Bloor pentru a-i oferi și perspectiva lui. Da, îmi place să vă aud comentarii despre conceptul de simplificare a operațiunilor și vorbiți despre analize operaționale. Cred că este o zonă mare care trebuie explorată destul de amănunțit. Și cred, foarte repede înainte de Robin, te voi aduce înapoi, Kirk. Este necesar să aveți o colaborare destul de semnificativă între diverși jucători din companie, nu? Trebuie să vorbiți cu oamenii operațiuni; trebuie să-i aduci pe oamenii tăi tehnici. Uneori, primiți oameni de marketing sau oameni de interfață web. Acestea sunt de obicei grupuri diferite. Aveți cele mai bune practici sau sugestii despre cum să-i determinați pe toți să își pună pielea în joc?

Dr. Kirk: Ei bine, cred că asta vine cu cultura de colaborare a afacerilor. De fapt, vorbesc despre cele trei tipuri de C din cultura analitică. Una este creativitatea; alta este curiozitatea, iar a treia este colaborarea. Așadar, vrei oameni creativi, serioși, dar trebuie să-i determini pe acești oameni să colaboreze. Și începe cu adevărat din partea de sus, acel tip de construire a acestei culturi cu oameni care ar trebui să împărtășească în mod deschis și să lucreze împreună pentru atingerea obiectivelor comune ale afacerii.

Eric: Totul are sens. Și chiar trebuie să obțineți o conducere bună în vârf pentru a face acest lucru. Așadar, să mergem înainte și să-l predăm dr. Bloor. Robin, podeaua este a ta.

Dr. Robin Bloor: Bine. Mulțumesc pentru această informație, Eric. Bine, modul în care acestea ies, acestea arată, pentru că avem doi analiști; Văd prezentarea analistului pe care ceilalți tipi nu o au. Știam ce va spune Kirk și pur și simplu merg într-un unghi complet diferit, astfel încât să nu ne suprapunem prea mult.

Așadar, despre ce vorbesc de fapt sau intenționez să vorbesc aici este rolul analistului de date versus rolul analistului de afaceri. Și felul în care îl caracterizez, bine, cu gura căscată într-o anumită măsură, este un fel de lucru al lui Jekyll și Hyde. Diferența fiind, în special, oamenii de știință de date, cel puțin teoretic, știu ce fac. În timp ce analiștii de afaceri nu sunt așa, în regulă modul în care funcționează matematica, ce poate fi de încredere și ce nu poate fi de încredere.

Așadar, să trecem doar la motivul pentru care facem acest lucru, motivul pentru care analiza datelor a devenit brusc o mare parte, în afară de faptul că putem analiza de fapt cantități foarte mari de date și putem extrage date din afara organizației; plătește Modul în care privesc acest lucru - și cred că acesta devine doar un caz, dar cred că este un caz - analiza datelor este într-adevăr R&D de afaceri. Ceea ce faci de fapt într-un fel sau altul cu analiza datelor este că te uiți la un proces de afaceri într-un fel sau dacă acesta este interacțiunea cu un client, fie că este cu modul în care operațiunea dvs. de vânzare cu amănuntul, modul în care îl desfășurați magazinele tale. Nu contează cu adevărat care este problema. Te uiți la un proces de afaceri dat și încerci să-l îmbunătățești.

Rezultatul unei cercetări și dezvoltări reușite este un proces de schimbare. Și vă puteți gândi la fabricație, dacă doriți, ca un exemplu obișnuit în acest sens. Pentru că, în producție, oamenii adună informații despre tot, pentru a încerca și îmbunătăți procesul de fabricație. Dar cred că ceea ce s-a întâmplat sau ceea ce se întâmplă la date mari, toate acestea se aplică acum tuturor afacerilor de orice fel, în orice fel pe care oricine îl poate gândi. Așa că aproape orice proces de afaceri este examinat dacă puteți aduna date despre acesta.

Deci este un lucru. Dacă doriți, asta se pune la analiza datelor. Ce pot face analizele de date pentru afaceri? Ei bine, poate schimba afacerea complet.

Această diagramă specială, pe care nu o voi descrie în profunzime, dar aceasta este o diagramă cu care am apărut ca punctul culminant al proiectului de cercetare pe care l-am făcut în primele șase luni ale acestui an. Acesta este un mod de a reprezenta o arhitectură de date mari. Și o serie de lucruri demne de subliniat înainte de a trece la diapozitivul următor. Există două fluxuri de date aici. Unul este un flux de date în timp real, care merge de-a lungul vârfului diagramei. Celălalt este un flux de date mai lent care merge de-a lungul părții inferioare a diagramei.

Uită-te la partea de jos a diagramei. Avem Hadoop ca rezervor de date. Avem diverse baze de date. Avem acolo o întreagă informație cu o mulțime de activități care se desfășoară pe aceasta, cea mai mare parte fiind o activitate analitică.

Punctul pe care îl fac aici și singurul punct pe care vreau să-l spun aici este faptul că tehnologia este grea. Nu este simplu. Nu e usor. Nu este un lucru pe care oricine este nou în joc poate doar să îl adune. Acest lucru este destul de complex. Și dacă veți instrumenta o afacere pentru a face analize de încredere în toate aceste procese, atunci nu se va întâmpla ceva rapid. Va avea nevoie de multă tehnologie pentru a fi adăugată la mix.

Bine. Întrebarea care este un om de știință de date, aș putea pretinde că sunt un om de date, deoarece am fost instruit de fapt în statistici înainte să fiu vreodată instruit în calcul. Și am făcut o treabă actuarială o perioadă de timp, așa că știu modul în care se organizează o afacere, analiză statistică, de asemenea, pentru a se conduce. Nu este un lucru banal. Și există o mulțime de bune practici implicate atât din partea umană, cât și din partea tehnologiei.

Deci, punând întrebarea „ce este un om de știință de date”, am pus poza Frankenstein doar pentru că este o combinație de lucruri care trebuie tricotate. Există managementul de proiect implicat. În statistică există o înțelegere profundă. Există expertiză în domeniul domeniului, ceea ce reprezintă mai degrabă o problemă a unui analist de afaceri decât a oamenilor de știință de date. Există experiență sau necesitatea de a înțelege arhitectura de date și de a putea construi arhitect de date și există inginerie software implicată. Cu alte cuvinte, este probabil o echipă. Probabil nu este o persoană. Și asta înseamnă că este probabil un departament care trebuie organizat și organizația sa trebuie să fie gândită destul de pe larg.

Aruncând în amestec amestecul de învățare automată. Nu am putea face, vreau să spun, învățarea automată nu este nouă în sensul că cele mai multe tehnici statistice utilizate în învățarea mașinii sunt cunoscute de zeci de ani. Există câteva lucruri noi, vreau să spun că rețelele neuronale sunt relativ noi, cred că au doar 20 de ani, așa că unele dintre ele sunt relativ noi. Însă problema cu învățarea mașinii a fost că, într-adevăr, nu aveam puterea computerului să o facem. Și ceea ce s-a întâmplat, în afară de orice altceva, este că curentul computerului este acum în vigoare. Și asta înseamnă o mulțime groaznică din ceea ce noi, spunem, oamenii de știință de date am făcut anterior în ceea ce privește situațiile de modelare, prelevarea de date și apoi să trimitem asta pentru a produce o analiză mai profundă a datelor. De fapt, în unele cazuri putem arunca doar puterea computerului. Alegeți algoritmi de învățare automată, aruncați-l la date și vedeți ce iese. Și asta este un lucru pe care un analist de afaceri îl poate face, nu? Dar analistul de afaceri trebuie să înțeleagă ce fac. Adică, cred că aceasta este într-adevăr problema, mai mult decât orice.

Ei bine, aceasta este doar pentru a ști mai multe despre afaceri din datele sale decât prin orice alte mijloace. Einstein nu a spus asta, am spus asta. Tocmai i-am pus poza pentru credibilitate. Dar situația care începe să se dezvolte este una în care tehnologia, dacă este folosită corect, iar matematica, dacă este folosită corect, va putea conduce o afacere ca orice individ. Am urmărit acest lucru cu IBM. În primul rând, i-ar putea bate pe cei mai buni tipi la șah, iar apoi i-ar putea învinge pe cei mai buni tipi de la Jeopardy; dar până la urmă vom putea să îi batem pe cei mai buni tipi la conducerea unei companii. Statisticile vor triumfa în cele din urmă. Și este greu să vezi cum nu se va întâmpla asta, pur și simplu nu s-a întâmplat încă.

Așadar, ceea ce spun și acesta este un fel de completare a prezentării mele, sunt aceste două probleme ale afacerii. Primul este: puteți obține tehnologia corect? Puteți face ca tehnologia să funcționeze pentru echipa care, de fapt, va putea să o prezideze și să obțină beneficii pentru afacere? Și, în al doilea rând, puteți să-i aduceți pe oameni bine? Și ambele sunt probleme. Și sunt probleme care nu sunt, până în acest moment, spun că este rezolvată.

Bine Eric, îți voi transmite-o. Sau ar trebui să-l transmit lui Will.

Eric: De fapt, da. Mulțumesc, Will Gorman. Da, acolo te duci, Will. Să vedem. Permiteți-mi să vă dau cheia pentru WebEx. Deci, ce ai de gând? Pentaho, desigur, voi sunteți de ceva vreme și de tipul de BI open-source de unde ați început. Dar ai multe mai mult decât ai avut, așa că haideți să vedem ce aveți în aceste zile pentru analize.

Will Gorman: Absolut. Buna tuturor! Numele meu este Will Gorman. Eu sunt Arhitectul șef la Pentaho. Pentru aceia dintre voi care nu au auzit despre noi, am menționat doar că Pentaho este o companie de integrare și analiză a datelor mari. Suntem în afaceri de zece ani. Produsele noastre au evoluat cot la cot cu marea comunitate de date, începând ca o platformă open-source pentru integrarea și analiza datelor, inovând cu tehnologie precum Hadoop și NoSQL, chiar înainte ca entitățile comerciale formate în jurul acestor tehnologii. Și acum avem peste 1500 de clienți comerciali și multe alte programări de producție, ca urmare a inovației noastre în jurul surselor deschise.

Arhitectura noastră este extrem de încorporabilă și extensibilă, creată special pentru a fi flexibilă, deoarece tehnologia de date mari, în special evoluează într-un ritm foarte rapid. Pentaho oferă trei domenii principale ale produsului, care colaborează pentru a aborda cazurile de utilizare a analizelor de date mari.

Primul produs din arhitectura noastră este Pentaho Data Integration, care este orientat către tehnologul de date și ingineri de date. Acest produs oferă o experiență vizuală, drag and drop pentru definirea conductelor de date și a proceselor pentru orchestrarea datelor în medii de date mari și în medii tradiționale. Acest produs este o platformă ușoară, de metadatabase, de integrare a datelor construită pe Java și poate fi implementată ca un proces în MapReduce sau YARN sau Storm și multe alte platforme de lot și în timp real.

A doua noastră zonă de produse este în jurul analizelor vizuale. Cu această tehnologie, organizațiile și OEM-urile pot oferi o bogată experiență de vizualizare și analiză drag-and-drop pentru analiștii și utilizatorii de afaceri de către browserele și tabletele moderne, permițând crearea ad-hoc de rapoarte și tablouri de bord. La fel ca prezentarea tabloului de bord și rapoartelor perfecte pentru pixeli.

A treia noastră zonă de produse se concentrează pe analize predictive destinate oamenilor de știință de date, algoritmilor de învățare automată. Așa cum am menționat anterior, cum ar fi rețelele neuronale și altele, pot fi încorporate într-un mediu de transformare a datelor, permițând oamenilor de știință de date să treacă de la modelare la mediul de producție, oferind acces la previziune și care ar putea afecta procesele de afaceri foarte imediat, foarte repede.

Toate aceste produse sunt strâns integrate într-o singură experiență agilă și oferă clienților întreprinderii noastre flexibilitatea de care au nevoie pentru a rezolva problemele lor de afaceri. Vedem un peisaj în evoluție rapidă a datelor mari din tehnologiile tradiționale. Tot ceea ce auzim de la unele companii din spațiul mare de date că EDW este aproape de sfârșit. De fapt, ceea ce vedem în clienții noștri din întreprindere este faptul că aceștia trebuie să introducă date mari în procesele de afaceri și IT existente și să nu înlocuiască procesele respective.

Această diagramă simplă arată punctul de arhitectură pe care îl vedem des, care este un tip de arhitectură de implementare EDW cu integrare de date și cazuri de utilizare a BI. Acum această diagramă este similară cu diapozitivul lui Robin asupra arhitecturii de date mari, încorporează date istorice în timp real. Pe măsură ce apar noi surse de date și cerințe în timp real, vedem datele mari ca o parte suplimentară a arhitecturii IT generale. Aceste noi surse de date includ date generate de mașini, date nestructurate, volumul standard și viteza și varietatea cerințelor despre care auzim în datele mari; ele nu se încadrează în procesele EDW tradiționale. Pentaho lucrează îndeaproape cu Hadoop și NoSQL pentru a simplifica ingestia, procesarea datelor și vizualizarea acestor date, precum și amestecarea acestor date cu surse tradiționale pentru a oferi clienților o vedere completă asupra mediului de date. Facem acest lucru într-o manieră guvernată, astfel încât IT-ul să poată oferi o soluție de analiză completă liniei lor de afaceri.

În încheiere, aș dori să subliniez filozofia noastră în ceea ce privește analiza și integrarea datelor mari; credem că aceste tehnologii lucrează mai bine împreună cu o arhitectură unificată unică, permițând o serie de cazuri de utilizare care altfel nu ar fi posibile. Mediile de date ale clienților noștri sunt mai mult decât simple date, Hadoop și NoSQL. Orice date este un joc corect. Și sursele mari de date trebuie să fie disponibile și să lucreze împreună pentru a afecta valoarea afacerii.

În cele din urmă, considerăm că pentru a rezolva aceste probleme de afaceri în întreprinderi foarte eficient prin date, IT și linii de activitate trebuie să lucreze împreună pe o abordare guvernată, combinată, a analizelor de date mari. Mulțumesc foarte mult că ne-ați dat timpul să vorbim, Eric.

Eric: Pariați. Nu, sunt lucruri bune. Vreau să mă întorc la acea parte a arhitecturii tale, pe măsură ce ajungem la întrebări. Să trecem prin restul prezentării și vă mulțumim foarte mult pentru asta. Voi, cu siguranță, v-ați mișcat rapid în ultimii doi ani, trebuie să spun asta cu siguranță.

Așadar, Steve, dă-mi voie să merg mai departe și ți-o predau. Și trebuie doar să faceți clic acolo pe săgeata în jos și mergeți pentru ea. Așadar, Steve, vă dau cheile. Steve Wilkes, faceți clic pe săgeata cea mai îndepărtată de pe tastatură.

Steve Wilkes: Acolo mergem.

Eric: Acolo te duci.

Steve: Totuși, este o informație minunată pe care mi-ai oferit-o.

Eric: Da.

Steve: Deci eu sunt Steve Wilkes. Sunt CCO la WebAction. Suntem în jur doar în ultimii doi ani și, cu siguranță, ne-am mișcat rapid și de atunci. WebAction este o platformă în timp real de analiză a datelor mari. Eric a menționat mai devreme, un fel de, cât de important este timpul real și cât de real sunt aplicațiile dvs. în timp real. Platforma noastră este proiectată pentru a construi aplicații în timp real. Și pentru a activa următoarea generație de aplicații bazate pe date care pot fi construite incremental pe și pentru a permite oamenilor să construiască tablouri de bord din datele generate din acele aplicații, dar care să se concentreze pe timp real.

Platforma noastră este de fapt o platformă end-to-end, care face totul, de la achiziția de date, procesarea datelor, până la vizualizarea datelor. Și permite mai multor tipuri diferite de persoane din cadrul întreprinderii noastre să lucreze împreună pentru a crea aplicații adevărate în timp real, oferindu-le informații despre lucrurile care se întâmplă în întreprinderea lor așa cum s-au întâmplat.

Și acest lucru este puțin diferit de ceea ce au văzut majoritatea oamenilor în date mari, astfel încât abordarea tradițională - bine, tradițională în ultimii doi ani - abordarea cu date mari a fost să o surprindă dintr-o mulțime de surse diferite și apoi îngrămădindu-l într-un rezervor mare sau lac sau orice vrei să-l numim. Și apoi procesați-o atunci când trebuie să rulați o interogare pe ea; să efectueze analize istorice la scară largă sau chiar interogarea ad-hoc a unor cantități mari de date. Acum funcționează pentru anumite cazuri de utilizare. Dar dacă doriți să fiți proactiv în întreprinderea dvs., dacă doriți să vi se spună de fapt ce se întâmplă, mai degrabă decât să aflați când ceva a mers greșit spre sfârșitul zilei sau spre sfârșitul săptămânii, atunci chiar trebuie să vă mutați la timp real.

Și asta schimbă puțin lucrurile. Mută procesarea la mijloc. Deci, efectiv, luați acele fluxuri de cantități mari de date care sunt generate continuu în cadrul întreprinderii și le prelucrați pe măsură ce le obțineți. Și pentru că îl prelucrați pe măsură ce îl obțineți, nu trebuie să stocați totul. Puteți stoca doar informațiile importante sau lucrurile de care trebuie să vă amintiți că s-au întâmplat de fapt. Prin urmare, dacă urmăriți locația GPS a vehiculelor care se deplasează pe drum, nu vă pasă cu adevărat unde sunt în fiecare secundă, nu trebuie să stocați unde sunt în fiecare secundă. Trebuie doar să vă pese, au părăsit acest loc? Au ajuns în acest loc? Au condus, sau nu, autostrada?

Așadar, este foarte important să luăm în considerare că pe măsură ce sunt generate tot mai multe date, atunci cele trei versiuni. Velocitatea determină practic cât de multe date generează în fiecare zi. Cu cât sunt generate mai multe date, cu atât mai mult trebuie să stocați. Și cu cât trebuie să stocați mai mult, cu atât va dura mai mult pentru procesare. Dar dacă îl puteți procesa așa cum îl obțineți, atunci obțineți un beneficiu foarte mare și puteți reacționa la acest lucru. Vi se poate spune că lucrurile se întâmplă mai degrabă decât să le căutăm mai târziu.

Deci platforma noastră este proiectată pentru a fi extrem de scalabilă. Are trei piese majore - piesa de achiziție, piesa de prelucrare și apoi piesele de vizualizare a livrării platformei. În ceea ce privește achiziția, nu ne uităm doar la datele de jurnal generate de mașini, cum ar fi jurnalele web sau aplicațiile care au toate celelalte jurnale care sunt generate. Putem de asemenea să intrăm și să modificăm captarea datelor din baze de date. Prin urmare, asta ne permite, practic, am văzut partea ETL pe care Will a prezentat-o și ETL tradițional trebuie să executați interogări în baza de date. Ni se poate spune când se întâmplă lucruri în baza de date. Îl schimbăm și îl surprindem și primim acele evenimente. Și atunci există, evident, fluxurile sociale și datele despre dispozitivele live care vă sunt pompate prin prize TCP sau ACDP.

Există o mulțime de moduri diferite de obținere a datelor. Și vorbind despre volum și viteză, vedem volume care reprezintă miliarde de evenimente pe zi, nu? Deci, este o cantitate mare de date care intră și trebuie procesată.

Aceasta este procesată de un grup de servere. Toate serverele au aceeași arhitectură și sunt capabile să facă aceleași lucruri. Dar le puteți configura pentru a, sorta, a face diferite lucruri. Și în cadrul serverelor avem un strat de procesare a interogărilor de mare viteză care vă permite să faceți niște analize în timp real asupra datelor, să faceți îmbogățirea datelor, să faceți corelarea evenimentelor, să urmăriți lucrurile care se întâmplă în ferestrele de timp, să faceți predicții. analize bazate pe tipare care sunt văzute în date. Și aceste date pot fi apoi stocate într-o varietate de locuri - RDBMS tradițional, depozitul de date pentru întreprinderi, Hadoop, infrastructura de date mari.

Și aceleași date în direct pot fi utilizate și pentru a alimenta aplicații bazate pe date în timp real. Aceste aplicații pot avea o vizualizare în timp real a ceea ce se întâmplă și oamenii pot fi, de asemenea, avertizați atunci când se întâmplă lucruri importante. Deci, mai degrabă decât să fii nevoit să intri la sfârșitul zilei și să afli că ceva rău s-a întâmplat cu adevărat mai devreme în ziua respectivă, ai putea fi alertat cu privire la asta în al doilea moment în care îl vedem și merge direct la pagina de jos pentru a afla ce este continuând.

Așadar, schimbă complet paradigma de la nevoia de a analiza datele după faptul că ni se spune atunci când se întâmplă lucruri interesante. Iar platforma noastră poate fi apoi utilizată pentru a construi aplicații bazate pe date. Și chiar aici ne concentrăm, construim aceste aplicații. Pentru clienți, cu clienți, cu o varietate de parteneri diferiți pentru a arăta adevărata valoare în analiza datelor în timp real. Astfel, aceasta permite persoanelor care, sau companiilor care fac aplicații de site, de exemplu, să poată urmări utilizarea clienților în timp și să se asigure că calitatea serviciilor este îndeplinită, să detecteze fraude în timp real sau spălare de bani, să detecteze mai multe autentificări sau Încercările de hack-uri și acele tipuri de evenimente de securitate, pentru a gestiona lucruri precum set-top box-uri sau alte dispozitive, mașini bancomate care să le monitorizeze în timp real pentru defecțiuni, eșecuri care s-au întâmplat, s-ar putea întâmpla, se vor întâmpla în viitor pe baza unei analize predictive. Și asta se întoarce la punctul de a eficientiza operațiunile pe care Eric le-a menționat mai devreme, pentru a putea observa când se va întâmpla ceva și a-ți organiza afacerea pentru a remedia acele lucruri, mai degrabă decât să fii nevoit să chemi pe cineva ca să efectueze ceva după fapt, ceea ce este mult mai scump.

Analiza consumatorilor este o altă piesă pentru a putea ști când un client face ceva în timp ce încă este acolo în magazinul tău. Datele trimise conducerii pentru a putea monitoriza în timp real utilizarea resurselor și schimba acolo unde se execută lucrurile și pentru a putea ști când lucrurile vor eșua într-un mod mult mai oportun.

Deci, acestea sunt produsele noastre pe scurt și sunt sigur că vom reveni la unele dintre aceste lucruri în sesiunea de întrebări și întrebări. Mulțumesc.

Eric: Da, într-adevăr. Buna treaba. Bun bine. Și acum următoarea oprire în runda noastră de fulgere, îl avem pe Frank Sanders să apeleze la MarkLogic. Cunosc acești tipi de câțiva ani, o tehnologie de baze de date foarte, foarte interesantă. Așadar, Frank, vi-l predic. Doar faceți clic pe oriunde. Folosiți săgeata în jos de pe tastatură și sunteți în cursă. Acolo te duci.

Frank Sanders: Mulțumesc foarte mult, Eric. Așa cum a menționat Eric, sunt cu o companie numită MarkLogic. Și ceea ce face MarkLogic este să oferim o bază de date NoSQL pentru întreprindere. Și poate, cea mai importantă capacitate pe care o aducem la masă cu privire la aceasta este capacitatea de a reuni toate aceste surse de informații diferite pentru a analiza, căuta și utiliza informațiile într-un sistem similar cu ceea ce ești. obișnuit cu sistemele relaționale tradiționale, nu?

Și unele dintre caracteristicile cheie pe care le aducem în această privință sunt toate caracteristicile întreprinderii pe care le așteptați de la un sistem tradițional de gestionare a bazelor de date, securitatea, HA, DR, backup-ul dvs. sunt în depozit, activul dvs. tranzacții. La fel și designul care vă permite să extindeți pe cloud sau în hardware-ul mărfii, astfel încât să puteți gestiona volumul și viteza informațiilor pe care va trebui să le gestionați pentru a construi și analiza acest tip De informații.

Și poate, cea mai importantă capacitate este faptul că suntem schema agnostică. Ceea ce înseamnă asta, practic, este că nu trebuie să decideți cum va arăta datele dvs. când începeți să construiți aplicațiile sau când începeți să strângeți aceste informații. Însă, în timp, puteți încorpora noi surse de date, puteți extrage informații suplimentare, apoi puteți utiliza pârghie și interogare și puteți analiza aceste informații la fel ca și în cazul în care ați existat din momentul în care ați început proiectarea. Bine?

Deci, cum facem asta? Cum vă permitem de fapt să încărcați diferite tipuri de informații, fie că este vorba de triplete RDF, date geospatiale, date temporale, date și valori structurate sau binare. Și răspunsul este că am construit serverul de la sol pentru a încorpora tehnologie de căutare, care vă permite să introduceți informații, iar informațiile pe care le descriu în sine și vă permit să interogați, să recuperați și să căutați informațiile, indiferent de sursa sau formatul acesteia .

Și ceea ce înseamnă practic este că și de ce acest lucru este important atunci când faci analize - este că analitica și informațiile sunt cele mai importante atunci când sunt conualizate și orientate corespunzător, nu? Așadar, o parte cheie foarte importantă a oricărui tip de analiză este căutarea, iar partea cheie este analiza de căutare. Nu poți avea unul fără celălalt și să obții cu succes ceea ce ai propus să obții. Dreapta?

Și voi vorbi pe scurt despre trei cazuri și jumătate de utilizare diferite ale clienților pe care îi avem la producție, care folosesc MarkLogic pentru a alimenta acest tip de analiză. Bine. Așadar, primul astfel de client este județul Fairfax. Și județul Fairfax a construit de fapt două aplicații separate. Unul se bazează în jurul autorizării și gestionării proprietății. Iar cealaltă, care este probabil un pic mai interesantă, este aplicația pentru evenimentele poliției din județul Fairfax. Ceea ce face de fapt cererea de evenimente polițienești este să strângă informații precum rapoarte ale poliției, rapoarte și plângeri ale cetățenilor, Tweet-uri, alte informații pe care le au, cum ar fi infractorii sexuali și orice alte informații la care au acces de la alte agenții și surse. Apoi le permite să vizualizeze acest lucru și să le prezinte cetățenilor, astfel încât aceștia să poată face percheziții și să analizeze diverse activități ale criminalității, activitatea poliției, totul printr-un singur indice geospatial unificat, nu? Așadar, puteți pune întrebări de genul: „care este rata infracțiunii în termen de cinci mile” sau „ce crime au avut loc la cinci mile de locația mea?” Bine.

Un alt utilizator pe care îl avem, un alt client pe care îl avem este OCDE. De ce OCDE este importantă pentru această conversație, se datorează faptului că pe lângă tot ceea ce am activat pentru județul Fairfax în ceea ce privește colectarea informațiilor, nu; toate informațiile pe care le-ați obține din toate diferitele țări membre ale OCDE pe care le raportează din perspectivă economică. De fapt, am pus un exercițiu țintă în acest sens. Așadar, puteți vedea pe partea stângă, vom vedea în mod special Danemarca și puteți vedea o petală de flori deasupra acesteia, care o evaluează pe diferite axe. Dreapta? Și totul este bine. Dar ceea ce a făcut OCDE este că au făcut un pas mai departe.

În afară de aceste frumoase vizualizări și de a reuni toate aceste informații, acestea vă permit de fapt, în timp real, să vă creați propriul indice de viață mai bun, pe dreapta, pe care îl puteți vedea pe partea dreaptă. Deci, ceea ce ai acolo este că ai un set de glisiere care îți permit de fapt să faci lucruri precum rangul cât de important este locuința pentru tine sau veniturile, locurile de muncă, comunitatea, educația, mediul, implicarea civică, sănătatea, satisfacția vieții, siguranța și munca ta /balanta vietii. Și bazându-vă dinamic pe modul în care introduceți aceste informații și ponderați acele lucruri, MarkLogic utilizează capacitatea sa de indexare în timp real și capacitatea de interogare pentru a schimba de fapt modul în care fiecare dintre aceste țări este clasată pentru a vă oferi o idee despre cât de bine hărți de țară sau de stil de viață printr-o anumită țară. Bine?

Iar ultimul exemplu pe care îl voi împărtăși este MarkMail. Și ceea ce MarkMail încearcă cu adevărat să demonstreze este că putem oferi aceste capabilități și puteți face felul de analiză nu numai pe informații structurate sau informații care vin cu date numerice, ci, de fapt, pe informații mai puțin structurate, nestructurate, nu? Lucruri precum s. Și ceea ce am văzut aici este că tragem de fapt informații precum geolocalizare, er, companie, stive și concepte precum Hadoop care sunt menționate în conținutul și apoi vizualizându-l pe hartă, precum și privim cine sunt acei indivizi și ce lista de peste, o trimisă și o dată. În acest caz, te uiți la lucruri care nu sunt structurate în mod tradițional, care pot fi structurate vag, dar sunt în continuare capabile să obțină o analiză structurată din informațiile respective, fără a fi nevoie să mergi la o lungime mare pentru a încerca să o structurezi sau să o prelucrezi la o vreme. Si asta e.

Eric: Bine, bine. Și mai avem unul. Avem Hannah Smalltree de la Treasure Data, o companie foarte interesantă. Și acesta este un conținut foarte bun, oameni buni. Vă mulțumesc foarte mult pentru voi pentru că ați adus diapozitive atât de bune și de detalii atât de bune. Deci, Hannah, tocmai v-am dat tastele, faceți clic oriunde și folosiți săgeata în jos de pe tastatură. Ai inteles. Ia-o de aici.

Hannah Smalltree: Mulțumesc mult, Eric. Acesta este Hannah Smalltree din Treasure Data. Sunt un director cu Treasure Data, dar am un trecut ca jurnalist tehnic, ceea ce înseamnă că apreciez două lucruri. În primul rând, acestea pot fi lungi pentru a putea sta printr-o mulțime de descrieri diferite ale tehnologiei și toate pot suna parcă ar merge împreună, așa că vreau să mă concentrez asupra diferențiatorului nostru. Și aplicațiile din lumea reală sunt cu adevărat importante, așa că apreciez că toți colegii mei s-au bucurat de a le oferi.

Treasure Data este un nou tip de serviciu de date mari. Am fost livrate integral pe cloud într-un software ca model de serviciu sau serviciu gestionat. Deci, după cum a spus dr. Bloor mai devreme, această tehnologie poate fi foarte grea și poate dura foarte mult să te ridici și să funcționezi. Cu Treasure Data, puteți obține toate aceste tipuri de capabilități pe care le puteți obține într-un mediu Hadoop sau într-un mediu complicat pe premisă în cloud foarte rapid, ceea ce este cu adevărat util pentru aceste noi inițiative de date mari.

Acum vorbim despre serviciul nostru în câteva etape diferite. Oferim câteva funcții de colectare foarte unice pentru colectarea datelor de streaming, în special date despre evenimente, alte tipuri de date în timp real. Vom vorbi puțin mai mult despre aceste tipuri de date. Acesta este un mare diferențiator pentru serviciile noastre. Pe măsură ce intrați în date mari sau dacă sunteți deja în el, știți că colectarea acestor date nu este banală. Când te gândești la o mașină cu 100 de senzori care înglobează date în fiecare minut, chiar și cei 100 de senzori care introduc date la fiecare zece minute, asta se adaugă într-adevăr rapid pe măsură ce începeți să înmulțiți cantitatea de produse pe care le aveți acolo cu senzori și devine rapid foarte dificil de gestionat. Așadar, vorbim cu clienți care au milioane, avem clienți care au miliarde de rânduri de date pe zi, pe care ne-au făcut. Și fac asta ca o alternativă pentru a încerca și a gestiona asta singuri într-o infrastructură Amazon complicată sau chiar încearcă să o aducă în propriul mediu.

Avem propriul nostru mediu de stocare în cloud. O gestionăm. O monitorizăm. Avem o echipă de oameni care efectuează tot ceea ce vă ajută. Și astfel datele curg în interior, acestea intră în mediul nostru de stocare gestionat.

Apoi am încorporat motoare de interogare, astfel încât analistul dvs. să poată intra și rula interogări și să facă unele descoperiri inițiale și explorare a datelor împotriva datelor. Acum avem câteva motoare de interogare diferite. Puteți utiliza sintaxa SQL, pe care analiștii dvs. o știu și o iubesc probabil, pentru a face unele descoperiri de bază de date, pentru a face unele analize mai complexe, care sunt funcții definite de utilizator sau chiar pentru a face lucruri la fel de simple precum agregarea datelor și să le facă mai mici, astfel încât îl puteți introduce în mediul existent al depozitului de date.

De asemenea, vă puteți conecta instrumentele de BI existente, Tableau, este un partener mare al nostru; dar într-adevăr majoritatea BI-urilor, instrumentelor de vizualizare sau de analiză se pot conecta prin intermediul driverului nostru standard JDBC și ODBC. Prin urmare, vă oferă acest set complet de capacități de date mari. Vi se permite să exportați rezultatele sau seturile de date ale interogărilor în orice moment gratuit, astfel încât să puteți integra cu ușurință aceste date. Tratați acest lucru ca o rafinărie de date. Îmi place să mă gândesc la ea mai mult ca la o rafinărie decât la un lac, deoarece de fapt poți face chestii cu ea. Puteți parcurge, găsi informațiile valoroase și apoi aduce-le în procesele dvs. de întreprindere.

Diapozitivul următor, vorbim despre cele trei V-uri de date mari - unii oameni spun patru sau cinci. Clienții noștri tind să se lupte cu volumul și viteza datelor care vin la ei. Și, astfel, pentru a ne informa mai exact despre tipurile de date - Clickstream, jurnalele de acces Web, datele mobile este o zonă mare pentru noi, jurnalele de aplicații mobile, jurnalele de aplicații din aplicații web personalizate sau alte aplicații, jurnalele de evenimente. Și din ce în ce mai mult, avem o mulțime de clienți care se ocupă de datele senzorilor, deci de la dispozitivele purtabile, de la produse, de la automobile și de alte tipuri de date despre mașini. Deci, când spun date mari, acesta este tipul de date mari despre care vorbesc.

Acum, câteva cazuri de utilizare în perspectivă pentru dvs. - lucrăm cu un retailer, un mare distribuitor. Sunt foarte cunoscuți în Asia. Ei se extind aici în SUA. Vei începe să vezi magazine; sunt adesea numite asiatice IKEA, deci, design simplu. Au o aplicație de fidelizare și un site web. Și, de fapt, folosind Treasure Data, au fost capabili să implementeze aplicația de loialitate foarte rapid. Clienții noștri se ridică și funcționează în câteva zile sau săptămâni datorită software-ului și arhitecturii noastre de servicii și pentru că avem toți oamenii care fac toată această muncă grea în culise pentru a vă oferi toate aceste capacități ca serviciu.

Așa că folosesc serviciul nostru pentru analiza aplicațiilor mobile, care analizează comportamentul, ceea ce oamenii fac clic în aplicația lor de loialitate mobilă. Se uită la clicurile site-ului și se combină cu datele noastre de comerț electronic și POS pentru a proiecta promoții mai eficiente. De fapt, au vrut să-i conducă pe oameni în magazine, deoarece au descoperit că oamenii, atunci când merg în magazine, cheltuiesc mai mulți bani și eu sunt așa; pentru a ridica lucrurile, cheltuiți mai mulți bani.

Un alt caz de utilizare pe care îl vedem în jocurile video digitale, o agilitate incredibilă. Ei vor să vadă exact ce se întâmplă în jocul lor și să facă modificări la acel joc chiar și în câteva ore de la lansare. Deci, pentru ei, acea viziune în timp real este incredibil de importantă. Tocmai am lansat un joc, dar am observat în prima oră că toată lumea renunță la nivelul 2; cum vom schimba asta? S-ar putea să schimbe asta în aceeași zi. Deci timpul real este foarte important. Ne trimit miliarde de jurnale de evenimente pe zi. Dar aceasta ar putea fi orice fel de aplicație mobilă în care doriți un fel de vizualizare în timp real a modului în care cineva folosește asta.

Și în sfârșit, o zonă mare pentru noi este comportamentul produsului și analiza senzorilor. La fel și cu datele despre senzori care se află în mașini, adică în alte tipuri de mașini, utilități, care este o altă zonă pentru noi, în dispozitivele purtabile. Avem echipe de cercetare și dezvoltare care doresc să știe rapid care este impactul unei schimbări la un produs sau persoane interesate de comportamentul interacțiunii cu produsul. Și avem mai multe cazuri de utilizare pe care, desigur, ne bucurăm să le împărtășim.

Și, în sfârșit, vă arată doar cum se pot încadra în mediul dvs., oferim din nou capacitatea de a colecta aceste date. Avem o tehnologie de colecție foarte unică. Așadar, din nou, dacă colectarea în timp real este ceva cu care te confrunți sau anticipezi să te lupți, te rog să te uiți la serviciul de date Treasure. Am realizat cu adevărat capabilități pentru colectarea datelor în flux. Puteți, de asemenea, să vă încarcați în vrac datele, să le stocați, să le analizați cu motoarele noastre de interogare încorporate și apoi, așa cum am menționat, le puteți exporta direct în depozitul de date. Cred că Will a menționat nevoia de a introduce date mari în procesele tale existente. Deci nu vă ocoliți sau nu creați un nou siloz, dar cum faceți ca aceste date să fie mai mici și apoi să le mutați în depozitul de date și vă puteți conecta la BI, instrumente de vizualizare și analize avansate.

Dar poate, punctele cheie cu care vreau să vă las este că suntem un serviciu gestionat, adică software-ul ca serviciu; este foarte rentabil. Un serviciu de abonament lunar începând de la câteva mii de dolari pe lună și vă vom pune în funcțiune în câteva zile sau săptămâni. Așadar, comparați-o cu costul de luni și luni de construire a propriei infrastructuri și de angajare a acelor persoane, de a găsi și de a petrece tot timpul în infrastructură. Dacă experimentați sau aveți nevoie de ceva ieri, puteți să vă lansați și să derulați foarte repede cu Treasure Data.

Și doar vă orientez către site-ul nostru web și către serviciul nostru inițial. Dacă sunteți o persoană interesată, care îi place să joace, vă rugăm să consultați serviciul nostru de pornire. Puteți accesa, nu este necesară o carte de credit, doar un nume și, puteți să vă jucați cu datele noastre de probă, să vă încărcați propriile date și să înțelegeți cu adevărat ce vorbim. Deci, mulțumesc mult. De asemenea, consultați site-ul nostru web. Anul acesta am fost numiți Gartner Cool Vendor în Big Data, foarte mândri de asta. De asemenea, puteți obține gratuit o copie a acestui raport pe site-ul nostru web, precum și multe alte cărți albe ale analistului. Deci, mulțumesc mult.

Eric: Bine, mulțumesc foarte mult. Avem timp pentru întrebări aici, oameni buni. Vom parcurge un pic și pentru că avem încă o mulțime de oameni aici. Și știu că am și eu câteva întrebări, așa că permiteți-mi să merg mai departe și să preia controlul și apoi voi pune câteva întrebări. Robin și Kirk, simțiți-vă liberi să vă scufundați după cum considerați de cuviință.

Așa că permiteți-mi să merg mai departe și să sar direct la unul dintre aceste primele diapozitive pe care le-am verificat de la Pentaho. Aici, îmi place această arhitectură de date mari în evoluție, puteți vorbi despre cum se face că acest tip se potrivește la o companie? Pentru că, evident, intrați într-o organizație destul de mare, chiar și într-o companie de dimensiuni medii, și veți avea parte de oameni care au deja unele din aceste lucruri; cum împărțiți totul împreună? Cum arată aplicația care te ajută să coasezi toate aceste lucruri, iar cum arată interfața?

Will: Marea întrebare. Interfețele sunt variate în funcție de persoanele implicate. Dar, ca exemplu, ne place să spunem povestea - unul dintre specialiștii a menționat cazul de utilizare a rafinăriei de date - vedem că mulți sunt în clienți.

Unul dintre exemplele noastre de clienți despre care vorbim este Paytronix, unde au acel mediu tradițional de date EDW. De asemenea, aceștia introduc Hadoop, în special Cloudera, și cu experiențe diverse ale utilizatorilor în acest sens. Așadar, mai întâi există o experiență în domeniul ingineriei, deci cum să conectați toate aceste lucruri? Cum creezi lipiciul dintre mediul Hadoop și EDW?

Și atunci aveți experiența de utilizator de afaceri despre care am vorbit, o serie de instrumente BI acolo, nu? Pentaho are un instrument de BI mai încorporat OEM, dar există unele bune acolo, cum ar fi Tableau și Excel, de exemplu, unde oamenii doresc să exploreze datele. Dar, de obicei, vrem să ne asigurăm că datele sunt guvernate, nu? Una dintre întrebările din discuții, ce se întâmplă cu experiența cu o singură versiune, cum gestionați asta și fără ca tehnologia precum integrarea datelor Pentaho să îmbine datele respective nu pe sticlă, ci în mediile IT. Prin urmare, protejează și guvernează datele și permite o singură experiență pentru analistul de afaceri și utilizatorii de afaceri.

Eric: Bine, bine. Acesta este un răspuns bun la o întrebare dificilă, sincer. Și permiteți-mi să pun întrebarea fiecăruia dintre prezentatori și apoi, probabil, Robin și Kirk, dacă doriți și voi să săriți. Așadar, aș dori să merg înainte și să împing acest slide pentru WebAction, care cred că este într-adevăr o companie foarte interesantă. De fapt, îl cunosc pe Sami Akbay, care este unul dintre cofondatori. Îmi amintesc că am vorbit cu el acum câțiva ani și am spus: "Hei, ce faci? Ce faci? Știu că trebuie să lucrezi la ceva." Și, desigur, a fost. Lucra la WebAction, sub copertile de aici.

A venit o întrebare pentru dumneavoastră, Steve, așa că vă voi arunca cu privire la curățarea datelor, nu? Puteți vorbi despre aceste componente ale acestei capacități în timp real? Cum te descurci cu probleme precum curățarea datelor sau calitatea datelor sau cum funcționează chiar?

Steve: Deci depinde cu adevărat de unde primiți fluxurile dvs. În mod obișnuit, dacă primiți fluxurile dvs. dintr-o bază de date pe măsură ce schimbați captura de date, atunci, din nou, depinde de modul în care au fost introduse datele. Curățarea datelor devine într-adevăr o problemă atunci când obțineți datele dvs. din mai multe surse sau persoane le introduc manual sau când aveți un caracter arbitrar de care trebuie să încercați să scoateți lucrurile. Și acest lucru ar putea fi cu siguranță parte a procesului, deși acest tip nu se pretează pur și simplu la o procesare în timp real adevărată, de mare viteză. Curățarea datelor, de obicei, este un proces scump.

Așa că se poate face asta, după fapt, pe site-ul magazinului. Dar celălalt lucru la care platforma este într-adevăr, foarte bun este corelarea, deci în corelație și îmbogățirea datelor. Puteți, în timp real, să corelați datele primite și să verificați dacă se potrivesc cu un anumit model sau se potrivesc cu datele care sunt preluate dintr-o bază de date sau Hadoop sau un alt magazin. Așa că îl poți corela cu datele istorice, este un lucru pe care l-ai putea face.

Celălalt lucru pe care îl puteți face este practic să faceți analize pe aceste date și să vedeți dacă se potrivesc cu anumite tipare necesare. Și asta este ceva ce puteți face și în timp real. Dar tipul tradițional de curățare a datelor, în care corectați numele companiei sau corectați adresele și toate aceste tipuri de lucruri, acestea ar trebui să fie făcute probabil în sursa sau felul de fapt, ceea ce este foarte scump și vă rugați că nu le vor face pe cele în timp real.

Eric: Da. Și voi, într-adevăr, încercați să abordați natura, în timp real, a lucrurilor, dar și să-i atragi pe oameni în timp. Și am vorbit, corect, am menționat la începutul orei, această întreagă fereastră de oportunitate și vizați într-adevăr aplicații specifice la companii unde puteți trage împreună datele care nu merg pe ruta obișnuită, parcurgeți această rută alternativă și faceți acest lucru într-o latență atât de scăzută încât puteți păstra clienții. De exemplu, puteți să-i păstrați pe oameni mulțumiți și este interesant, când am vorbit cu Sami de lungă despre ceea ce faceți voi, el a dat un punct foarte bun. El a spus, dacă te uiți la o mulțime de noi aplicații bazate pe Web; să ne uităm la lucruri precum Bitly sau unele dintre aceste alte aplicații; sunt foarte diferite decât aplicațiile vechi pe care le-am analizat, de exemplu, Microsoft, cum ar fi Microsoft Word.

De multe ori folosesc Microsoft ca un fel de băiat bici și mai exact Word pentru a vorbi despre evoluția software-ului. Pentru că Microsoft Word a început ca, desigur, un program de procesare a textului. Sunt unul dintre acei oameni care își aduc aminte de Word Perfect. Mi-a plăcut să pot face cheile de dezvăluire sau codul de dezvăluire, practic, care este locul unde puteți vedea codul propriu-zis acolo. Puteți curăța ceva dacă lista cu punctele greșite ar putea fi curățată. Ei bine, Word nu te lasă să faci asta. Și vă pot spune că Word încorporează un munte de cod în fiecare pagină pe care o faceți. Dacă cineva nu mă crede, atunci accesați Microsoft Word, tastați „Hello World” și apoi faceți „Export ca” sau „Salvați ca” .html. Apoi, deschideți documentul într-un editor și acesta va avea aproximativ patru pagini de coduri doar pentru două cuvinte.

Deci, băieți, am crezut că este foarte interesant și a venit timpul să vorbim despre asta. Și acolo este pe care vă concentrați, corect, identifică ceea ce ați putea numi oportunități multiplă platforme sau întreprinderi sau mai multe domenii pentru a trage date împreună într-un timp atât de rapid încât puteți schimba jocul, nu?

Steve: Da, absolut. Și una dintre cheile la care, oricum, ai evitat, este că vrei să afli cu adevărat lucruri despre care se întâmplă înainte ca clienții tăi să o facă sau înainte ca ei să devină cu adevărat o problemă. Ca exemplu sunt casetele set-top. Cutiile de cablu, ele emit tot timpul telemetrie, încărcări și sarcini de telemetrie. Și nu doar un fel de sănătate al cutiei, ci este ceea ce urmărești și toate aceste lucruri, nu? Modelul tipic este să așteptați până când cutia nu reușește și apoi să apelați furnizorul dvs. de cablu și vă vor spune: „Ei bine, vom ajunge cândva între orele 6:00 și 23:00 în întreaga lună a lunii noiembrie”. Aceasta nu este o experiență cu adevărat bună pentru clienți.

Dar dacă ar putea analiza acea telemetrie în timp real, atunci ar putea începe să facă lucruri de genul, știm că aceste căsuțe vor eșua în tiparele istorice bazate săptămâna viitoare. Prin urmare, vom programa tipul nostru de reparații prin cablu să se prezinte la casa acestei persoane înainte de a se defecta. Și vom face asta într-un mod care ni se potrivește mai degrabă decât să-l avem de la Santa Cruz până la Sunnyvale. Vom programa totul într-o comandă plăcută, model de vânzător în călătorie etc., astfel încât să ne putem optimiza afacerea. Astfel, clientul este mulțumit pentru că nu are o cutie de cablu care nu reușește. Iar furnizorul de cablu este mulțumit pentru că au simplificat lucrurile și nu le trebuie oamenilor peste tot. Acesta este doar un exemplu foarte rapid.Există însă și tone și tone de exemple în care cunoașterea lucrurilor așa cum se întâmplă, înainte de a se întâmpla, poate salva companiile o avere și, într-adevăr, să-și îmbunătățească relațiile cu clienții.

Eric: Da, corect. Nu există nici o îndoială. Haideți să mergem mai departe și să mergem mai departe pe MarkLogic. Așa cum am menționat anterior, am știut despre acești tipi de ceva vreme și așa te voi aduce în asta, Frank. Sunteți cu mult înaintea mișcării de date mari în ceea ce privește crearea aplicației dvs., este într-adevăr baza de date. Dar construindu-l și ai vorbit despre importanța căutării.

Așadar, o mulțime de oameni care au urmărit spațiul știu că multe dintre instrumentele NoSQL de acolo sunt acum înrădăcinate asupra capacităților de căutare, fie prin intermediul unor terți sau încearcă să își facă singuri. Dar faptul că această căutare este deja încorporată în asta, cooptată, ca să zic așa, este într-adevăr o afacere mare. Deoarece dacă vă gândiți la asta, dacă nu aveți SQL, atunci cum intrați și căutați datele? Cum tragi din acea resursă de date? Iar răspunsul este să utilizați de obicei căutarea pentru a ajunge la datele pe care le căutați, nu?

Așadar, cred că acesta este unul dintre diferențierii cheie pentru ca voi, deoparte, să puteți trage date din toate aceste surse diferite și să stocați aceste date și să facilitați cu adevărat acest tip de mediu hibrid. Mă gândesc că capacitatea de căutare este o problemă mare pentru dvs., nu?

Frank: Da, absolut. De fapt, acesta este singurul mod de a rezolva problema în mod constant atunci când nu știți cum vor arăta toate datele, nu? Dacă nu vă puteți imagina toate posibilitățile, singurul mod de a vă asigura că puteți localiza toate informațiile pe care le doriți, că le puteți localiza în mod consecvent și că le puteți localiza indiferent de modul în care evoluați modelul dvs. de date și seturile de date este pentru a vă asigura că oferiți oamenilor instrumente generice care le permit să interogheze aceste date. Iar cel mai simplu, cel mai intuitiv mod de a face asta este printr-o paradigmă de căutare, nu? Și prin aceeași abordare în căutare se ia locul în care am creat un index inversat. Aveți înregistrări în care puteți să vă uitați efectiv la aceste documente și apoi să găsiți înregistrări, documente și rânduri care conțin de fapt informațiile pe care le căutați pentru a le returna clientului și să le permită să le proceseze după cum consideră că este potrivit.

Eric: Da și am vorbit mult despre asta, dar îmi oferiți o ocazie foarte bună de a face o săpătură în ea - toată latura de căutare și descoperire a acestei ecuații. În primul rând, este foarte distractiv. Pentru oricine îi place chestiile astea, aceasta este partea distractivă, nu? Dar cealaltă parte a ecuației sau cealaltă parte a monedei, ar trebui să spun, este că este cu adevărat un proces iterativ. Și va trebui să puteți - aici voi folosi o parte din limbajul de marketing - aveți acea conversație cu datele, nu? Cu alte cuvinte, trebuie să fii capabil să testezi ipoteza, să te joci cu ea și să vezi cum funcționează asta. Poate că nu este acolo, testați altceva și schimbați constant lucrurile, repetați și căutați și cercetați și gândiți-vă doar la chestii. Și acesta este un proces. Și dacă aveți obstacole mari, adică latențe lungi sau o interfață de utilizator dificilă sau trebuie să mergeți să cereți IT; asta omoară întreaga experiență analitică, nu?

Prin urmare, este important să avem acest tip de flexibilitate și să putem utiliza căutările. Și îmi place modul în care l-ați descris aici, pentru că dacă ne uităm la căutări în jurul diferitelor tipuri, concepte sau chei, dacă doriți, valori cheie și au dimensiuni diferite. Doriți să puteți amesteca și potrivi acele lucruri pentru a permite analistului dvs. să găsească lucruri utile, nu?

Frank: Da, absolut. Adică, ierarhia este un lucru important, nu? Așa încât, atunci când includeți ceva ca un titlu, drept sau un termen sau o valoare specifică, puteți să indicați într-adevăr unul corect. Deci, dacă căutați un titlu al unui articol, nu primiți titluri de cărți, nu? Sau nu primiți titluri de postări pe blog. Capacitatea de a distinge între acestea și prin ierarhia informațiilor este, de asemenea, importantă.

Ați subliniat mai devreme dezvoltarea, nu? Posibilitatea pentru clienții noștri de a trage de fapt noi surse de date în câteva ore, de a începe să lucreze cu ei, de a evalua dacă sunt sau nu utili și apoi continuă să-i integreze sau să-i lase pe marginea drumului este extrem de valoroasă. Când o comparați cu o abordare mai tradițională de dezvoltare a aplicațiilor, în care ceea ce ajungeți să faceți este să trebuie să vă dați seama ce date doriți să ingeți, să le sursați, să vă dați seama cum le veți încadra în modelul de date existente sau modelează-l, schimbă modelul de date pentru a-l încorpora și apoi începe de fapt dezvoltarea, nu? Acolo unde ne-am întoarce în capul nostru și spunem că ne aduceți-ne, vă permiteți să începeți să faceți dezvoltarea cu acesta și apoi să decideți mai târziu dacă doriți sau nu să îl păstrați sau aproape imediat dacă are sau nu valoarea.

Eric: Da, este un punct foarte bun. E o idee buna. Așadar, permiteți-mă să merg mai departe și să aduc cel de-al patrulea prezentator aici, Treasure Data. Îi iubesc pe acești tipi. Nu știam prea multe despre ei, așa că sunt un pic să mă lovesc. Apoi Hannah a venit la noi și ne-a spus ce fac. Și Hannah a menționat, ea a fost o persoană media și a trecut pe partea întunecată.

Hannah: Eu am făcut-o, am ocolit.

Eric: Totuși, este bine, pentru că știi ce ne place în lumea mass-media. Așadar, este întotdeauna plăcut când o persoană de media trece în partea vânzătorului pentru că înțelegeți, hei, aceste lucruri nu sunt atât de ușor de articulat și poate fi dificil să aflați de pe un site web exact ce face acest produs față de ceea ce face acel produs. Și despre ce vorbești voi este într-adevăr destul de interesant. Acum, sunteți un serviciu gestionat de cloud. Deci, orice date pe care cineva dorește să le folosească pe care le încarcă pe cloud, nu-i așa? Și atunci veți ETL sau CDC, date suplimentare până la cloud, așa funcționează?

Hannah: Ei, da. Așadar, permiteți-mi să fac o distincție importantă. Majoritatea datelor, datele mari, pe care clienții noștri ni le administrează sunt deja în afara firewallului - date mobile, date ale senzorilor care apar în produse. Așadar, suntem adesea folosiți ca zonă intermediară de înscenare. Așadar, datele nu provin adesea de la întreprinderea cuiva în serviciul nostru, atât cât curg de pe un site web, o aplicație mobilă, un produs cu o mulțime de senzori în mediul cloud.

Acum, dacă doriți să îmbogățiți aceste date mari din mediul nostru, cu siguranță puteți încărca în masă unele date despre aplicații sau unele date despre clienți pentru a îmbogăți asta și pentru a efectua mai multe analize direct în cloud. Dar o mare parte din valoarea noastră se referă la colectarea datelor care sunt deja în afara firewall-ului, adunându-se într-un singur loc. Așadar, chiar dacă intenționați să aduceți acest tip de fire în spatele firewallului dvs. și să faceți mai multe din analizele dvs. avansate sau să le aduceți în BI sau mediul dvs. de analiză existent, este un punct de punere în scenă foarte bun. Deoarece nu doriți să aduceți un miliard de rânduri pe zi în depozitul dvs. de date, nu este rentabil. Este chiar dificil dacă intenționați să stocați asta undeva și apoi să încărcați lotul.

Așadar, deseori suntem primul punct în care se colectează date care sunt deja în afara firewall-ului.

Eric: Da, de asemenea, acesta este un punct foarte bun. Pentru că o mulțime de companii vor fi nervoase cu privire la preluarea datelor proprii ale clienților lor, la introducerea lor în cloud și la gestionarea întregului proces.

Hannah: Da.

Eric: Și despre ce vorbești este să faci ca oamenii să devină într-adevăr o resursă pentru a zdrobi acele numere grele de, după cum sugerezi, date terțe precum datele mobile și datele sociale și toate aceste lucruri distractive. Este destul de interesant.

Hannah: Da, absolut. Și probabil că sunt nervoși de produse, deoarece datele sunt deja afară. Și așa da, înainte de a o introduce și îmi place foarte mult termenul de rafinărie, așa cum am menționat, față de lac. Așadar, puteți face niște rafinării de bază? Obțineți lucrurile bune și apoi aduceți-le în spatele firewallului în celelalte sisteme și procese pentru o analiză mai profundă. Deci, într-adevăr, toți oamenii de știință pot face, în timp real, explorarea de date a acestor noi date mari care curg.

Eric: Da, este corect. Ei bine, permiteți-mi să merg mai departe și să aduc analiștii noștri și vom reveni în ordine inversă. Voi începe cu tine, Robin, în ceea ce privește Datele comorii și apoi vom merge la Kirk pentru unii dintre ceilalți. Și apoi înapoi la Robin și înapoi la Kirk pentru a obține o evaluare mai detaliată a acestui aspect.

Și știi că rafinăria de date, Robin, despre care vorbește Hannah aici. Îmi place acest concept. Am auzit doar câțiva oameni vorbind despre asta, dar cred că ai menționat asta cu siguranță înainte. Și chiar vorbește despre ceea ce se întâmplă de fapt cu datele tale. Deoarece, desigur, o rafinărie, practic distilează lucrurile până la nivelul rădăcinii sale, dacă vă gândiți la rafinăriile de petrol. De fapt, am studiat acest lucru și este destul de de bază, dar ingineria care merge în ea trebuie să fie exact corectă sau nu primiți lucrurile dorite. Deci cred că este o mare analogie. Ce părere aveți despre acest întreg concept al serviciului Cloud Data Treasure, care vă ajută să abordați unele dintre aceste nevoi analitice foarte specifice, fără a fi nevoie să aduceți lucruri în interior?

Robin: Ei bine, vreau să spun, în mod evident, în funcție de circumstanțe, cât de convenabil este. Dar oricine a făcut deja procesul, deja vă va pune înaintea jocului dacă nu aveți unul singur. Aceasta este prima livrare pentru ceva de genul acesta. Dacă cineva a asamblat ceva, a făcut-o, este dovedit pe piață și, prin urmare, există un fel de valoare în vigoare, bine, lucrările au fost deja realizate. Și există și faptul general că rafinarea datelor va fi o problemă mult mai mare decât a fost până acum. Adică, nu este vorba, oricum, după părerea mea, nu se vorbește atât de mult decât ar trebui. Pur și simplu, în afară de faptul că dimensiunea datelor a crescut și numărul de surse și varietatea acestor surse a crescut considerabil. Și fiabilitatea datelor în ceea ce privește dacă sunt curate, trebuie să dezambiguizeze datele, tot felul de probleme care apar doar în ceea ce privește guvernanța datelor.

Așadar, înainte de a vă deplasa efectiv pentru a putea face analize de încredere, știți că, dacă datele dvs. sunt murdare, atunci rezultatele dvs. vor fi obținute într-un fel sau altul. Deci, asta este ceva care trebuie abordat, care trebuie cunoscut. Și triunghiul care oferă, din câte văd, un serviciu foarte viabil pentru a ajuta la asta.

Eric: Da, într-adevăr. Lasă-mă să merg mai departe și să-l aduc pe Kirk în ecuația de aici, foarte repede. Am vrut să arunc o privire la unul dintre aceste alte diapozitive și doar să vă fac impresia despre lucruri, Kirk. Deci, poate să revenim la această prezentare MarkLogic. Și, apropo, Kirk a furnizat legătura, dacă nu ați văzut-o pe oameni, la unele diapozitive ale descoperirii clasei sale, deoarece acesta este un concept foarte interesant. Și cred că asta este un fel de băut în spatele minții mele, Kirk, așa cum vorbeam despre asta acum un moment. Această întreagă întrebare pe care unul dintre participanți și-a pus-o despre cum mergi să găsești noi clase. Îmi place acest subiect pentru că într-adevăr vorbește despre felul, partea dificilă a clasificării lucrurilor, întrucât am avut întotdeauna greutăți în a categoriza lucrurile. Îmi place: „O, Doamne, mă pot încadra în cinci categorii, unde îl pun?” Deci nu vreau să clasific nimic, nu?

De aceea îmi place căutarea, deoarece nu trebuie să o categorizați, nu trebuie să o introduceți în dosar. Doar căutați-l și îl veți găsi dacă știți cum să căutați. Însă, dacă încercați să segmentați, pentru că este practic categorizarea, aceasta este segmentarea; găsirea de clase noi, acesta este un lucru interesant. Puteți vorbi cu puterea căutării, semanticii și ierarhiilor, de exemplu, cum vorbea Frank în ceea ce privește MarkLogic și rolul pe care îl joacă în găsirea de clase noi, ce părere aveți despre asta?

Kirk: Ei bine, în primul rând, aș spune că îmi citești mintea. Pentru că asta mă gândeam la o întrebare chiar înainte de a vorbi, toată această piesă semantică aici pe care MarkLogic a prezentat-o. Și dacă reveniți la diapozitivul meu, nu trebuie să faceți acest lucru, ci înapoi pe diapozitivul cinci cu ceea ce am prezentat în această după-amiază; Am vorbit despre această semantică conform căreia datele trebuie capturate.

Deci, toată această idee de căutare, acolo te duci. Cred cu tărie în asta și am crezut întotdeauna în asta cu date mari, un fel de a lua analogia Internetului, adică doar Web, vreau să spun că a avea cunoștințe și informații și date pe un browser Web este un lucru. Dar pentru ca acesta să poată fi căutat și să poată fi redus eficient, așa cum ne oferă una dintre marile companii de motoare de căutare, atunci este locul unde se află adevărata putere de descoperire. Deoarece conectați termenii de căutare, sortați zonele de interes ale utilizatorului la granulele de date particulare, pagina web particulară, dacă doriți să gândiți exemplul Web sau documentul particular dacă vorbiți despre biblioteca de documente. Sau un anumit tip de segment de client dacă acesta este spațiul dvs.

Și semantica vă oferă acest tip de cunoștințe care se bazează pe o simplă căutare a cuvintelor. Dacă căutați un anumit tip de lucruri, înțelegeți că un membru al unei clase de astfel de lucruri poate avea o anumită relație cu alte lucruri. Includeți chiar și acel tip de informații despre relații și care este o informație de ierarhie de clasă pentru a găsi lucruri similare cu cele pe care le căutați. Sau uneori chiar exact opusul pe care îl căutați, pentru că, într-un fel, vă oferă un fel de nucleu suplimentar de înțelegere. Ei bine, probabil că este ceva opus.

Eric: Da.

Kirk: Deci înțelegeți de fapt asta. Pot vedea ceva care este opus acestui lucru. Și deci stratul semantic este o componentă valoroasă care lipsește frecvent și este interesant acum că acest lucru ar apărea aici în acest context. Deoarece am învățat un curs de absolvire în baza de date, extragerea datelor, învățarea din date, știința datelor, orice doriți să o numiți de mai bine de un deceniu; iar una dintre unitățile mele din acest curs de semestru este pe semantică și ontologie. Și frecvent studenții mei s-ar uita la mine, cum are asta cu ce vorbim? Și, bineînțeles, la sfârșit, cred că înțelegem că introducerea acestor date într-un fel de cadru de cunoștințe. Așa că, de exemplu, caut informații despre un anumit comportament al clienților, înțelegând că acel comportament apare, adică ceea ce cumpără oamenii la un eveniment sportiv. Ce fel de produse ofer clienților mei când observ pe rețelele lor de socializare - pe sau - că ei spun că vor merge la un eveniment sportiv precum fotbal, baseball, hochei, Cupa Mondială, oricare ar fi.

Bine, așa eveniment sportiv. Deci, spun că vor merge, să zicem, un joc de baseball. Bine, am înțeles că baseball-ul este un eveniment sportiv. Am înțeles că este de obicei un social și te duci cu oamenii. Am înțeles că este de obicei într-un spațiu în aer liber. Adică, înțelegând toate acele caracteristici conjugale, permite tipul de segmentare a clientului implicat și mai puternic și felul de personalizare a experienței pe care le oferiți atunci când, de exemplu, interacționează cu dvs. spațiu printr-o aplicație mobilă în timp ce stau pe un stadion.

Așadar, tot felul de lucruri aduce doar mult mai multă putere și potențial de descoperire la datele din acea idee de indexare a indexării granulelor de date după locul lor semantic și spațiul de cunoaștere este cu adevărat destul de semnificativ. Și am fost foarte impresionat că a ieșit astăzi. Cred că este un lucru fundamental de discutat.

Eric: Da, sigur este. Este foarte important în procesul de descoperire, este foarte important în procesul de clasificare. Și dacă te gândești la asta, Java funcționează în clase. Este un obiect orientat, cred, mai mult sau mai puțin, puteți spune formă de programare și Java funcționează în clase. Așadar, dacă proiectați de fapt software, acest concept întreg de a încerca să găsească clase noi este de fapt lucruri destul de importante în ceea ce privește funcționalitatea pe care încercați să o furnizați. Deoarece, în special în această nouă lume sălbatică și neobișnuită de date mari, în care aveți atâta Java acolo care rulează atât de multe dintre aceste aplicații diferite, știți că există 87.000 de moduri sau mai multe pentru a face orice cu un computer, pentru a obține orice fel de biți a funcționalității realizate.

Una dintre glumele mele care aleargă atunci când oamenii spun: „Oh, puteți construi un depozit de date folosind NoSQL”. Îmi place, „bine, ai putea, da, este adevărat. Puteți construi și un depozit de date folosind Microsoft Word”. Nu este cea mai bună idee, nu va funcționa foarte bine, dar o puteți efectua. Deci, cheia este că trebuie să găsiți cel mai bun mod de a face ceva.

Dați-i drumul.

Kirk: Lasă-mă să răspund doar la asta. Este interesant că ai menționat exemplul clasei Java care nu mi-a venit în minte până când nu l-ai spus. Unul dintre aspectele Java și clase și acest tip de orientare obiect este faptul că există metode care se leagă de anumite clase. Și acesta este într-adevăr genul pe care îl încercam în prezentarea mea și că, odată ce ai înțeles unele dintre aceste granule de date - aceste nuggets de cunoștințe, aceste etichete, aceste adnotări și aceste etichete semantice - atunci poți lega o metodă de asta. Practic, au această reacție sau acest răspuns și au sistemul dvs. să ofere acest tip de răspuns automat și proactiv la acest lucru data viitoare când îl vom vedea în fluxul de date.

Deci, conceptul de acțiuni și metode obligatorii pentru o clasă specifică este într-adevăr una dintre puterile analizei automatizate în timp real. Și cred că te-ai lovit de ceva.

Eric: Bun, bine, bine. Ei bine, acestea sunt lucruri bune. Haideți să vedem, Will, vreau să vi-l înmânăm și să vă arunc de fapt o întrebare din partea publicului. Avem câteva dintre acestea și aici. Și oameni buni, mergem mult pentru că vrem să obținem câteva dintre aceste concepte grozave în aceste întrebări bune.

Așadar, permiteți-mi să vă trimit o întrebare de la unul dintre numerele de audiență care spune: „Nu văd cu adevărat modul în care inteligența de afaceri distinge cauza și efectul”. Cu alte cuvinte, deoarece sistemele iau decizii bazate pe informații observabile, cum dezvoltă noi modele pentru a afla mai multe despre lume? Este un punct interesant, așa că aud aici o corelație cauză-efect, analiză de cauză rădăcină, și asta este un fel de chestii de nivel superior în analizele despre care vorbești, spre deosebire de BI-ul tradițional, care este într-adevăr doar un fel de raportare și un fel de înțelegere a ceea ce s-a întâmplat. Și, desigur, întreaga ta direcție, doar uitându-te la diapozitivul tău aici, se îndreaptă spre această capacitate predictivă spre a lua acele decizii sau cel puțin pentru a face aceste recomandări, nu? Deci, ideea este că voi încercați să serviți întreaga gamă a ceea ce se întâmplă și înțelegeți că cheia, adevărata magie, se află în componenta obiectivului analitic de pe partea dreaptă.

Voință: Absolut.Cred că această întrebare privește oarecum spre viitor, în sensul că știința datelor, așa cum am menționat anterior, am văzut diapozitivul cu cerințele oamenilor de știință de date; este un rol destul de provocator pentru cineva să intre. Trebuie să aibă aceste cunoștințe bogate de statistici și știință. Trebuie să aveți cunoștințe de domeniu pentru a vă aplica cunoștințele matematice în domenii. Așadar, ceea ce vedem astăzi este că nu există aceste instrumente de predicție care nu pot fi utilizate, ca un utilizator de afaceri, să poată extrage în Excel și să prezică automat viitorul lor, nu?

Necesită cunoștințe avansate în tehnologie în această etapă. Acum, într-o zi, în viitor, este posibil ca unele dintre aceste sisteme, aceste sisteme de extindere să devină senziente și să înceapă să facă unele lucruri sălbatice. Dar aș spune în această etapă, trebuie să aveți în continuare un om de știință de date la mijloc pentru a continua să construiască modele, nu aceste modele. Aceste modele predictive în jurul valorii de minerit de date și altele sunt foarte bine ajustate și construite de oamenii de știință de date. Nu sunt generate de unul singur, dacă știți ce vreau să spun.

Eric: Da, exact. Este exact corect. Și una dintre liniile mele este „Mașinile nu mint, cel puțin nu încă”.

Will: Încă nu, mai exact.

Eric: Am citit un articol - trebuie să scriu ceva despre asta - despre un experiment care a fost făcut la o universitate unde au spus că aceste programe de calculator au învățat să mintă, dar trebuie să vă spun, chiar nu cred . Vom face cercetări în legătură cu asta, oameni buni.

Și pentru ultimul comentariu, așa că Robin vă voi aduce înapoi pentru a arunca o privire asupra acestei platforme WebAction, deoarece acest lucru este foarte interesant. Ceea ce îmi place la un întreg spațiu este că obțineți perspective atât de diferite și unghiuri diferite luate de diverși furnizori pentru a satisface nevoi foarte specifice. Și îmi place acest format pentru emisiunea noastră, deoarece am obținut patru furnizori cu adevărat interesanți, care, sincer, nu se mai păstrează deloc. Deoarece facem cu toții biți și bucăți diferite de aceeași nevoie generală, care este să folosim analitice pentru a finaliza lucrurile.

Vreau doar să vă ofer perspectiva despre această platformă specifică și arhitectura lor. Cum au de gând să facă lucrurile. Mi se pare destul de convingător. Tu ce crezi?

Robin: Ei bine, vreau să spun, este indicat rezultatele extrem de rapide din fluxul de date și, ca căutare, trebuie să arhitecti pentru asta. Adică, nu vei scăpa să faci nimic, amator, întrucât avem ceva din astea. Am auzit că acest lucru este extrem de interesant și cred că unul dintre lucrurile la care am asistat în trecut; Vreau să spun că cred că și noi, maxilarul nostru a scăzut din ce în ce mai mult în ultimii doi ani, în timp ce am văzut că apar tot mai multe chestii care au fost la fel de rapid, extraordinar de inteligente și destul de inedite.

Este, evident, WebAction, acesta nu este primul său rodeo, ca să zic așa. De fapt, acolo a fost numit într-o anumită măsură. Deci nu văd, dar ar trebui să fim surprinși că arhitectura este destul de schimbată, dar sigur că este.

Eric: Ei bine, îți voi spune ce, oameni buni. Ne-am ars prin 82 de minute aici. Adică, mulțumesc tuturor acestor oameni care au ascultat tot timpul. Dacă aveți întrebări la care nu s-a răspuns, nu fiți timizi, cu adevărat pentru dvs. Ar trebui să avem de la mine întins undeva. Și o mulțumire mare, mare, atât prezentatorilor noștri de astăzi, doctorului Kirk Borne, cât și doctorului Robin Bloor.

Kirk, aș dori să explorez în continuare câteva dintre aceste lucruri semantice cu tine, poate într-un viitor webcast. Pentru că cred că suntem acum la începutul unei etape foarte noi și interesante. Ceea ce vom putea să folosim o mulțime de idei pe care oamenii le au și să le facă să se întâmple mult mai ușor, pentru că, ghicim ce, software-ul devine mai puțin costisitor, ar trebui să spun. Se utilizează mai mult și primim toate aceste date din toate aceste surse diferite. Și cred că va fi o călătorie foarte interesantă și fascinantă în următorii câțiva ani, întrucât vom sări cu adevărat ce pot face aceste lucruri și cum ne poate îmbunătăți afacerile.

Vă mulțumim atât de mult și Techopedia și, bineînțeles, sponsorilor noștri - Pentaho, WebAction, MarkLogic și Treasure Data. Și oameni buni, cu asta vom încheia, dar vă mulțumim foarte mult pentru timpul acordat și pentru atenție. Vă vom prinde în aproximativ o lună și jumătate pentru următorul spectacol. Și, desigur, camera de informare continuă; radio continuă; toate celelalte serii noastre de transmisie web continuă să se balanseze și să se rostogolească. Mulțumesc foarte mult. Vă vom prinde data viitoare. Pa! Pa.