Big Data

Wat is big data?

Big Data, iedereen heeft er de afgelopen jaren waarschijnlijk al over gehoord. Maar wat is het nu? De letterlijke vertaling, grote gegevens, verduidelijkt ook niet alles. We helpen je graag 

Definitie big data

De term “big data” verwijst naar enorm grote hoeveelheid ongestructureerde gegevens die zo groot, snel en complex zijn dat ze moeilijk of zelfs onmogelijk te verwerken zijn met traditionele methoden. 

We horen je nu al denken: “Wat bepaalt nu dat een dataset te groot is om te kunnen verwerken?” Wel, dat is vrij simpel. Big Data moet voldoen aan de 6 V’s. 

Big Data

6 V’s van Big Data

Betekenis van de 6 V’s
Volume
Volume van gegevens
Variety
Verscheidenheid van je gegevens
Velocity
Snelheid waarmee je gegevens beschikbaar zijn
Veracity
Waarheidsgetrouwheid van je gegevens
Variability
Variabiliteit van je gegevens
Value
Waarde van je gegevens

Volume

Dit is natuurlijk het meest logische kenmerk van big data. Big Data moet over een enorm grote hoeveelheid gegevens beschikken. Wat bepaalt nu over de hoeveelheid data voldoende groot is? Dat bepaalt vooral de verhouding tussen de omvang van de data en het verwerkingsvermogen. Deze verhouding evolueert bijzonder snel omdat zowel het verzamelen van alle soorten data sterk stijgt als ook de opslag- en verwerkingscapaciteit ontzettend vlug toeneemt.

Variety

Ook de verscheidenheid van de gegevens bepaalt of we kunnen spreken over big data. Tegenwoordig zijn er enorm veel soorten data die we kunnen verzamelen, verwerken en analyseren. De grote hoop gegevens kunnen we grofweg opdelen in twee groepen: ongestructureerde date en gestructureerde data.

Gestructureerde data

Deze data bevat gegevens die een bepaalde lengte of een bepaald format hebben. Voorbeelden hiervan zijn getallen, datums, groepen van woorden en getallen (die we strings noemen). Gestructureerde data is het soort data waar je waarschijnlijk gewend mee bent te werken en wordt vaak opgeslagen in een database. Volgens de meeste experts zijn gestructureerde data goed voor 20% van alle gegevens die er zijn.

Ongestructureerde data

Ongestructureerde data is onvoorspelbaar. Het heeft geen vast format of lengte waardoor de verwerking en categorisatie ervan complex is. Denk hierbij aan e-mails, blogs, video, spraakbestanden…

Velocity

Velocity is de snelheid waarmee je verzamelde data toegankelijk is. Omdat je verzamelde data continue en aan een snel tempo veranderd, is ook de snelheid van verwerking belangrijk. Je zou binnen enkele momenten al je data moeten kunnen verwerken om je uitkomsten te kunnen krijgen. Dit is erg belangrijk als je analyses doet met geolocatiebronnen, hypes en trends of real-time informatie. De velocity is een soort maatstaf voor de tijdelijke waarde van je data.

Veracity

Veracity heeft alles te maken met de kwaliteit en de oorsprong van je data. Omdat je gegevens uit verschillende bronnen komt, is het moeilijk om al je data te matchen, op te schonen en te transformeren tussen al je systemen. Je wilt natuurlijk ervoor zorgen dat jouw verzamelde gegevens een weerspiegeling zijn van de werkelijkheid. Denk daarbij aan een klassieke uitdaging ‘garbage in, garbage out’ en dat wil je uiteraard vermijden

Variability

Variabiliteit is anders dan variatie. Een koffiezaak kan bijvoorbeeld 6 verschillende koffiemixen aanbieden (6 variaties), maar als je elke dag dezelfde koffiemix krijgt en die elke dag anders smaakt, is dat variabiliteit. Hetzelfde geldt voor gegevens, als de betekenis voortdurend verandert kan dat een enorme impact hebben op uw gegevenshomogenisering.

Value

De waarde van je big data is natuurlijk het belangrijkste. Naast het aanpakken van de vorige V’s (wat je al veel tijd, moeite en middelen zal kosten), wil je er natuurlijk zeker van zijn dat je bedrijf voldoende waarde uit de gegevens haalt. Dit doe je onder andere door een goede analyse.

Without big data analytics, companies are blind and deaf, wandering out onto the web like deer on a freeway.

Geoffrey Moore

Big data bronnen

Er zijn verschillende manieren waarop je jouw gegevens kunt verzamelen. Dit hangt af van de waar de data afkomstig is en wie het aanlevert. Er zijn twee grote categorieën.

Door de mens gegenereerde data

Hieronder verstaan we alle data die een persoon, in interactie met computers genereert. Hierin kunnen we onderscheid maken tussen input data en click-stream data. Onder input data verstaan we alle data die een persoon zelf ingeeft in een computer (naam, leeftijd, ingevulde formulieren,…). Deze data is erg nuttig om het begrijpen van het klantgedrag. Click-stream data daarentegen is de data die gegenereerd wordt elke keer je klikt op een website en kan gebruikt worden in het koopgedrag van je klanten.

Door de machine gegenereerde data

Dit zijn gegevens die door een machine zijn gecreëerd, zonder enige interventie van een mens. Ook in deze categorie kunnen we enkele onderverdelingen maken. Zo heb je sensor data (bv. Smart meters, medische apparatuur, GPS-data,…) web log data (gegevens die servers, netwerken,.. Automatisch genereren ), point-of-sale data (gegevens die vasthangen aan de barcode van alle producten die je koopt ) en financiële data (veel van de beursgegevens worden tegenwoordig gecreëerd door computers, zonder menselijke input).

Hoe gebruik je big data?

Voordat je big data kunt gebruiken als bedrijf, moet je goed nadenken over hoe de verschillende databronnen stroomlijnt. Er zijn vijf belangrijke stappen om het maximale uit je big data te halen. 

  1. Stel een big data strategie op
  2. Identificeer je big data bronnen
  3. Toegang, beheer en opslag van je data
  4. Data-analyse
  5. Neem data-driven beslissingen
Big Data Analyse

Stel een big data strategie op

Een big data strategie is een high-level plan dat je in staat stelt om een overzicht te krijgen en het verbeteren van de manier waarop je jouw data verkrijgt, opslaat, beheert, deelt en gebruikt.

Bij het schrijven van zo’n strategie is het belangrijk om rekening te houden met jouw bestaande (en toekomstige) bedrijfsdoelstellingen. Big data moet je dan ook behandelen als een waardevol bedrijfsmiddel in plaats van een bijproduct.

Identificeer je big data bronnen

Streaming data

Streaming data komt van the Internet of Things (IoT) en andere connected devices die data vanuit wearables, slimme auto’s medische apparatuur, .. versturen. Deze enorme hoeveelheid data kan je analyseren wanneer ze binnenkomen waarbij je zelf beslist welke gegevens je wel of niet wilt bewaren en wat je verder wilt analyseren.

Social Media Data

Alle data die voortkomt uit interactie op de sociale media (Facebook, YouTube, Instagram,…) Deze big data bevat afbeeldingen, video’s, spraakbestanden… en zijn vaak ongestructureerde data. Waardoor ze een enorme uitdaging vormen om geanalyseerd te worden.

Publiek beschikbare data

Ook de overheid en andere instanties beschikken over een enorme grote hoeveelheid data. Soms zijn deze datasets vrij beschikbaar en sommigen ervan kunnen zeer handig zijn om op te nemen in jouw analyses.

Toegang, beheer en opslag van je data

Tegenwoordig beschikken de moderne computersystemen over voldoende snelheid, kracht en flexibiliteit om snel toegang te krijgen tot enorme hoeveelheden en soorten big data. Naast een betrouwbare toegang heb je ook gepaste methoden nodig om de data te integreren, de kwaliteit van je data te waarborgen, het beheer en de opslag te verzekeren en de data gebruiksklaar te maken voor de analyses.

Data-analyse

Het doel van je data-analyse is het zichtbaar maken van wat verborgen was. Er zijn twee manieren om dat te doen. Dat kan met geavanceerde technologieën zoals grid computing of in-memory analytics. Hierdoor kan je al je big data gebruiken in je analyses. Een andere manier is om vooraf te bepalen welke gegevens je relevant genoeg vind om te analyseren. Tegenwoordig worden meer en meer big data analyses uitgevoerd door middel van AI, kunstmatige intelligentie.

Neem data-driven beslissingen

Na het verkrijgen, het opslaan en het analyseren van je big data is het tijd om ermee aan de slag te gaan in je bedrijf. Goed beheerde, betrouwbare data leidt immers tot betrouwbare analyses en betrouwbare beslissingen. Vertrouw meer op de uitkomsten van je big data dan je buikgevoel. De voordelen van data-driven beslissingen nemen is zeer duidelijk. Data-driven bedrijven presteren beter, zijn betere voorspellingen doen en zijn winstgevender.

Consumer data will be the biggest differentiator in the next two to three years. Whoever unlocks the reams of data and uses it strategically will win.

Angela Ahrendts

Uitdagingen van Big Data in 2021

Data Management

Het beheren van al je big data blijft ook in 2021 een enorme uitdaging. Elk dag komt er nieuwe informatie binnen, soms zelfs uit volledig nieuwe bronnen (denk maar aan de groei van nieuwe social media platformen). Het verzamelen, organiseren en onderhouden van al deze data op een manier waarin je gemakkelijk, snel en accuraat data kunt terugvinden is dan ook niet zo simpel al het lijkt. Een bijkomend probleem is de grotere toestroom van ongestructureerde data zoals video-en geluidsopnames.

AI en machine learning

Een andere uitdaging van big data heeft te maken met AI en Machine Learning. Zowel AI als machine learning hebben baat bij een goed data management. Ze vertrouwen beiden op kwalitatieve data op deftig te kunnen functioneren. Zonder accurate data zijn er natuurlijk geen accurate resultaten mogelijk

Tunity. Jouw partner in 
big data analyse
digitale marketing
development
bedrijfsstrategie
design

Relevante blogberichten