Om de metafoor volledig te begrijpen, hebben we eerst en vooral de volledige quote van Humby nodig.
“Data is de nieuwe olie. Het is waardevol, maar in ruwe vorm kan het niet echt gebruikt worden. Het moet veranderd worden in gas, plastic, chemicaliën… om een waardevolle entiteit te creëren die een winstgevende activiteit drijft. Ook data moeten in stukken gebroken en geanalyseerd worden om waarde te hebben.”
Met de volledige context gaan we plots naar de essentie: ruwe data op zich heeft weinig waarde. We moeten manieren vinden om ze te gelde te maken.
Zoals ruwe olie omgezet wordt in onder meer petroleum, moet ruwe data bewerkt worden voor het kan gebruikt worden voor analyse. In de praktijk kan een dataset vergaard door een bedrijf verschillende fouten hebben.
Stel, u hebt een webshop en wil een systeem bouwen om uw klanten met artificiële intelligentie aanbevelingen te geven op basis van hun koopgedrag. U kunt informatie verzamelen over hun aankoopgeschiedenis.
Misschien gebruikt u enquêtes op de site om extra informatie te krijgen en het algoritme te verfijnen. Bij die oefening moet echter met de volgende zaken rekening gehouden worden:
Simpelweg ruwe data verzamelen is duidelijk niet genoeg. De nodige kwaliteitscontroles zijn nodig: data moet betrouwbaar, accuraat (genoeg) en representatief zijn. En zelfs als aan die kwaliteitseisen is voldaan, wacht nog steeds de taak om de data in een formaat te gooien dat door een algoritme gebruikt kan worden om een aanbevelingssysteem uit te werken.
Nog geen tien jaar geleden was het wereldnieuws toen een artificiële intelligentie van Google vier spelletjes Go – een strategisch bordspel populair in Azië – won van een professionele speler². Afgelopen maand werd een ingenieur bij Google geschorst omdat hij ervan overtuigd was geraakt dat de artificiële intelligentie waaraan hij werkte, het LaMDA-conversatiemodel, zelfbewust was geworden³.
Zo’n reuzenstappen in artificiële intelligentie tonen ons wat bereikt kan door kwalitatieve data goed in te zetten. Het voordeel? Die vooruitgang is niet enkel weggelegd voor technologiegiganten. Ook op kleinere schaal kunnen dezelfde principes toegepast worden.
Neem een uitgebreide historiek van verkoopdata uit een webshop. Met enkele gerichte ingrepen op zo’n dataset konden we bij DXSolutions machine learning algoritmes toepassen om terugkerende en nieuwe klanten gerichte aanbevelingen te geven voor producten waar ze zelf niet aan gedacht zouden hebben. Plots is dat archief een bron van nieuwe inkomsten geworden. Tot enkele jaren terug was zo’n oplossing niet mogelijk op deze schaal.
In die nieuwe wereld van zelflerende algoritmes en krachtige BI oplossingen is het verleidelijk om het succes van die verdiensten bij de tools zelf te leggen. De waarheid is echter dat geen enkele uitkomst mogelijk was zonder kwalitatieve data. Net zoals de meest geavanceerde technieken gebruikt kunnen worden om een auto te ontwikkelen, blijft die auto nutteloos zonder brandstof om te rijden. Op dezelfde manier kan het meest krachtige algoritme niets doen zonder de kwalitatieve data om van te leren.
Dat data het nieuwe olie is lijkt dus te kloppen. Toch aan de oppervlakte. Data dient zoals olie verrijkt te worden en kan dan waarde opleveren. Alleen vat deze vergelijking de specifieke aard van data niet helemaal. Om echt het onderste uit de kan te halen in het gebruik van data om business value op te leveren, moeten we de metafoor ontmantelen.
Hoewel er ongetwijfeld nog vele onaangeboorde oliereserves te vinden zijn op aarde, is olie in essentie een uitputbare grondstof. Ooit zullen we moeten overstappen op andere grondstoffen. Eenmaal verbruikt, is de olie immers weg.
Voor data geldt net het tegenovergestelde. Data wordt immers continu gecreëerd. Schattingen uit 2018 tonen dat de mensheid dagelijks 2.5 triljoen bytes aan data genereerd. En dat nummer stijgt continu. Niet alleen de implementatie van Industry 4.0 principes in bedrijven genereren data. Elke digitale interactie die we zelf hebben levert immers een brokje data op waar iemand mee aan de slag kan. Die data hoeven ook niet vernietigd te worden bij gebruik, maar kan bijgehouden worden voor steeds betere inzichten.
Het bovenstaande betekent dat data waardevol is, niet hoeft te verdwijnen en lang nuttig kan blijven. Bedrijven kunnen jarenlang data over hun klanten verzamelen om betere en meer nauwkeurige modellen te bouwen die een betere ervaring opleveren voor hun klanten. Verkoopdata uit het verleden kan helpen om accuraat trends te voorspellen. Klantdata uit alle hoeken van het bedrijf kan samengelegd worden om potentiële leads beter te voorspellen, of een afzetmarkt verder te verfijnen. Die algoritmes zijn niet statisch. Door er steeds nieuwe data aan toe te voegen kan een bedrijf data omvormen tot een middel dat steeds waarde blijven genereren.
Ongelimiteerde bronnen van data die steeds meer waarde opleveren. Het klinkt te goed om waar te zijn, en dat is het deels ook. Ten eerste is niet alle data zomaar toegankelijk voor bedrijven. Een niet onaanzienlijk deel wordt bij wet beschermd in allerhande privacyrichtlijnen. Daarnaast zijn er ook ethische dilemma’s die in overweging genomen moeten worden. Bedrijven die met data werken stellen zichzelf best enkele vragen:
In 2021 werd bijna 1 op de 8 Vlaamse bedrijven het slachtoffer van een cyberaanval waarbij gevoelige gegevens gelekt kunnen worden⁴. Werken met data – zeker als het niet om interne data, maar die van klanten gaat – vergt dus de nodige omzichtigheid. Bij een fout is de reputatieschade immers dikwijls enorm.
Het antwoord op de vraag of data de nieuwe olie is, is tweeledig. In verrijkte vorm is data de brandstof voor diepgravende analyses, zelflerende algoritmes en artificiële intelligentie.
Maar waar olie verbruikt wordt, verdwijnt data niet bij gebruik. Er komt steeds data bij, die telkens meer waarde genereert. In die zin is data waardevoller dan olie.
Welke lessen kunnen we hieruit dan trekken om data in een bedrijfscontext te gaan gebruiken?
Onderzoek wat relevante data is, en identificeer de gebreken in de dataset
Zorg voor kwalitatieve data door ze te verrijken
Wees bewust van de privacy implicaties bij het omgaan met data (zie ook onze blogpost rond de GDPR-wetgeving⁵)
Interesse om met data aan de slag te gaan bij uw bedrijf? Blijf dan zeker onze blog volgen. De komende weken gaan we stap voor stap aan de slag met data. Starten doen we bij de processen en organisatie die voor een goede datacultuur moeten zorgen (Data Governance), om nadien de systemen achter het governance luik te bespreken (Data Management). Tot slot gaan we dieper in op hoe u data uit verschillende, uiteenlopende applicaties binnen uw IT-landschap kunt koppelen om ze maximaal te laten renderen.
Link 1: The world’s most valuable resource is no longer oil, but data
Link 2: Google-computer verslaat 's werelds beste go-speler
Link 3: Google engineer put on leave after saying AI chatbot has become sentient
Link 4: Wat als ... je bedrijf getroffen wordt door een datalek?
Volgend artikel:
DX-Solutions sluit zich aan bij de Double Digit Groep