Interview med Kim Gregers Petersen, Big data & Analytics - IBM, ATEA.
Big Data er kommet på alles læber som en række teknologier, der kan forandre brugen af data verden over og i næsten alle typer af virksomheder. Udfordringer kalder nogen det. Muligheder kalder dansk ekspert det, og peger på it-konsulenten som nøglefiguren i et Big Data-miljø.
For nylig var der et jobopslag i SKAT. I jobopslaget stod der, at man søgte en underdirektør til at stå i spidsen for en helt ny afdeling for “Business Intelligence og Analyse”. Den nye afdeling skulle bl.a. bidrage til en generel effektivisering af SKAT samt videreudvikle datamodeller, “hvor anvendelsen af Big Data vil være en naturlig del af aktiviteterne,” som det hed.
“Jeg læste jobopslaget som et tegn på, at ikke bare private virksomheder, men også det offentlige er begyndt at arbejde seriøst med Big Data,” siger Kim Gregers Petersen, Big Data & Analytics-ekspert hos Atea. Som rådgiver på Big Data-løsninger kan han mærke interessen stige nærmest dag for dag, fordi virksomheder og organisationer som SKAT hele tiden øjner nye muligheder for at analysere på deres voksende bunker af data. “Det er et område i meget eksplosiv vækst, og det gælder om at stige på toget lige nu,” siger Kim Gregers Petersen med henvisning til IT-konsulententens rolle i det nye Big Data-økosystem.
Indledningsvis og som afsæt for en diskussion af Big Data opsummerer Kim Gregers Petersen udviklingen på området gennem de sidste 10 år med fire fakta: Faktum 1. Verdens datamængder er steget i et tempo, som langt overgår, hvad vi er i stand til at forestille os. Faktum 2. Det er ikke kun et spørgsmål om volumen, når vi henviser til verdens stigende datamængder som en udfordring. Det handler også om, at data kommer fra nye kilder såsom video, foto, audio, navigationssystemer og instant messaging. Faktum 3. De nye typer af data er oftest ustrukturerede og kræver derfor helt andre teknologier til håndtering, end vi har været vant til. Faktum 4. Disse nye teknologier er stadig så nye, at det har efterladt IT-konsulenten midt i en brydningstid. For på den ene side ved han, at det er rækken af disse nye teknologer, der kommer til at forme hans professionelle fremtid. Men på den anden side ved han også godt, at han ikke ved nok om teknologierne, fordi mange af dem er så nye, at det praktisk taget har været umuligt at følge med og dygtiggøre sig inden for et område.
“Lidt groft skitseret er det virkeligheden, som den ser ud lige nu for rigtig mange konsulenter,” siger Kim Gregers Petersen. “Spørgsmålet er selvfølgelig: Hvad skal man stille op?”, tilføjer han.
Voldsomt interessant for forretningen
Svaret på det spørgsmål vender vi tilbage til. Først forklarer Kim Gregers Petersen, hvad han definerer som Big Data.
“Hvis vi tager et tænkt eksempel, så har en virksomhed data svarende til 100%. Hvis man spørger langt de fleste virksomheder, hvor mange af disse data, de bruger i deres daglige forretning, vil de svare 15-20%. De resterende 80-85% af data bruger de af forskellige årsager ikke til noget. De opbevarer dem bare, fordi de skal, eller fordi de ikke ved, hvordan de skal bruge dem. Den store forkromede pointe med Big Data er at gøre så mange af de 80-85% inaktive data aktive, så de kan bidrage til forretningen,” siger Kim Gregers Petersen og kommer med et eksempel:
“Lad os tage en virksomhed, der sælger computere. I salgsafdelingen har de i dag godt styr på, hvilke computere de sælger til hvilke kundetyper, hvad de tjener på de forskellige computere, hvordan prisudviklingen inden for de forskellige produktkategorier har været osv. I marketingafdelingen har de godt styr på kontakten til nye og eksisterende kunder med tilbud om kampagner, seminarer osv. Og i kundeservice har de godt styr på at hjælpe sure kunder, der ringer ind og brokker sig over et bestemt produkt. Pointen er, at data fra de forskellige afdelinger aldrig mødes. Det kunne jo være, at det var interessant for marketing og salg at vide, at kundeservice havde håndteret 78 klager over den samme computer inden for en uge. Den information går tabt i dag, fordi man ikke har systemerne til at samordne de data.”
Big Data skriger på arbejdskraft
Tilbage til konsulentens forandrede rolle i et Big Data-miljø. Hvis man skal se positivt på den eksplosive udvikling, så er det først og fremmest virksomhederne, der har grund til bekymring over de mange nye muligheder og teknologier, fordi de ikke har folk ansat med de rigtige kompetencer. Set med konsulenternes øjne er Big Data lig med en spændende verden, der bare venter på at blive indtaget.
“Området skriger på arbejdskraft,” siger Kim Gregers Petersen. “Hvis jeg var 20 år, ville jeg skynde mig at løbe i den retning. I mange år har det ikke rigtigt været populært at være programmør. Bl.a. fordi fx ERP-løsninger og Exchange-løsninger har fået et elegant administrationslag, som gør det relativt nemt for almindelige IT-folk at håndtere. Det blev med andre ord lidt kedeligt “bare” at være programmør. Men med alle de nye Big Data-teknologier – hvoraf de fleste kommer fra open source-miljøet – er det pludselig blevet sejt at være programmør igen. Vi ser ikke de superlækre grænseflader i de nye produkter, som man kender det fra modne teknologier. Big Data er lidt mere hardcore.”
Som Kim Gregers Petersen fortæller, kan det endnu ikke lade sig gøre at gå den formelle vej, hvis man gerne vil uddanne sig inden for Big Data-feltet. Der udbydes simpelthen ikke undervisning på landets uddannelsesinstitutioner. “Det er faktisk den største showstopper for udbredelsen af Big Data lige nu,” siger Kim Gregers Petersen. “Men det hænger formentlig sammen med, at teknologierne er så nye, at uddannelsessystemet ikke har været i stand til at følge med.”
Big Data-miljøet
Med en generisk model over et Big Data-miljø foran sig gennemgår Kim Gregers Petersen dataenes lange vandring, fra de første gang banker på virksomhedens dør som eksempelvis Twitter-, video- eller teledata, til de ultimativt dukker op som eksempelvis BI-rapporter i den anden ende. Undervejs i gennemgangen dukker navnet Hadoop op. Hadoop er ifølge Wikipedias definition “et open-source software framework til storage og large-scale processering af data i store clusters, som kører på commodity hardware.” Kim Gregers Petersen beskriver Hadoop som en helt central komponent i mange af de største Big Data-miljøer i verden.
“Det fantastiske ved Hadoop er, at det fungerer som et uendeligt antal af spande, man kan hælde både strukturerede og ustrukturerede data ned i. Nogle data vil man gerne analysere på med det samme. Andre data vil man måske gerne analysere på om tre år, når det giver bedre mening. Begge disse krav og mange flere er Hadoop skabt til at kunne imødegå,” siger Kim Gregers Petersen.
“Hvis man er konsulent og skal vælge, i hvilken retning man ønsker at bevæge sig, kan jeg kun anbefale, at man kigger nærmere på Hadoop og den række af teknologier, der ligger i forlængelse af Hadoop. Det baserer jeg bl.a. på, at vi aldrig før har set så store kommercielle virksomheder have så stor en økonomisk interesse i et open source-miljø. Hadoop udgør eksempelvis rygraden i IT-systemerne hos Yahoo, Twitter, Netflix og Facebook, og de vil gøre alt for, at Hadoop bliver ved med at blive bedre og bedre.”
Han kan næsten ikke få casen over sine læber, fordi den er så gennemtærsket i medierne, men Kim Gregers Petersen nævner i en bisætning Vestas’ store Hadoop-installation, og hvordan de er i stand til at lave næsten realtidssimuleringer for placeringen af nye vindmøller, når han skal demonstrere potentialet i Big Data og subsidiært Hadoop. I et andet og mindre kendt eksempel har KTH – Stockholms svar på DTU – benyttet sig af IBMs streaming-teknologi STREAMS til trafikovervågning i Stockholm. En række forskellige datakilder såsom bilernes GPS-signaler, alarmmeldinger fra trafikstyrelsen, sensorer på vejene og vejrdata hjælper med at dirigere trafikken, så den glider så let som muligt.
Logikken er vel, at uanset branche vil enhver virksomhed af en vis størrelse kunne få gavn af Big Data?
“Præcis. Men det kræver, at man kan tænke kreativt, og at man kender teknologierne. Det er der, manglen på konsulenter kommer ind i billedet. Vi har simpelthen ikke nok konsulenter, der ved nok om disse teknologier,” afslutter Kim Gregers Petersen.
Konsulentens 5 sikre teknologivalg
5 Big Data-teknologier og værktøjer, du ifølge Kim Gregers Petersen roligt kan satse på som konsulent.
- Hadoop. Udgør kernen i mange Big Data-økosystemer
- Java/Python/R. De tre programmeringssprog, som giver mening i Big Data-miljøer. Om det skal være det ene eller andet afhænger af opgaven
- Pig/Pig Latin. Det værktøj, du typisk vil bruge til opgaver som eksempelvis ETL-processer, research af rå data og iterativ processering af data
- Hive. Kan betragtes som Hadoop-systemets datawarehouse. Data i Hive tilgås med HiveSQL med SQL-lignende queries
- En NoSQL-database efter eget valg/opgave. Eksempelvis Hbase, Cassandra eller MongoDB virker andre steder, hvor man har stået med lignende problemstillinger. Det er deri, sparringen skal bestå
Og så må du endelig ikke glemme de fornuftige Big Data-indpakninger, de kommercielle leverandører leverer. Især IBM har som markedets største Big Data-leverandør en meget omfattende portefølje af Big Data-produkter, hvor man bl.a. er lykkedes med at bundle en stor del af Big Data-teknologien med meget brugervenlige front-end produkter.