Via het platform Amsterdam Data Science zijn 600 wetenschappers en andere betrokkenen van de Universiteit van Amsterdam, de Vrije Universiteit, de Hogeschool van Amsterdam en het Centrum voor Wiskunde en Informatica met elkaar verbonden. Een groeiend aantal bedrijven en instellingen die sterk inzetten op Big Data, waaronder Elsevier, Qualcomm en Philips, heeft zich aan het netwerk verbonden. In totaal vormen op die manier zo’n 2500 mensen een ecosysteem dat zich richt op Big Data-kennis.

Big Data Amsterdam is een zoektocht van FD-journalist Job Woudt naar de werking van dit ecosysteem. En een zoektocht naar de betekenis van Big Data, waarbij het gaat om de verwerking van extreem grote hoeveelheden, snel verworven en uiterst diverse informatie. Op fd.nl publiceert hij de letterlijke verslagen van de gesprekken die hij voert met deelnemers aan het ecosysteem. Uiteindelijk zal dit leiden tot een artikel in weekendkatern FD Morgen.

Als lezer wordt u uitgenodigd om naar aanleiding van deze gespreksverslagen suggesties te doen, aanvullingen te maken en kritiek te leveren. Reageren kan hier.

Peter Boncz werkt als senior onderzoeker Database Architectures bij het Centrum Wiskunde & Informatica en is per oktober 2013 tevens bijzonder hoogleraar op de leerstoel Large-Scale Analytical Data Management bij de Faculteit Exacte Wetenschappen aan de Vrije Universiteit Amsterdam. Eerder betrokken bij de oprichting van spin-offs Data Distilleries en VectorWise van het CWI.

Boncz werkt samen met het Amerikaanse bedrijf Databricks dat sinds dit jaar een vestiging heeft in Amsterdam. Het 3,5 jaar oude Databricks (150 medewerkers) ontwikkelt en exploiteert open source software, genaamd Spark, die bedrijven en instellingen in staat stelt om grote hoeveelheden data te analyseren. Vanuit Silicon Valley bedient de onderneming grote bedrijven als Cisco, Samsung, Viacom en NBC Universal. Maar ook kleinere, onbekende namen maken gebruik van deze technologie.

Bij het gesprek is Reynold Xin aangeschoven. Hij is mede-oprichter en Chief Architect van Databricks, dat is opgericht door medewerkers van de universiteit van Berkeley. Xin is in Amsterdam aanwezig als kwartiermaker van de nieuwe vestiging, waar een aantal oud-studenten van Boncz werkt.

Begonnen met zeven engineers in Amsterdam

Xin: 'Er is hier veel expertise op het gebied van high performance data base, veel talent. Door in Amsterdam aanwezig te zijn hopen we onze analyses sneller te laten verlopen.

Ik ben zelf eigenlijk niet eens gepromoveerd, maar ik ken Peter sinds ik als student naar een conferentie ging in Lyon in 2009. Daar kreeg hij een prijs voor het beste paper met de meeste impact in de afgelopen 10 jaar.'

Boncz: 'Ik was toen ook al bezig met de technieken die nu belangrijk worden gevonden. Databricks wilde deze aan Spark toevoegen.'

Xin: 'De technkieken werken honderd keer sneller. Vanaf oktober hebben we gesproken over een samenwerking. Op 8 januari zijn we in Amsterdam begonnen met zeven engineers.'

Boncz: 'Dit is mooi voor Amsterdam Data Science. Spark gaat hiermee een rol spelen in ons ecosysteem. Data Science wordt in toenemende mate belangrijk voor bedrijven. Google vond eerst Map Reduce uit, waarmee het makkelijk werd om te programmeren voor grote dataclusters. Dat was zo'n tien jaar geleden. Yahoo maakte in feite hiervan een open-source kopie, genaamd Hadoop, waarmee big data analyse niet alleen beschikbaar werd voor Google, maar ook voor anderen. je hebt er geen grote computer voor nodig, je kunt serveropslag huren in de cloud. Het programmeren is in feite makkelijk geworden. Spark gaat hier op verder. Je zult zien dat bedrijven Spark gaan gebruiken.'

Xin: 'Het is een database-dienst die we aanbieden. Bedrijven kunnen er een abonnement op nemen, we hosten het in de cloud.'

Big Data, slimmere analyses

Boncz: 'Iedereen geeft zo zijn eigen interpretatie aan Big Data. In de eerste plaats gaat volume, oftewel grote hoeveelheden data. Daarnaast om variëteit, oftewel uit veelvormige data, niet alleen tabellen. Dan kan het gaan om tekstdata, geluidsdata, beelddata. De analyse hiervan wordt steeds meer sophisticated, waardoor we beter in staat zijn om beslissingen te nemen. Ten derde is de data niet statisch, maar een data-stroom, er komt continue meer binnen.'

Xin: 'Neem de Amerikaanse verkiezingen. Bij Viacom (het mediaconcern dat o.a. eigenaar is van MTV, red) zit Spark onder de motorkap om de kwaliteit van video-streaming in de gaten te houden. Op de avond van de verkiezingen was de kijkdichtheid extreem hoog, niet alleen op de televisie maar ook via websites. Door de data-analyses zijn ze in staat om de videokwaliteit verder te optimaliseren. En het geeft je de mogelijkheid om ook heel snel te leren.

Het wordt bijvoorbeeld ook ingezet door Capital One voor het verlenen van creditcards. Met deze technologie ben je in staat om heel snel een kredietanalyse te maken.

Wij bieden een platform aan. Klanten kunnen daarop hun oplossingen bouwen.'

Boncz: 'Google kent een zeer gesloten platform. Veel details houden ze voor zich. Het is geen veelal geen open source software, in tegenstelling tot Spark.'

De samenwerking met CWI

Boncz: 'Databricks financiert een promotie-onderzoek en wij helpen het team met de architectuur van de data-oplossingen. Dat moet leiden tot een sneller verwerkingssysteem. Ik geef advies en kritiek over het ontwerp.

Het is zeer interessant voor ons. Databricks werkt met veel klanten, wat zo zijn problemen met zich meebrengt. Het biedt ons zicht op de vragen die er spelen en dat leidt weer tot onderzoek. In feite kunnen we kijken in de keuken van Databricks.

Systeemonderzoek heeft een aantal belangrijke aspecten. Ten eerste: Met welke problemen worstelen de gebruikers. Het identificeren van de relevante problemen is een belangrijk deel van onderzoek verder met impact. Ten tweede: het bouwen van systemen is ontzettend veel werk, daar gaat heel veel onderzoekstijd inzitten. Daarbij heb je ook een echte omgeving nodig waar je de algoritmes en datastructuur kunt testen. Je moet toegang hebben tot die systemen. Je hebt een groot team nodig.

Wat je ziet is dat veel wetenschappelijke collega's van mij uit de race zijn gevallen en geen onderzoek naar de kerntechnologie van databases meer doen, omdat ze geen toegang hebben tot die systemen. Het CWI kan dit niet alleen aan de industrie overlaten. Wij willen in de top mee blijven spelen. Vandaar dat deze samenwerking nuttig is voor ons.'

Xin: 'Het is een gebruikelijk model in de VS. Met respect voor de academische vrijheid.'

Boncz: 'Van de zes oprichters zijn er twee professor, Ioan Stoica op Berkeley en Matei Zaharia op Stanford. Er is een sterke academische mindset. Zelfs de ceo van Databricks spreekt als een wetenschapper. Zelf heb ik me altijd bezig gehouden met de kern van het database-onderzoek. Spark biedt een bredere oriëntatie, een breder perspectief. Het werkt niet alleen met database tabellen, maar kent veel meer variëteit. Ook data uit video's en tweets kunnen eraan worden gekoppeld, en kunnen met methoden uit artificiële intelligentie worden geanalyseerd.'

Xin: 'Ik heb de papers van Peter over databases altijd toegepast in mijn werk.'

Datascience wordt overal geïncorporeerd

Boncz: 'Je ziet dat alle andere wetenschappen datascience nodig hebben. Ze zullen het allemaal gaan incorporeren. Het wordt onderdeel van iedere professie.'

Xin: 'Bij Databricks is het motto: laat de data beslissen.'

Boncz: 'De menselijke uitdaging is wel het grootste. Er zijn onvoldoende data-wetenschappers. Je kunt het niet alleen aan de statistici overlaten om hierop in te spelen. Je zult het ook makkelijker moeten maken om er mee aan de gang te gaan. Daar komt dan weer Spark om de hoek kijken.'

Adviesrol

Boncz: 'Het team is hier begonnen, ik heb een adviesrol, zoals bij brainstorms. Als er een discussie is over een ontwerp. Maar het is ook voorgekomen dat ik hielp om een lampje op te hangen in dit nieuwe pand.'

Xin: 'We zijn met ons werk compleet geïntegreerd met de activiteiten in San Francisco. Maar dit team is Europees. Amsterdam is dan ook een goede vestigingslocatie. Het is een internationale stad. Veel van de mensen hier zijn ook oud-studenten van Peter.

Het is onze eerste uitbreiding over de grens. We hopen ervan te leren door met verschillende R&D-centra te werken.

Spark is op dit moment de populairste technologie om data science analyses mee te doen. IBM heeft Spark omgeschreven als de belangrijkste open-software ooit. We werden al omschreven als de 'Taylor Swift van Big Data'.

Boncz: 'De horizon van deze samenwerking is vier jaar. Als het goed werkt, hoop ik dat het verder groeit en onderdeel wordt van het data science eco-systeem. Het is heel cool om Databricks in Amsterdam te hebben.'

Xin: 'We hopen ook op andere manieren terug te geven. Door meet ups talks te doen, door te publiceren.'

Boncz: 'Ik ben zelf een beetje gekke wetenschapper. Ik heb al vier spin off-bedrijven gedaan. Ik vind dat dit voor goed onderzoek nodig is, dat technologie zich bewijst in het veld. Databases en data analyse is een zeer toegepast veld. Door technieken zich in de praktijk te laten bewijzen krijgt onze aanpak uiteindelijk ook meer gewicht en meer citaten in andere wetenschappelijke artikelen. Die inzichten die zo worden verkregen leiden tot veranderingen in de werkelijke wereld. Als er geen gebruikers zijn van onze kennis, moeten we ons afvragen wat we aan het doen zijn.'

Dit is het zesde en laatste gespreksverslag. Begin april volgt een feature Big Data Amsterdam in FD Morgen.