Machine learning is niet moeilijk met OpenML

Ontwikkeld in het hart van de Brainport-regio, wereldwijd zo’n honderdvijftigduizend gebruikers, en toch is het Open Machine Learning-platform nog een grote onbekende in de industrie. Met steun van de geestelijk vader Joaquin Vanschoren wil Georgo Angelis van TUE High Tech Systems Center en Eaisi daar verandering in brengen via de startup PortML.

Alexander Pil
13 april

Toen Joaquin Vanschoren zes jaar geleden begon met de ontwikkeling van het Open Machine Learning-platform was dat uit nood en uit frustratie. Als onderzoeker aan de KU Leuven liep hij voortdurend tegen dezelfde problemen aan als hij machine learning wilde gebruiken voor zijn vraagstukken. ‘Hoe krijg je toegang tot heel veel datasets? Hoe kun je verschillende machine learning-algoritmes op een goede manier met elkaar vergelijken?’, somt Vanschoren een paar van zijn dagelijkse uitdagingen op. ‘Wat toen zo was, en nog altijd speelt, is dat de meeste datasets niet toegankelijk zijn, of dat ze weken werk vereisen voordat je er iets mee kunt. Daar komt nog bij dat wat er in papers wordt gepubliceerd vaak totaal niet reproduceerbaar is. Zeker als er een commercieel bedrijf achter zit, bevatten die heel wat marketing. Als je het dan zelf probeert, blijkt het totaal niet te werken.’

OpenML is een open platform om eenvoudig datasets, algoritmes en modellen te delen.

Vanschoren startte daarom het OpenML-platform en zette het op als een opensourceproject omdat de ambitie te groot was voor één persoon om te verwezenlijken. Zijn initiatief kreeg snel bijval en op dit moment werken er twintig mensen aan de tool. ‘Vooral vrijwilligers’, zegt Vanschoren, die inmiddels universitair hoofddocent is aan de TU Eindhoven. ‘Initieel waren het vooral promovendi zoals ik die met dezelfde uitdagingen kampten, maar er zijn steeds meer mensen uit de industrie die een bijdrage leveren.’

De basisgedachte achter OpenML is dat het een open platform moet zijn waar datasets eenvoudig beschikbaar zijn en waar je eenvoudig algoritmes kunt vinden die relevant zijn voor jouw probleem. ‘Een toegankelijke interface naar al het machine learning-onderzoek’, omschrijft Vanschoren. OpenML bedient vandaag de dag een gemeenschap van ongeveer honderdvijftigduizend gebruikers. Een vergelijkbare tool was nog niet op de markt en dat is wel begrijpelijk. ‘Commerciële partijen hebben helemaal geen belang bij transparantie. Ze houden liever hun kaarten tegen de borst. Waar ze wel van profiteren – dat zagen we al snel tijdens de ontwikkeling – is om zo’n platform te hebben voor intern gebruik. Grote bedrijven van het formaat Amazon hebben hiervoor natuurlijk wel een eigen tool, maar voor de meeste bedrijven en organisaties is het onhaalbaar om het zelf te doen.’

OpenML laat zien welke algoritmes het beste resultaat geven.

Industrieversie

Het is precies die laatste gedachte waarom Georgo Angelis van het Eindhovense High Tech Systems Center en het Eindhoven AI Systems Institute (Eaisi) de startup PortML is begonnen, in samenwerking met de OpenML Foundation en de Eindhovense universiteit. ‘In de academische wereld heeft OpenML veel gebruikers, maar in de industrie is het platform voor een groot deel onbekend’, aldus Angelis. De tool is weliswaar opensource beschikbaar, en bedrijven kunnen er dus gewoon mee aan de slag, maar er is een zekere terughoudendheid. ‘Die is goed te verklaren door het volledig open karakter van OpenML. De geüploade datasets, de modellen, de algoritmes, het is allemaal openbaar. Commerciële partijen staan natuurlijk niet te trappelen om dat soort bedrijfsgegevens met iedereen te delen.’

In gesprekken met potentiële industriële gebruikers merkt Angelis dat er vanuit die hoek wel degelijk veel interesse is, maar dat bedrijven inderdaad aanhikken tegen het vrijgeven van hun data. ‘We werken binnen PortML, en samen met de OpenML-gemeenschap, aan een industrieversie’, vertelt Angelis. ‘We zitten nu in de pilotfase met een aantal bedrijven om boven water te krijgen welke features nu echt gewenst zijn vanuit een industrieperspectief. Wellicht komt er een optie om gegevens selectief of geanonimiseerd te delen.’

‘Openheid is voor OpenML heel belangrijk, maar bedrijven willen juist hun data beschermen’, vult Vanschoren aan. ‘PortML probeert daar een middenweg in te vinden door een platform te bouwen dat de voordelen van toegang tot de laatste research combineert met de vereisten van de industrie.’

Michelin-koks

Nog dit kwartaal verwacht Angelis dat er een eerste bètaversie van OpenML beschikbaar komt voor industriële gebruikers. ‘Datascientists zijn vaak heel specialistisch bezig en halen alle tools van stal om hun machine learning-flow te optimaliseren’, weet Angelis. ‘Ze kunnen OpenML vanuit hun toolset benaderen via een api. Ze kunnen dus gewoon in hun eigen vertrouwde omgeving blijven werken – of het nu Python is, of R, of een ander pakket – en de standalone variant van OpenML gebruiken om alle data, algoritmes en modellen te organiseren en geschikt te maken voor hergebruik.’

George Angelis van het High Tech Systems Center: ‘Binnen PortML werken we aan een OpenML-versie voor de industrie.’

Is OpenML ook interessant voor mkb’ers, die over het algemeen geen datascientists in dienst hebben? Angelis vindt van wel: ‘Grotere bedrijven kunnen OpenML gebruiken om hun proces efficiënter te maken, de kwaliteit te verhogen en stappen te automatiseren. Voor kleinere bedrijven verlagen we met OpenML de drempel om te beginnen met machine learning. Ze kunnen bij elkaar klikken wat er al is en tot een voldoende goed resultaat komen. Dat zal dan wellicht niet een next-level oplossing zijn, maar het is zeker een flinke zet in de goede richting. Ze profiteren van de recepten die Michelin-chefkoks hebben gecreëerd.’

Vanschoren: ‘Als je nu een machine learning-model wilt bouwen, moet je ongelooflijk veel beslissingen nemen. Welke algoritmes, welke modellen, welke parameters, noem maar op. Momenteel heb je er een PhD voor nodig – of op z’n minst iemand met heel veel ervaring in machine learning – om die modellen efficiënt te maken. Omdat er in OpenML zo veel data en metadata voorhanden zijn, kunnen we van onszelf leren. We zetten machine learning in om te bepalen wat wel en wat niet werkt.’ Dat is het onderzoeksgebied van automatic machine learning, of AutoML, dat vooral gaat om goede zoekalgoritmes die speuren in de ruimte van mogelijke modellen naar de beste optie voor een gegeven dataset. ‘De uiteindelijke oplossing gaat geen panacee zijn maar het is voor veel kleine en middelgrote bedrijven heel nuttig om te ervaren wat er kan met machine learning en het geeft ze een goede startpositie om op door te borduren.’

Mkb’ers kunnen profiteren van de machine learning-recepten die Michelin-chefkoks hebben bedacht.

Angelis zoekt met PortML nadrukkelijk de samenwerking met de buitenwacht. In de pilotfase komen geïnteresseerde bedrijven nu vooral uit de healthcare, de maakindustrie en de mobiliteit. ‘Als HTSC/Eaisi gaat het ons erom een bijdrage te leveren aan de kracht van de Brainport-regio. Daarom ligt het voor de hand om met ons eigen netwerk in de hightech te beginnen’, zegt Angelis. ‘Later willen we ook uitbreiden naar bijvoorbeeld it, telecom of finance. Dit artikel zie ik als een pitch richting de industrie; we willen graag met bedrijven optrekken om tot de meest optimale versie van OpenML voor die doelgroep te komen.’