Spelenderwijs naar een optimale supplychain

TUE-onderzoeker Willem van Jaarsveld werkt aan software om de aanvoer van reserveonderdelen in de hightech optimaal aan te sturen. Zijn aanpak is geïnspireerd op het computerprogramma dat de menselijke wereldkampioen in het bordspel go versloeg.

Nieke Roos
16 maart

‘Elk uur dat een waferscanner stilstaat, kost dat een chipmaker miljoenen. Daarom is het cruciaal voor een bedrijf als ASML om wanneer er iets kapotgaat in een van zijn systemen zo snel mogelijk een vervangend onderdeel ter plaatse te hebben’, legt Willem van Jaarsveld uit. ‘Maar minstens zo belangrijk is het vervolgens om de supplychain terug op orde te krijgen, zodat er geen toeleverprobleem ontstaat als hetzelfde onderdeel later ook ergens anders nodig is.’

Willem van Jaarsveld gebruikt reinforcement learning in zijn onderzoek naar realtime aansturing van logistieke ketens. Foto: Angeline Swinkels

Van Jaarsveld is expert op het gebied van procesoptimalisatie in de onderhoudslogistiek. Hij is universitair hoofddocent aan de Technische Universiteit Eindhoven, bij de Operations Planning Accounting & Control-groep (OPAC) van de faculteit Industrial Engineering & Innovation Sciences. Daarnaast is hij een van de researchdirecteuren bij het European Supply Chain Forum, een aan de TUE gelieerd competentiecentrum dat samenwerkt met het Eindhoven Artificial Intelligence Systems Institute (EAISI) en het High Tech Systems Center (HTSC) van de universiteit. In beide rollen doet hij onderzoek naar het optimaal aansturen van de hightech toeleverketen met behulp van machine learning-technieken.

Reinforcement learning

‘Hoe kun je er met zo laag mogelijke kosten voor zorgen dat een machine het vrijwel altijd doet?’ schetst Van Jaarsveld het probleem waar hij zich mee bezighoudt, een probleem dat al snel heel complex wordt. ‘In de hightech gaat het vaak om een heleboel verschillende, complexe onderdelen. Van elk onderdeel wil je er niet heel veel op voorraad hebben omdat ze zo duur zijn, en het kan simpelweg niet omdat toeleveranciers maar een beperkte capaciteit hebben om ze te bouwen. De gebruikers van de machines zitten over de hele wereld, dus jouw warehouses ook, en cruciale onderdelen maken uit voorzorg vaak een tripje langs verschillende klanten voordat ze ergens daadwerkelijk nodig zijn.’

‘Dergelijke supplychains zijn hoogdynamisch: om de haverklap krijg je nieuwe informatie en heb je te maken met onvoorziene gebeurtenissen’, gaat Van Jaarsveld verder. ‘Niks verloopt volledig volgens plan. Door de grote, wereldwijde schaal is het bovendien buitengewoon lastig om alles bij te houden. Traditionele optimalisatiestrategieën schieten hier tekort, maar het is een kolfje naar de hand van kunstmatige intelligentie.’

Geen wonder dus dat AI-onderzoekers zich enthousiast op het probleem hebben gestort. Aanvankelijk iets te enthousiast in de ogen van Van Jaarsveld. ‘In de beginjaren dacht iedereen dat je met kunstmatige intelligentie alles op kon lossen. Ook in de onderhoudslogistiek heb ik allerlei technieken bijna blindelings toegepast zien worden. Sluit je ERP-systeem maar aan op AI en op een magische manier leert die dan allerlei slimme trucs, zo was de gedachte. Ik geloof daar niet in. Die technieken hebben echt tientallen miljoenen inputs nodig voor zinnige patroonherkenning. In de hoogdynamische logistieke praktijk mag je blij zijn als je er duizend hebt.’

Dit weerhield Van Jaarsveld er echter niet van om zelf ook aan de slag te gaan met AI, en dan specifiek met een techniek genaamd reinforcement learning. ‘Google Deepmind heeft daarmee software gemaakt die zichzelf allerlei moeilijke spelletjes heeft leren spelen. Ik was al heel lang op zoek naar methodes die beter geschikt zijn voor realtime aansturing van logistieke ketens. Toen ik een van die Deepmind-programma’s, Alphago, zag winnen van de menselijke wereldkampioen go, wist ik gelijk: reinforcement learning is de methode. Vanaf 2018 heb ik me volledig op deze onderzoeksrichting gestort.’

Serious game

Bij reinforcement learning leert zo’n programma, een software agent genoemd, goede strategieën in samenspel met een omgeving, meestal een simulatie. Dat doet hij door een actie uit te voeren waarvoor hij wordt beloond of gestraft. Bij een beloning weet hij dat hij op de goede weg is en kan hij daarop voortborduren; bij een straf moet hij uit een ander vaatje gaan tappen. Door heel veel uit te proberen, leert de agent zo welke zetten slim zijn in welke situaties. Met behulp van een neuraal netwerk kan hij de strategie generaliseren naar omstandigheden die hij niet is tegengekomen in de simulatie.

Van Jaarsveld past dit toe door een uitdaging uit de logistieke praktijk eerst in een zogeheten serious game te gieten, daar een agent voor te ontwikkelen en die te trainen in het spel. De game bestaat uit een set spelregels (de dynamiek), de acties die de agent kan uitvoeren en een beloning (of straf). Er wordt net zolang door de spelregels geïtereerd totdat het spel een voldoende accurate representatie is van de werkelijkheid. Op dat moment is de agent klaar om de stap naar de praktijk te zetten en echte beslissingen te nemen.

Een voorbeeld van een agent die het spel aan het spelen is. Na een aantal failures achter elkaar hebben klanten in Taiwan en Hong Kong van een specifiek onderdeel geen reserve meer in de buurt liggen. De agent besluit om dat onderdeel naar Singapore te brengen, want van daaruit zijn beide locaties snel te bereiken. Illustratie: Willem van Jaarsveld

‘Bij een typische hightech supplychain bestaat het speelveld uit de fabrieken van klanten waar de machines staan en warehouses waar de onderdelen voor die machines liggen’, geeft Van Jaarsveld als voorbeeld. ‘Wereldwijd heeft de machineleverancier een paar strategische warehouses. Die wisselen goederen uit met elkaar en verspreiden ze verder naar meer regionale forward warehouses, die de klanten bevoorraden. De vervangende onderdelen komen dit netwerk binnen bij het centrale magazijn. Van daaruit worden ze over de wereld gedistribueerd via zogeheten transshipments.’

‘Op basis van de aantallen onderdelen die toeleveranciers per jaar kunnen produceren en de faalfrequentie van die onderdelen, af te leiden uit de mean time between failures en data van de installed base, kun je nu het spel gaan spelen. Daarbij simuleer je allerlei probleemsituaties en telkens kijk je hoeveel transshipments er nodig zijn om de keten weer op orde te krijgen. Je begint simpel maar vervolgens voeg je allerlei complexiteiten toe, bijvoorbeeld dat je liever proactief verscheept dan met spoed, want dat is acht keer zo duur, of dat een van de klanten voorrang moet krijgen omdat je daar net een akkefietje mee hebt gehad.’

Plug-and-play

In opdracht van ASML heeft Van Jaarsveld dit idee uitgewerkt tot een proof of concept, opgeleverd in 2019. Samen met TUE-collega Yingqian Zhang, masterstudent Valentin Dmitrochenko en ASML-projectleider Douniel Lamghari-Idrissi heeft hij de resultaten vervolgens vergeleken met een aanpak die het bedrijf zelf heeft ontwikkeld. Van Jaarsveld: ‘Bij ASML waren ze niet ontevreden over hun eigen werk, maar ze hadden het gevoel dat het beter kon. En dat gevoel bleek terecht: met onze methode konden ze nog een fors percentage besparen. Dat we hun aanpak hadden verslagen en dat we ook konden uitleggen hoe, heeft geleid tot een groot vervolgproject.’

Dit Dynaplex-project is afgelopen augustus gestart onder leiding van Van Jaarsveld, Zhang en een derde TUE-collega, Remco Dijkman. Met subsidie van het Topconsortium voor Kennis en Innovatie Dinalog (het Dutch Institute for Advanced Logistics) gaan ze de komende vier jaar toewerken naar volwaardige toepassing bij ASML. ‘Met de masterstudent hebben we gekeken naar een paar onderdelen en een stuk of vijf warehouses; nu willen we opschalen naar de hele keten en aantonen dat dat werkt in een simulatieomgeving. Daarna kunnen we de stap zetten naar de praktijk.’

‘Onze aanpak is breed inzetbaar.’ Foto: Angeline Swinkels

Naast de hightech supplychain ziet Van Jaarsveld nog meer kansrijke usecases. ‘Scheduling in de semicon frontend, bijvoorbeeld. Daar maken wafers meerdere rondjes door verschillende machines. Die schema’s worden voor een langere periode opgesteld maar kunnen soms na een paar uur alweer de prullenbak in. We zijn nu nog in het stadium waar we twee jaar geleden waren met ASML, maar we hebben goede hoop dat we bij elke stap dynamisch kunnen gaan bepalen welke wafer het beste waarnaartoe kan gaan.’

‘Onze aanpak is breed inzetbaar’, stelt Van Jaarsveld. ‘Het kostte altijd heel wat gepuzzel en soms jaren onderzoek om een specifiek probleem aan te pakken, maar onze algoritmes zet je heel eenvoudig tegen uiteenlopende cases aan. Het is plug-and-play. Daar zie ik heel veel potentie voor de toekomst. In de projecten die we nu doen, proberen we ook echt te werken aan een plug-and-play architectuur, zodat andere bedrijven er uiteindelijk ook baat bij hebben. Bedrijven in de transportlogistiek bijvoorbeeld, zoals Ewals Cargo Care en Koninklijke Den Hartogh. Als deelnemers aan Dynaplex hopen die straks vruchten te kunnen plukken van het project.’

Dit artikel is tot stand gekomen in samenwerking met het High Tech Systems Center van de TU Eindhoven.