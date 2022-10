Hokkien lijkt best wel op het Mandarijn-Chinees, maar er bestaat geen standaard schrijfsysteem voor de taal. Toch spreken meer dan 40 miljoen mensen in China, Taiwan en enkele nabijgelegen landen één van de dialecten van het Hokkien.

Er zijn wereldwijd zo’n 7100 talen die nog actief gesproken worden, waarvan 40 procent geen standaard schrift heeft of waarvoor helemaal geen manier bestaat om het op te schrijven. Het is lastig om vertalingssoftware te ontwerpen voor dat soort talen.

Meta werkt aan een soort universele vertaler, waarmee mensen uit allerlei talen met elkaar kunnen praten. Het bedrijf vindt dat belangrijk voor zijn ‘Metaverse’, een soort digitale ontmoetingsplek waar je met mensen kan praten en handel kan drijven. Wil je dat op wereldwijde schaal doen, dan moet je een manier vinden waarop mensen die allerlei talen spreken met elkaar kunnen communiceren - ook als ze alleen Hokkien spreken.

Lastig om ongeschreven taal te vertalen

De meeste vertalingsalgoritmen voor gesproken taal zetten een uitgesproken zin om naar tekst, vertalen die vervolgens en zetten de geschreven zin die daar uitkomt weer om naar geluid. Een algoritme moet je trainen op heel veel zinnen uit de te vertalen taal, en de vertalingen van die zinnen.

Juist dat soort zinnen zijn lastig te vinden voor iets als het Hokkien, omdat er geen standaard manier is om die zinnen op te schrijven. Er zijn in plaats daarvan een hoop verschillende systemen waarbij de klanken in letters worden omschreven. Het is dus niet eenvoudig om veel Hokkien te vinden dat op dezelfde manier op papier is gezet.

Sowieso spreekt het merendeel van de wereldbevolking vooral één van 23 talen, terwijl veel van de overgebleven talen weinig sprekers kennen. In het geval van het Hokkien valt dat nog wel mee, maar het aantal vertalers dat ook Engels sprak valt volgens Meta vies tegen.

Behouden van talen

Voor bedrijven als Meta en Google, dat ook al jaren onderzoek doet naar vertalingsalgoritmes, zijn dit soort talen dus een uitdaging. Toch vinden ze het de moeite waard. Veel ongeschreven of weinig gesproken talen zijn namelijk aan het verdwijnen, omdat de nieuwe generatie er niet genoeg aan wordt blootgesteld. Een goed vertaalprogramma kan helpen om grammatica en woordenschat te beschermen en bewaren.

Zo lanceerde Google vorig jaar de app Woolaroo. Met die app maak je foto’s van dingen in je omgeving, die je vervolgens kan laten vertalen naar een taal die weinig gesproken wordt: bijvoorbeeld Yugambeh, een taal van inheemse Australiërs, en Rapa Nui, dat gesproken wordt op Paaseiland.

Hokkien loopt voorlopig geen risico om te verdwijnen, maar sprekers van de taal hebben soms moeite om online mee te komen, zeggen de onderzoekers van Meta. Ze zijn bijvoorbeeld niet gewend om in geschreven taal te communiceren.

Tekst van Hokkien naar Chinees naar Engels

Het nieuwe algoritme van Meta zou het mogelijk moeten maken om gesproken tekst in het Hokkien te vertalen naar gesproken tekst in het Engels, en omgekeerd. Volgens Meta ligt het meer voor de hand om dát te doen dan om de gesproken taal om te zetten naar geschreven tekst - er is nu eenmaal geen ‘standaard’ geschreven vorm voor uitspraken in het Hokkien. Meta zette daarvoor wel klanken uit het Hokkien om naar getekende audio-golfjes in plaats van geschreven woorden, zodat het algoritme toch iets te ‘lezen’ heeft.

Uiteindelijk besloot Meta ook om uitspraken éérst naar het Mandarijn-Chinees te vertalen. Vervolgens zetten ze de tekst in het Mandarijn weer om naar het Engels of het Hokkien. Op die manier wisten de onderzoekers toch genoeg vertaalde zinnen te verzamelen om het algoritme te kunnen trainen.

Het werk aan de vertaler is nog niet klaar, waarschuwt Meta. Het is slechts een stapje naar de droom van een universele vertaler, wat ook Google nastreeft. De twee bedrijven hopen dat het ooit mogelijk is om een gesproken woord in elke taal onmiddellijk om te zetten naar een andere. Maar zover is het nog niet.

