Het is mogelijk om zelf een functionele spraakassistent te bouwen. Bij elkaar opgeteld is de hardware die je daarvoor moet aanschaffen, vaak wel een stuk duurder dan de spraakassistenten die je kant-en-klaar in de winkel aanschaft. Daarvoor koop je een hoop privacy terug, want zodra je een commerciële spraakassistent in je huis plaatst, deel je ook de status van alle gekoppelde apparaten constant met een externe partij. In ruil voor privacy verlies je wel functionaliteit, want hoe je ook je best doet, een lokaal platform beschikt niet over allerlei actuele weetjes en feiten, dus daar hoef je een lokale spraakassistent niet naar te vragen. Op dit moment ben je beperkt tot apparaatbediening en statusupdates.
Platforms
Hoewel de twee platforms die we in dit artikel hebben bekeken, onderliggend veel van dezelfde componenten gebruiken, verschillen ze nogal in functionaliteit en installatiegemak. Home Assistant timmert hard aan de weg met spraakassistentie en het jaar waarin er extra aandacht wordt besteed aan de ontwikkeling, is nog niet voorbij. De ontwikkeling van Rhasspy staat evenmin stil. Sterker nog, er zit meer vaart in dan voorheen het geval was. Doordat de ontwikkelaar kan sleutelen aan componenten die gebruikt worden in zowel Home Assistant als Rhasspy, profiteren beide pakketten van nieuwe mogelijkheden en optimalisaties, en werken ze ook steeds beter samen.
Als je op dit moment zelf een spraakassistent gaat bouwen, is de software met name afhankelijk van je platformkeuze. Gebruik je Home Assistant, dan heeft het in de meeste gevallen weinig zin om daar nog Rhasspy bovenop te installeren. Met de introductie van wakewords in Home Assistant doet de spraakassistent in functionaliteit weinig meer onder voor Rhasspy. De spraakherkenning van het platform is nog wel matig als je de Nederlandse taal gebruikt. Een woord als 'zet' wordt vaak herkend als 'set', al laat de intentieherkenning zich hier gelukkig niet zo makkelijk door van de wijs brengen. Lastige zelfverzonnen apparaatnamen zijn een groter probleem. Die werden bij mij vaak slecht herkend, ongeacht de complexiteit van het onderliggende spraak-naar-tekstmodel. Het ondersteunde aantal spraakcommando’s is ook nog beperkt, maar je kunt handmatig extra zinnen toevoegen. Op dit moment moet je een zin dan wel exact zo uitspreken als hij is ingesteld.
Rhasspy is relatief makkelijk te installeren, maar de configuratie vereist dat je de handen uit de mouwen steekt, goed nadenkt en de documentatie leest. Dat maakt het pakket veelzijdig, maar ook dat een goede Rhasspy-set-up niet op één zondagmiddag gebouwd is. Daarna zal je smarthomeset-up telkens onderhoud nodig hebben als je hem verandert en uitbreidt. Als je het pakket met Home Assistant gebruikt, is dat onderhoud iets minder intensief, doordat het pakket nieuwe apparaatnamen zelf kan ophalen en enkel opnieuw getraind hoeft te worden. Voor de combinatie met andere platforms zul je zelf een gestroomlijnde oplossing moeten vinden om nieuwe apparaatnamen te trainen. De intentieherkenning kan uitgebreid werken, maar je moet de syntax aanleren om dat te doen. Door de vrije en uitgebreide keuze van pakketten voor elke laag is het pakket heel slank of heel zwaar uit te voeren. In combinatie met satellieten kun je vrij kiezen welke taak op welk apparaat wordt uitgevoerd. Kortom, een bewerkelijk pakket met mogelijkheden waarvoor je even moet gaan zitten, maar het is de multitool onder de spraakplatforms.
Hardware
Goed verkrijgbare kant-en-klare hardware laat ook nog even op zich wachten. Espressifs ESP32-S3 Box-3 komt wat specificaties betreft in de buurt van de ideale assistent, maar moet zichzelf nog in de praktijk bewijzen. Het apparaat is op het moment van schrijven overal uitverkocht, maar nieuwe voorraad is aangekondigd. Het beste alternatief is op dit moment om zelf iets te bouwen, want de M5Stack ATOM Echo is een leuke gadget om mee te spelen, maar niet geschikt voor grotere ruimtes. Als je handig bent met elektronica en een 3d-printer, kun je wel al tot enorm gave resultaten komen.
Met een singleboardcomputer heb je al een stevige basis die zelf ook wat taken kan afhandelen, maar daarvoor moet je een goede microfoonarray en speaker vinden. Een conferentiemicrofoon is ideaal voor het doel. Dat hele pakket inclusief Raspberry Pi zul je echter een plekje uit het zicht moeten geven, want naast de ruimte die het in beslag neemt, zijn conferentiemicrofoons vormgegeven voor een strak kantoor en minder fraai in je interieur.
Toekomstvast knutselproject
De werking van een lokale spraakassistent is nog lang niet te vergelijken met de functionaliteit van de commercieel verkrijgbare varianten. Natuurlijk heeft dat deels te maken met de kracht van de achterliggende cloudservice van die producten. Uitzonderingen daargelaten zijn er weinig tweakers die een thuisserver hebben met de kracht om de large-languagemodels te kunnen faciliteren die die uitgebreide functionaliteit mogelijk maken. Wie cloudloos wil leven, moet in dit geval dus nog even wat pijn lijden en voornamelijk flink wat tijd investeren in de fijnafstelling van zijn installatie.
Als je daaraan begint, is de kans groot dat je eindigt met meer functionaliteit dan mogelijk was op het moment dat je startte, want de ontwikkelingen gaan razendsnel. Zeg nou zelf, er is weinig mooier dan dit soort projecten voor je neus beter te zien worden en daar deel van uit te maken. Heb je dus nog een Raspberry Pi en microfoon liggen, dan is beginnen met bouwen van een satelliet een leuke klus, hoewel daar de nodige tijd in gaat zitten. Het is wellicht (en hopelijk) het begin van een zelfbouwproject dat op termijn alle commerciële, datahongerige spraakassistenten uit huis verdrijft.