VoiceReply – Woche 6

eMails per Sprache beantworten: Thunderbird Extension mit n8n & Groq

Warum gibt es diese Woche ein Projekt, das eigentlich schon letzte Woche hätte erscheinen sollen?
Ganz einfach: weil es nicht laufen wollte. 😅

Ich hatte alles gebaut, aber die Verbindung zwischen Thunderbird-Extension und Backend wollte einfach nicht funktionieren. Also habe ich letzte Woche spontan den YouTube Assistant vorgestellt und den Voice Reply Assistant eine Woche später fertiggestellt.

Meine Anforderungen

Sprachaufnahme starten und eMail-Antwort grob ins Mikro diktieren
Audio automatisch transkribieren lassen
Entwurf direkt als Antwort-Mail in Thunderbird anlegen
Der Entwurf soll nicht roh wirken, sondern geglättet sein (inkl. Anrede & Grußformel)
In einer Woche machbar (ha!)

Mein AI-Workflow

Wie immer habe ich das Projekt fast komplett mit LLMs gebaut.

Claude war mein Code-Buddy:
- Am Anfang wollte er alles direkt in die Extension packen, was technisch aber gar nicht ging (kein Mikrofonzugriff in Thunderbird-Addons).
- Er hat mir geholfen, den Recorder in eine externe Seite auszulagern.
- Beim Polling zwischen Extension und Backend mussten wir eine Weile zusammen debuggen. Er schlug hier oft zu komplizierte Lösungen vor, die ich wieder vereinfachen musste.
Prompt-Tuning:
- Die ersten Antworten waren sprachlich sehr schlecht (fehlende Grußformeln, falscher Ton).
- Gemeinsam haben wir Prompts und Fallbacks gebaut, bis der Stil passte.
n8n-Workflow aus SmartMeet:
- Für die Transkription musste ich diesmal gar keinen neuen Workflow bauen.
- Ich habe einfach meinen SmartMeet-Workflow wiederverwendet, der Audio-Dateien an Groq Whisper schickt und das Transkript zurückliefert.
- Das hat mir enorm viel Zeit gespart – und gezeigt, wie wertvoll es ist, auf den Ergebnissen der Vorwochen aufzubauen.

Fazit: Die AI war eine echte Hilfe beim Debuggen und Strukturieren, aber wie immer gab es einige Stolpersteine, wie zB der Mikrofonzugriff.

Was die Extension kann

👉 eMail in Thunderbird öffnen
👉 Aufnahme per Klick starten und Antwort ins Mikro sprechen
👉 Audio wird automatisch zu Groq Whisper geschickt (via n8n-Workflow aus SmartMeet)
👉 Das LLM formuliert auf der Basis des Transkripts eine Antwort, wobei vorherige eMails helfen den Ton zu wählen
👉 Ein sauberer Antwort-Entwurf landet direkt im Posteingang (inkl Anrede, geglätteten Text und Grußformel)

Stack & Tools

Thunderbird Extension (Manifest V2, Background Script mit Polling)
Flask Backend (Python)
n8n Workflow (aus SmartMeet wiederverwendet)
Groq Whisper (Transkription)
Claude (Coding & Debugging)

Herausforderungen & Learnings

Mikrofonzugriff: In Thunderbird nicht möglich → Umweg über externe Recorder-Seite.
Kommunikation: Das Polling zwischen Extension und Backend hat mehrere Tage Debugging gekostet.
Scope reduzieren: Eigentlich wollte ich den Entwurf auch per Sprachsteuerung weiter bearbeiten lassen. Das habe ich gestrichten um den Kern fertigzubekommen.
Content-Qualität: Ohne genaue Vorgaben und viel Testen (!) waren die Antworten unbrauchbar. Mit Fallbacks und Prompt-Feinschliff passt der Ton der Antworten nun endlich zu den bisherigen eMails.
Timing: Ich wollte das Projekt schon letzte Woche fertig haben, musste aber spontan auf den YouTube Assistant ausweichen.
Wiederverwendung: Es lohnt sich, Bausteine aus früheren Projekten mitzunehmen. SmartMeet hat mir diese Woche einiges an Arbeit erspart.

Keine Live-Demo

Das wird leider so langsam der Standard.

Fazit

Der Voice Reply Assistant läuft:
Ich kann ins Mikro sprechen, und wenige Sekunden später liegt ein fertiger Entwurf im Posteingang.

Natürlich ist da noch Luft nach oben. Aber als Wochenprojekt bin ich zufrieden und es fühlt sich recht cool an, E-Mails mal nicht zu tippen, sondern einfach zu diktieren.

👉 Woche 6: ✅
Ich habe schon eine Idee für die nächste Woche. Vermutlich wird es da dann kein fertiges Produkt geben, sondern ein „Teil 1“, weil das Projekt zwar sehr hilfreich sein wird, aber vermutlich für eine Woche zu umfangreich sein wird.