Während der Entwicklung fanden alle zwei Tage Meetings zwischen dem Projektmanager und dem Entwickler statt, um wichtige architektonische Entscheidungen des Prototyps zu besprechen. Dazu gehörten die Wahl des E-Mail-Anbieters, die Spracherkennungstechnologie und der aktuelle Entwicklungsstand.
Lösung
Das Ergebnis des Projekts ist die von Elinext Meeting Minutes bereitgestellte Lösung: eine Sprache-zu-Text App. Diese Webanwendung wurde entwickelt, um Meetings in prägnante Textzusammenfassungen zu transkribieren und diese den Nutzern per E-Mail zuzustellen.
Die wichtigsten Funktionen der Lösung umfassen: Upload-Funktion, ein Werkzeug zur Video-zu-Audio-Konvertierung, ein Sprach-zu-Text-Konvertierungstool, ein Textzusammenfassungsinstrument, eine Funktion zur Teilnehmer-Spezifikation und eine benutzerfreundliche Benutzeroberfläche. Lassen Sie uns diese Funktionen einzeln analysieren.
Upload-Funktion
Die Anwendung ermöglicht es den Nutzern, Meetingaufzeichnungen in gängigen Formaten (m4a, mov, avi und mp3) hochzuladen. Dadurch wird die Kompatibilität mit den meisten verbreiteten Aufnahmegeräten und -tools gewährleistet.
Video-zu-Audio-Konvertierung
Wenn die hochgeladene Datei ein Video ist, extrahiert das System automatisch den Audioteil der Datei. Dieser Schritt stellt sicher, dass Videodateien nahtlos verarbeitet werden, ohne dass eine manuelle Vorbearbeitung erforderlich ist.
Datenschutz und Sicherheit
Aus Sicherheitsgründen werden Zwischenwerte wie konvertiertes Audio und Text zu keinem Zeitpunkt gespeichert. Diese Daten werden ausschließlich innerhalb der Pipeline zur Erstellung eines Abschlussberichts mit den wichtigsten Meetingpunkten verwendet.
Sprache-zu-Text Transkribieren
Das extrahierte (oder hochgeladene) Audio wird mit AWS Transcribe verarbeitet, einem leistungsstarken cloudbasierten Dienst, der Sprache in Text umwandelt. AWS Transcribe konvertiert gesprochene Worte im Audio mit hoher Genauigkeit in Text. Diese Konvertierung unterstützt mehrere Sprecher und berücksichtigt Variationen in Akzenten oder Audioqualität, um präzise Transkriptionen zu ermöglichen. Unsere Aufgabe bestand nicht darin, eine Sprache-zu-Text Webanwendung zu finden, so dass AWS Transcribe die Aufgabe perfekt erfüllen würde.
Textzusammenfassung
Der transkribierte Text wird anschließend mit AWS Bedrock, das auf Aufgaben der Verarbeitung natürlicher Sprache spezialisiert ist, zu einer kurzen, aussagekräftigen Zusammenfassung verdichtet. Diese Zusammenfassung fasst die wichtigsten Punkte des Meetings zusammen und macht die Ausgabe für Endnutzer nützlicher und prägnanter.
E-Mail-Zustellung
Sobald die Zusammenfassung abgeschlossen ist, sendet das System den Bericht automatisch an die registrierte E-Mail-Adresse des Nutzers. Dies gewährleistet, dass Teilnehmer des Meetings ihre zusammengefasste Besprechungsübersicht schnell und bequem erhalten.
Teilnehmer-Spezifikation
Für eine verbesserte Texterkennung und Sprecherzuordnung kann der Nutzer die Anzahl der Meetingteilnehmer angeben. Dies hilft AWS Transcribe, die Sprache einzelnen Sprechern zuzuordnen, was zu genaueren Transkriptionen führt.
Benutzeroberfläche
Die Anwendung wurde mit einer einfachen und benutzerfreundlichen Oberfläche gestaltet, um eine einfache Bedienung zu gewährleisten. Nutzer können Dateien hochladen, Präferenzen festlegen (z. B. Teilnehmeranzahl) und Ergebnisse abrufen, ohne technisches Fachwissen zu benötigen.
Authentifizierungsabläufe
Ob durch die Verwendung eines verwalteten Logins oder durch den Aufbau eines benutzerdefinierten Frontends mit einem AWS SDK zur Authentifizierung – es ist wichtig, die App so zu konfigurieren, dass sie die gewünschten Authentifizierungsmethoden unterstützt.
Nach der Entwicklung der Lösung wurde lokales Testen ermöglicht, einschließlich Tests mit mehr als einstündigen Besprechungen. Da es sich nicht um eine Text-zu-Sprache Webanwendung handelt, wurden Tests dieser Art ausgelassen.
Ergebnisse
Derzeit befindet sich dieses Projekt in der Prototypphase. Die nächsten Schritte für die App zur Transkription von Sprache in Text umfassen:
- Verbesserung der UX-Funktionen, die für eine einfachere Nutzung sinnvoll wären.
- Tests mit weiteren Videoformaten und längeren Aufnahmen.
Der Hauptlernpunkt für unseren Entwickler im Prozess war die Integration von AWS Services (Transcribe und Bedrock) und die Optimierung der Leistung und Skalierbarkeit der Lösung.
Als Ergebnis der
Elinext Meeting Minutes-Lösung begannen unsere Teams, mehrere sofortige Vorteile zu erfahren, darunter Zeitersparnis und Arbeitseffizienz (prägnante Meeting-Zusammenfassungen per E-Mail kurz nach diesen Meetings sind sehr hilfreich, und das Fehlen des Bedarfs an manueller Transkription spart viel Aufwand).
Wir sind eine erfahrene
Python Agentur und liefern erstklassige Webentwicklungslösungen. Daher wäre es keine Überraschung, wenn die während dieses Projekts gesammelten Erfahrungen bald relevant werden, um beispielsweise die Entwicklung einer Text-zu-Sprache App voranzutreiben.