Projekthintergrund
Elinext wurde von einer analytischen Agentur aus Polen kontaktiert und gebeten, eine Stimmungsanalysesoftware zu entwickeln, die Emotionen in polnischen Tweets über die Wahlen analysiert. Der Kunde wollte Tweets nach Schlüsselwörtern (z. B. Name einer Partei) herunterladen und die emotionale Reaktion auf eine Partei und ihre Hauptakteure über einen bestimmten Zeitraum (Tag, Woche, Monat usw.) auswerten. Außerdem wollte der Kunde in der Lage sein, bestimmte Wörter von Twitter-Nutzern zu identifizieren, die die Aktivität einer Partei charakterisieren könnten. Auf diese Weise könnte die analytische Agentur besser verstehen, was das Ranking einer Partei ausmacht: was getan werden sollte, um es zu verbessern, und was vermieden werden sollte (Ereignisse, Handlungen, Worte, Verbindungen usw.).Herausforderungen
Elinext-Teams standen vor der herausfordernden Aufgabe, eine Lösung zu entwickeln, die eine Stimmungsanalyse in Twitter ermöglicht und unserem Kunden die Möglichkeit bietet, aufschlussreiche Informationen darüber zu erhalten, wie Twitter-Benutzer auf bestimmte Politiker, ihre Aktionen, Reden usw. reagieren, und dann entsprechend zu handeln.Projektbeschreibung
Das Projekt wurde in die folgenden Segmente des Tweets-Analyseprozesses unterteilt:- Daten abrufen
- Daten vorbereiten
- Daten analysieren
Entwicklungsprozess
Wie bereits erwähnt, wurde der Entwicklungsprozess in drei Hauptphasen unterteilt:Daten abrufen
Unser Entwicklungsteam hat dafür gesorgt, dass die zu entwickelnde Software mit Twitter verbunden ist. Unmittelbar danach extrahierten wir Tweet-Objekte von Interesse unseres Kunden (nach bestimmten Schlüsselwörtern und erforderlichen Zeitintervallen), damit unsere Lösung regelmäßig verwendet wird und Einblicke in die Dynamik der politischen Präferenzen in Polen während und nach den Wahlen erhält. Es wurde geschaffen, um ein alltägliches Werkzeug für polnische Politikanalysten zu sein.Daten vorbereiten
Wir haben JSON und Pandas genutzt, um extrahierte Tweet-Objekte umzuwandeln. Um die Tweets für ihre weitere Analyse vorzubereiten, haben wir einen Prozess eingerichtet, der Wörter ohne wirklichen semantischen Wert (Präpositionen, Interjektionen usw.) ausschließt und Verweise auf andere Twitter-Accounts trennt.Daten analysieren
Um eine effektive Analyse des verbleibenden Textes zu gewährleisten, wurden zwei Wörterbücher verwendet: National Corpus of Polish präsentiert im Word2vec-Format von Google und PLWordnet. Die erste ermöglicht die Verarbeitung natürlicher Sprache (NLP) mit Vektordarstellung für das Wörterbuch der polnischen Sprache, das auf Wortpositionen in großen Textmengen basierte. Die zweite enthält Wörterbücher polnischer Wörter mit positiven und negativen Konnotationen.- Das National Corpus of Polish Dictionary wurde mit der Gensim-Bibliothek gelesen, um das Word2vec-Modell zu erhalten.
- Das PLWordnet-Wörterbuch kann als XML-Datei heruntergeladen werden, die mit der ElementTree-XML-API geparst und mit regulären Ausdrücken gefiltert wurde.
Technologien
- Python
- Keras
- Pandas
- NumPy
- Tweepy
- JSON
- Gensim
- Morfeusz
- Scikit-learn
- Matplotlib
Funktionen
- Extraktion von Tweets nach Schlüsselwörtern, Zeitintervallen usw.
- Umwandlung von Tweet-Objekten in JSON- und Pandas-Datenrahmen, Generierung von Analyseausgaben in den Formaten .csv und .xls
- Textbereinigung von Wörtern ohne semantische Belastung (Präpositionen, Interjektionen usw.), Stoppwörter, Text-Tokenisierung
- Verarbeitung natürlicher Sprache
- XML-Datei-Parsing und String-Filterung mit regulären Ausdrücken
- Text-zu-Vektor-Umwandlung Tweets-Cluster-Analyse
- Dimensionsreduktion mit Hauptkomponentenanalyse
- Datenvisualisierung
- Identifizierung der am häufigsten verwendeten Wörter mit ihrer Umwandlung in die Ausgangsform
- Identifizierung von Wörtern als Wortarten
- Berechnung der Häufigkeit des Auftretens in Tweets und durchschnittlicher Sentimentwerte für alle Verben und Substantive (allgemeine und Eigennamen getrennt) und Twitter-Konten, die in Tweet-Texten erwähnt werden (z. B. Twitter-Konten von Politikern)
- Identifizierung der positiven oder negativen Einstellung des Twitter-Publikums gegenüber einer Partei, einem Politiker, einer Veranstaltung usw.
Ergebnisse
Das Elinext-Team hat erfolgreich eine Softwarelösung entwickelt, die Tweets schnell nach bestimmten Kriterien analysiert und dem Kunden auf der Grundlage der Sentimentanalyse aufschlussreiche Informationen liefert. Mit Hilfe unserer Software kann die polnische Analyseagentur die öffentliche Einstellung zu politischen Parteien, ihren Führern oder Spielern, ihren Reden oder einigen Ereignissen verstehen. Mit den erhaltenen Informationen ist es möglich, herauszufinden, welche Handlungen oder Worte die öffentliche Meinung bilden, sowie zu sehen, welche Worte oder Sätze von Twitter-Nutzern mit einer Partei oder ihrem Spieler verknüpft sind, und entsprechende Maßnahmen und Maßnahmen zur Verbesserung zu ergreifen das Bild. Es ist erwähnenswert, dass unsere Softwarelösung, obwohl sie in der Politik nützlich ist, auch für Vermarkter, Einzelhändler, Soziologen und andere Fachleute, die mit der Meinung von Menschen arbeiten, funktionieren kann.
Share