Social Media Stimmungsanalyse Software für eine Analyse-Agentur
Social Media Stimmungsanalyse Software für eine Analyse-Agentur
Information
Standort:
Warschau, Polen
Branche:
Medien und Unterhaltung
Plattform:
Web
Arbeitsmodell:
Festpreis
Projektdauer:
1 Monat
Team-Mitglieder:
3 Entwickler
ID:
375
Verwendete Technologien
Keras
Pandas
NumPy
Tweepy
Gensim
Morfeusz
Scikit-learn
Python
Matplotlib
JSON
Front-end

Projekthintergrund

Elinext wurde von einer analytischen Agentur aus Polen kontaktiert und gebeten, eine Stimmungsanalysesoftware zu entwickeln, die Emotionen in polnischen Tweets über die Wahlen analysiert. Der Kunde wollte Tweets nach Schlüsselwörtern (z. B. Name einer Partei) herunterladen und die emotionale Reaktion auf eine Partei und ihre Hauptakteure über einen bestimmten Zeitraum (Tag, Woche, Monat usw.) auswerten. Außerdem wollte der Kunde in der Lage sein, bestimmte Wörter von Twitter-Nutzern zu identifizieren, die die Aktivität einer Partei charakterisieren könnten. Auf diese Weise könnte die analytische Agentur besser verstehen, was das Ranking einer Partei ausmacht: was getan werden sollte, um es zu verbessern, und was vermieden werden sollte (Ereignisse, Handlungen, Worte, Verbindungen usw.).

Herausforderungen

Elinext-Teams standen vor der herausfordernden Aufgabe, eine Lösung zu entwickeln, die eine Stimmungsanalyse in Twitter ermöglicht und unserem Kunden die Möglichkeit bietet, aufschlussreiche Informationen darüber zu erhalten, wie Twitter-Benutzer auf bestimmte Politiker, ihre Aktionen, Reden usw. reagieren, und dann entsprechend zu handeln.

Projektbeschreibung

Das Projekt wurde in die folgenden Segmente des Tweets-Analyseprozesses unterteilt:
  • Daten abrufen
  • Daten vorbereiten
  • Daten analysieren
Jeder Schritt umfasste unterschiedliche Technologien und Ansätze, die weiter unten beschrieben werden.

Entwicklungsprozess

Wie bereits erwähnt, wurde der Entwicklungsprozess in drei Hauptphasen unterteilt:

Daten abrufen

Unser Entwicklungsteam hat dafür gesorgt, dass die zu entwickelnde Software mit Twitter verbunden ist. Unmittelbar danach extrahierten wir Tweet-Objekte von Interesse unseres Kunden (nach bestimmten Schlüsselwörtern und erforderlichen Zeitintervallen), damit unsere Lösung regelmäßig verwendet wird und Einblicke in die Dynamik der politischen Präferenzen in Polen während und nach den Wahlen erhält. Es wurde geschaffen, um ein alltägliches Werkzeug für polnische Politikanalysten zu sein.

Daten vorbereiten

Wir haben JSON und Pandas genutzt, um extrahierte Tweet-Objekte umzuwandeln. Um die Tweets für ihre weitere Analyse vorzubereiten, haben wir einen Prozess eingerichtet, der Wörter ohne wirklichen semantischen Wert (Präpositionen, Interjektionen usw.) ausschließt und Verweise auf andere Twitter-Accounts trennt.

Daten analysieren

Um eine effektive Analyse des verbleibenden Textes zu gewährleisten, wurden zwei Wörterbücher verwendet: National Corpus of Polish präsentiert im Word2vec-Format von Google und PLWordnet. Die erste ermöglicht die Verarbeitung natürlicher Sprache (NLP) mit Vektordarstellung für das Wörterbuch der polnischen Sprache, das auf Wortpositionen in großen Textmengen basierte. Die zweite enthält Wörterbücher polnischer Wörter mit positiven und negativen Konnotationen.
  • Das National Corpus of Polish Dictionary wurde mit der Gensim-Bibliothek gelesen, um das Word2vec-Modell zu erhalten.
  • Das PLWordnet-Wörterbuch kann als XML-Datei heruntergeladen werden, die mit der ElementTree-XML-API geparst und mit regulären Ausdrücken gefiltert wurde.
Um die Cluster der polnischen Wähler aufzudecken, wurde die Tweets-Clusteranalyse hinzugefügt. Um eine klare Darstellung der analysierten Daten bereitzustellen, haben wir eine Datenvisualisierungsoption von Clustern in 2D und 3D hinzugefügt, die auf der PCA-Dimensionsreduktionstechnik basiert.

Technologien

  • Python
  • Keras
  • Pandas
  • NumPy
  • Tweepy
  • JSON
  • Gensim
  • Morfeusz
  • Scikit-learn
  • Matplotlib

Funktionen

  • Extraktion von Tweets nach Schlüsselwörtern, Zeitintervallen usw.
  • Umwandlung von Tweet-Objekten in JSON- und Pandas-Datenrahmen, Generierung von Analyseausgaben in den Formaten .csv und .xls
  • Textbereinigung von Wörtern ohne semantische Belastung (Präpositionen, Interjektionen usw.), Stoppwörter, Text-Tokenisierung
  • Verarbeitung natürlicher Sprache
  • XML-Datei-Parsing und String-Filterung mit regulären Ausdrücken
  • Text-zu-Vektor-Umwandlung Tweets-Cluster-Analyse
  • Dimensionsreduktion mit Hauptkomponentenanalyse
  • Datenvisualisierung
  • Identifizierung der am häufigsten verwendeten Wörter mit ihrer Umwandlung in die Ausgangsform
  • Identifizierung von Wörtern als Wortarten
  • Berechnung der Häufigkeit des Auftretens in Tweets und durchschnittlicher Sentimentwerte für alle Verben und Substantive (allgemeine und Eigennamen getrennt) und Twitter-Konten, die in Tweet-Texten erwähnt werden (z. B. Twitter-Konten von Politikern)
  • Identifizierung der positiven oder negativen Einstellung des Twitter-Publikums gegenüber einer Partei, einem Politiker, einer Veranstaltung usw.

Ergebnisse

Das Elinext-Team hat erfolgreich eine Softwarelösung entwickelt, die Tweets schnell nach bestimmten Kriterien analysiert und dem Kunden auf der Grundlage der Sentimentanalyse aufschlussreiche Informationen liefert. Mit Hilfe unserer Software kann die polnische Analyseagentur die öffentliche Einstellung zu politischen Parteien, ihren Führern oder Spielern, ihren Reden oder einigen Ereignissen verstehen. Mit den erhaltenen Informationen ist es möglich, herauszufinden, welche Handlungen oder Worte die öffentliche Meinung bilden, sowie zu sehen, welche Worte oder Sätze von Twitter-Nutzern mit einer Partei oder ihrem Spieler verknüpft sind, und entsprechende Maßnahmen und Maßnahmen zur Verbesserung zu ergreifen das Bild. Es ist erwähnenswert, dass unsere Softwarelösung, obwohl sie in der Politik nützlich ist, auch für Vermarkter, Einzelhändler, Soziologen und andere Fachleute, die mit der Meinung von Menschen arbeiten, funktionieren kann.
clusters1-2
density1-2
tweets1-2
Haben Sie vor, ein gleiches Projekt zu schaffen?
Haben Sie eine Projektidee? Lassen Sie uns darüber diskutieren
Kontakt


    Insert math as
    Block
    Inline
    Additional settings
    Formula color
    Text color
    #333333
    Type math using LaTeX
    Preview
    \({}\)
    Nothing to preview
    Insert