Automatische Sentiment Erkennung – wie gut ist das?

Social Media Monitoring Tools, kurz SMMT, bieten in aller Regel die sog. „Sentiment Erkennung“, d.h. die Erkennung der Tonalität oder Einfärbung des gefundenen Text-Stückes als automatische Leistung mit an.

Wir haben die Erkennungs-Qualität an einem konkreten Beispiel untersucht und berichten hier von allgemeinen wie praktischen Erkenntnissen. Der Beitrag endet mit 8 Empfehlungen zum Umgang mit der Sentiment Erkennung.

Wir beginnen mit einigen grundsätzlichen Besonderheiten des Themas Sentiment, hier sind 3 einfache Beispiele:

  • Anwendung X ist super!“ ist danach positiv,
  • Anwendung Y lässt viele Wünsche offen.“ ist negativ und
  • Für Anwendung Z gibt es eine neue Preisliste.“ ist neutral.

Diese 3-Teilung hat sich eingebürgert und sie ist auch sinnvoll. Nur 2 Kategorien, positiv und negativ, sind sicher zu wenige, denn der Anteil der neutralen Beiträge ist meist der höchste. Eine vierte Kategorie könnte allerdings sein: „unentscheidbar“, eine Art „semantisches Grau„. Doch das setzt voraus, dass der Algorithmus seine Qualität selbst beurteilen kann, und etwa bei unter 70% Sicherheit die Flagge streicht. Diese Funktion, so schön sie wäre, wird nur sehr selten angeboten.

Wie funktionieren diese Sentiment-Erkenner? Im Prinzip immer gleich: sie haben Worte, Wortgruppen und Satzfragmente in div. Schreibweisen, die als Indikatoren für positive oder negative Aussagen gelten. Wenn die eine Gruppe von Worten in einem Text überwiegt, dann wird der Text als entsprechend gefärbt erkannt. Das klingt einfach, aber linguistisch wie statistisch können das sehr anspruchsvolle Auswertungen sein.

In unseren Beispielen oben muss „super“ ein positives Wort sein, während „Wünsche offen lassen“ negativ konnotiert sein muss, damit die Erkennung wie dargestellt erfolgt. Das beliebte Wort „neu“ ist nur schwach positiv, ohne weitere Verstärkung etwa durch „frisch“ oder „besser“ bringt es den dritten Satz nicht aus dem neutralen Feld.

Das klingt nach einem zuverlässigen Verfahren. Doch in Wirklichkeit hat es 2 gravierende Schwachstellen:

  • Sprache ist ein so kompliziertes Konstrukt, dass Algorithmen für eine wirklich belastbare Sentiment-Erkennung immer noch überfordert sind. Besonders anschauliche Beispiele für die Grenzen kommen aus dem Bereich der Ironie. In Motortalk etwa findet man manche Beiträge, die den Bericht von der Panne mit dem BMW mit den Worten „wirklich eine große Freude am Fahren!“ abschließen. Das kann man nur schwer als kritisch  erkennen.
  • Doch recht viele Posts&Co könnte auch ein Mensch nicht wirklich zuverlässig einordnen – ohne entsprechendes Projektvorverständnis. Hier sind einige Beispiele:
    • Angela Merkel greift Peer Steinbrück an – Peer Steinbrück wirkt entspannt, er empfindet den Angriff anscheinend als Lob – Peer Steinbrück wirft Angela Merkel Täuschung vor – Angela Merkel sagt: „Ich bin nicht glücklich über die neuen Vorwürfe!“
    • Den Polizisten bot sich ein grausiges Bild am Tatort – Tatort Kommissar Thiel hat heute Abend ein besonders grausiges Verbrechen aufzuklären
    • Mit Stolz stellen wir heute unsere neue Anwendung X vor, sie ist wirklich super! – Ich habe die neue Anwendung X getestet und muss sagen: sie ist wirklich super!

Offensichtlich spielt es eine Rolle wer spricht (z.B. Hersteller oder Kunde?), in welchem Medium sich der Beitrag findet (offizielle Medien wie News oder eher private wie Twitter) und – besonders wichtig – : von wem das „Sentiment“ bewertet wird. („Euro-Krise macht VW zum Herrscher über Europa“ wird aus Sicht von Toyota oder GM sicher anders gesehen, als von Volkswagen.).

Bevor wir diese Erkenntnisse zu Empfehlungen zusammenfassen, wollen wir die Sentiment-Erkennung an einem konkreten Beispiel betrachten.

Wir haben hierzu das deutsche Produkt ubermetrics eingesetzt. Es ist noch recht jung, hat aber aus unserer Sicht Potenzial. Mit ubermetrics haben wir in den letzten 2 November-Wochen ein Search-Projekt rund um die angebliche Rabattschlacht im deutschen Automobilmarkt aufgesetzt. Die recht einfache Frage war: wie oft werden „Rabatt“, „Nachlass“, „price-off“, „Kondition“ oder „Preisnachlass“ in Zusammenhang mit „Audi“, „BMW“, „Mercedes“ oder „Volkswagen“ benutzt?

Die Suchmaschine fand 188 Treffer und hat diese automatisch bewertet. Wir haben sie alle gelesen und erneut manuell bewertet. Das manuelle Sentiment Bewertung hat knapp eine Stunde gedauert, als Richtwert kann man also 200 Beiträge/h annehmen.

Offensichtlich gibt es bei der Sentiment Erkennung erhebliche Unterschiede – das war auch nicht anders zu erwarten.

Tendenziell kann man sagen: bei „neutral“ scheinen noch grob die Welten zu passen, aber der Algorithmus „erkennt“ deutlich mehr negative Posts als der Mensch.

Noch interessanter ist der direkte Vergleich: in wie vielen Fällen stimmte das Ergebnis überein, wo wich es leicht ab (z.B. neutral statt positiv), wo wich es stark ab, d.h. positiv statt negativ und vice versa?

Nur 35% volle Übereinstimmung klingt nicht so gut (65% Mismatch ist die Glas-fast-leer-Variante davon), doch es passt zu unseren Erlebnissen mit anderen Werkzeugen:

Sentiment ist ein schwieriges Thema!

Wer hier die fertige, zuverlässige Lösung verspricht ist im Zweifel unseriös. Wer indessen die berühmten 60-70% erreicht, hat schon was gekonnt.

Unsere 8 Empfehlungen zu diesem Thema sind:

  1. Die automatische Sentiment Erkennung im Social Media Monitoring wird generell überschätzt. Sie ist nicht so leistungsfähig, wie man es gern hätte, und die schnell produzierten Grafiken sind absolut genommen kaum belastbar.
  2. Benutzen Sie die automatische Variante darum nur dann, wenn Sie es mit großen Fallzahlen im Zeitverlauf zu tun haben. Es spricht viel dafür, dass die „Erkennungs-Schiefe“ über die Zeit ungefähr gleich bleibt. So sehen Sie zumindest Veränderungen, die vermutlich auch draußen wirklich statt finden.
  3. Ziehen Sie regelmäßig aus dem Berg Stichproben, und bewerten Sie die manuell – um ein Gefühl für die faktische Abweichung zu haben. Ziehen Sie z.B. täglich 50 Posts und vergleichen Sie dann.
  4. Ob nun als Stichprobe oder weil die Fallzahl ohnehin klein ist: 50 Beiträge am Tag bewerten – das kann man noch irgendwo unterbringen. Sie werden erstaunt sein, wieviel besser Sie Ihre „Audience“ verstehen.
  5. Definieren Sie Regeln für die manuelle Sentiment-Erkennung, was genau ist mit „positiv“ gemeint? Das sollte einerseits ganz generell aus QM Sicht definiert werden. Aber Sie müssen auch die Bewerter „harmonisieren“ (falls es mehrere sind). Sie sollten alle nach den gleichen Prinzipien bewerten.
  6. Geben Sie die Aufgabe der manuellen Sentiment-Erkennung nur wenigen Personen, und immer den gleichen über einen längeren Zeitraum. Bewerten ist eine Kunst, die auf Erfahrung beruht.
  7. Sprechen Sie regelmäßig mit den Bewertern: was ist aktuell aufgefallen, welche Themen nehmen zu, welche kritischen Issues verschwinden, welche Wettbewerber tauchen plötzlich verstärkt auf? Die Bewerter haben schon bald hierfür ein gutes Gefühl entwickelt.
  8. Sollte Ihr Social Media Monitoring Tool über eine lernende Sentiment Erkennung verfügen, dann investieren Sie die Zeit, dem System Ihre Korrekturen beizubringen. So verbessern Sie die automatische Erkenntnis Qualität und sparen mittelfristig am manuellen Aufwand. Das ubermetrics-Produkt hat übrigens so eine lernende Sentiment-Erkennung.

In einem der nächsten Beiträge werden wir uns erneut mit ubermetrics beschäftigen und sie nach unserer Bewertungsmatrix beurteilen.

Hat Ihnen dieser Beitrag gefallen? Ein +1 bei google+ oder ein Daumen hoch bei facebook hilft immer!

 

Schreibe einen Kommentar