Social Media Monitoring Tools – ein Benchmarking Pilot

maze2

Was wird über mich, mein Unternehmen, meine Marke denn aktuell im Social Web so geschrieben?

Gute Frage – aber bei der Suche nach einer korrekten Antwort kann man sich verlaufen.

In letzter Zeit wird diese Frage immer häufiger gestellt, von immer mehr Managern und in Bezug auf immer mehr Themen (Personen, Firmen, Marken, Events, Schlagworte etc.). Kein Wunder, dass es auch immer mehr Wege zu einer Antwort gibt, Software-Lösungen, die in aller Regel als „SaaS„, Software as a Service angeboten werden.

Es geht dabei offensichtlich um Social Media, dessen Inhalt untersucht, ge-monitort werden soll, mit entsprechenden Werkzeugen. Alles zusammen ergibt dann das Wort-Monstrum im Titel: „Social Media Monitoring Tool“. Weil es so riesig ist, werden wir es hier auch zu „SMMT“ zusammenziehen.

Wir haben 5 dieser Tools mit einander verglichen und berichten hier von den Ergebnissen dieses Vergleichs. Einen ersten Teil des Berichts haben wir schon veröffentlicht. Hier wurde die Vorgehensweise bei unserem Projekt vorgestellt.

Teil 1 ist natürlich hervorragend und lesenswert – aber um das hier zu verstehen muss man ihn nicht unbedingt durchgearbeitet haben. Hier in Teil 2 (einen Teil 3 gibt es nicht) berichten wir von den eigentlichen Ergebnissen.

Bevor wir da tiefer eintauchen, kommen zunächst einige einführende Bemerkungen. Wer das überspringen und gleich und schnell zu den Ergebnissen will, muss diesem Link folgen:

Ich will direkt zu den Ergebnissen – ohne weitere Vorreden

Einführende Bemerkungen

Zunächst wollen wir ein sehr allgemeines Thema ansprechen: Wie funktionieren diese Tools eigentlich im Prinzip? Ganz abstrakt haben wir das in diesem Schaubild dargestellt.

130420 SMM Prozess

Es treffen also zwei „Künste“ auf einander, müssen Hand-in-Hand arbeiten: Such-Techniken (Schritt 1) und Text-Mining-Techniken (Schritt 2), letzteres eine Disziplin der Linguistik.

In beiden Bereichen gibt es unterschiedliche Ansätze, Lehrmeinungen, Methoden, und die wiederum bestimmen, wie die Social Media Monitoring Tools arbeiten. Besonders krass schlägt das bei der sog. „Sentiment Detection“ durch, hier können die Tools recht stark von einander abweichende Ergebnisse erzielen. Wir haben dieses Spezialthema schon vor einigen Beiträgen angerissen, wer da tiefer hineinschauen möchte, folgt bitte diesem Link.

Wichtigste Schlussfolgerung dort: so schillernd, faszinierend und aufmerksamkeitsstark Sentiment-Vergleiche auch sein mögen – an der Qualität der Sentiment-Erkennung sollte man nicht primär seine Tool-Auswahl festmachen.

Und woran soll man dann die Auswahl primär festmachen?

Die meisten Tool-Vergleiche, die man im Web findet, orientieren sich am „Funktionsumfang“ im weiteren Sinn. Manchmal wurden die Tools vom Autor diesbezüglich getestet, manchmal wurden die Hersteller schlicht befragt – auch okay. Eine solche Übersicht mit 50 Produkten liefert die österreichische Webseite SoMeMo, hier findet man auch eine Weltkarte mit den Firmensitzen dieser Anbieter – by the way: erstaunlich Europa-lastig, das Thema.

Diese Seite liefert einen ersten Überblick – aber es gibt zahlreiche weitere Untersuchungen dazu. Wir haben für die Eigenbewertung von Tools eine generische Liste mit 88 Kriterien entwickelt und hier vorgestellt. Wenn Sie also selbst die Tools bzgl. ihres Funktionsumfangs bewerten wollen – hier ist der Link zu den 88 Kriterien.

Doch diese „funktionale Sicht“ (wie funktionieren die Tools, welche Optionen bieten sie?) ist nur die halbe Miete. Eine mindestens ebenso wichtige Frage ist: Finden sie eigentlich das, was gesucht wird? Denn was nützt die schönste Grafik, wenn die 3D-Türmchen falsch sind?

Dieser Frage sind wir nun nachgegangen und haben eine Pilotstudie durchgeführt. Sie ist ausführlich in diesem Exposé beschrieben.

Teilgenommen haben diese 5 Anbieter / Produkte:

Und diese Searchbedingungen waren für den Vergleich von uns vorgegeben:

130420 SuchkriterienWarum 4 und nicht ein Search-Thema? Da die Ergebnismenge, also der Set der Treffer, vor dem Search naturgemäß unbekannt ist, wollten wir sicher sein, dass die Analyse nicht nur irgendwelche 3 oder 11 Treffer generiert, über 100 sollten es schon sein.

Warum gerade diese? Die Formel 1 hatte am 24.3. ein Rennen in Malaysia, Google Glass wurde in D bzgl. Datenschutz angeregt diskutiert, „Die Vögel“ wurde am 27.3. 50 Jahre alt und Conrad Röntgen hatte am 27.3. Geburtstag. „Röntgen“ und „Vögel“ enthalten das deutsche Sonderzeichen „ö“, „Formel 1“ könnte man auch z.B. „Formel1“ schreiben, 3 der Themen enthielten zudem die logische Operatoren AND und OR. Und jedes der Themen sah so aus, als würde es zwar einige, aber nicht mehr als 1.000 Treffer generieren an diesen 2 Tagen. (Fast richtig: Search 2 generierte keinen Treffer).

Warum nur Twitter? Um im (Machbarkeits-)Pilot den Aufwand (überschaubare Treffermenge, überschaubare Textlängen) übersichtlich zu halten.

Warum nur deutsch? Wir sind ein deutschsprachiges Blog, absehbar sind die Leser an Tools interessiert, die für den deutschen Markt gute Ergebnisse liefern. Zumindest für die Sentiment-Beurteilung hätten wir Native-Speaker der anderen Sprache hinzuziehen müssen, das hätte den Aufwand weiter vergrößert.

Warum diese 2 Tage? Pure Willkür, alle hatten da Zeit, und bei nur einem Tag hätte ein überraschendes Großereignis alles überdecken und stören können.

Im Export-Tab hatten wir noch spezifiziert, wie die Ergebnisse formatiert werden sollten.

Die Ergebnisse unseres Pilot-Projekts „Qualitäts-Benchmarking“

Bevor wir in die Details gehen: Die Ergebnisse und die anschließende sehr angeregte Diskussion mit den Teilnehmern machten deutlich, dass die Tools an einigen wenigen, aber entscheidenden Stellen methodische Unterschiede haben, die man im Vorfeld hätte ausräumen bzw. klären müssen – und wir hatten nicht ausgeräumt und geklärt.

Unser Ergebnis wird außerdem belastet von dem überraschenden Umstand, dass ca. 10 Tage nach der Suche nur noch rd. 90% der gefunden URLs „funktionieren“, verfügbar, aufrufbar sind. Dieser Schwund von Tweets und ganzen Accounts scheint sich auch 2 Wochen nach dem Search fortzusetzen (Ursache unbekannt). Jedenfalls: Immer mehr Ergebnisse waren und sind nicht mehr reproduzierbar.

Konsequenz: einen klaren Sieger unter den 5 Produkten gibt es nicht. Es gibt solche, die bei Einzelpunkten besser abgeschnitten haben, aber die wesentliche Grundlage, die Grundgesamtheit, ist von den oben angesprochenen Unterschieden so gestört, dass ein abschließendes Bottom-Line-Ergebnis nicht seriös wäre.

Letzte Vorinfo: Search 1 generierte 768 Ergebnisse, Search 2 gar keins, Search 3 knapp 30 und Search 4 gerade mal 10 Ergebnisse.

So, nun zu den Details!

Detail-Ergebnisse

  • Äußere Suchqualität

Mit „Äußere Suchqualität“ bezeichnen wir die Fähigkeit eines Tools, möglichst viele der relevanten Posts und Tweets zu finden. Man könnte das auch als „Vollständigkeit“ bezeichnen. Und genau hier beginnen bereits die Schwierigkeiten.

  • In Twitter (und eigentlich nur da) werden gelegentlich manche Wörter mit einer „#“ versehen, so entsteht ein „Hashtag“. (Hier lesen Sie mehr zu Hashtags). Einige der SMMT deklinieren die Suchbegriffe entsprechend. So fanden einige neben Tweets mit „Die Vögel“ auch solche mit „Die #Vögel“. Andere hatte sich hart an den vorgegebenen String gehalten und fanden die nicht. Beide Sichtweisen sind durchaus berechtigt.
  • Je nach Sprachgefühl schreiben einige Menschen 2 Wörter zusammen, andere mit Bindestrich, z.B. „Socialmedia“ vs. „Social-Media“. In unserem Falle haben einige SMMT aus „Formel-1“ auch noch automatisch „Formel1“ gemacht – andere nicht.

Durch diese zwei Unterschiede, die in jeder Ausprägung keinen Qualitätsunterschied im engeren Sinn bedeuten sondern mehr einen „Philosphieunterschied“ , sind gleich zum Start unterschiedliche Ausgangsmengen entstanden.

Hinzu kommt noch:

  • Manche Produkte suchen den Suchstring im gesamten Datensatz, manche nur im Text (das wäre wohl richtiger). Wenn der Twitter-Account-Name „Formel1“ enthält und die Bindestrich-Verkürzung zugeschlagen hat, sind alle Tweets dieses Accounts Treffer.

Vor diesem Hintergrund ist gerade das wichtige Kriterium der äußeren Suchqualität zu unserem großen Bedauern nicht belastbar aus unseren Ergebnissen abzuleiten.

  • Innere Suchqualität

Mit „Innere Suchqualität“ bezeichnen wir die Fähigkeit eines SMMT, möglichst wenig falsche Ergebnisse für einen Search zu generieren, also im Idealfall nur relevante Posts zu finden. Man könnte hier auch „Korrektheit“ sagen.

Auch dieses Ergebnis ist von den o.g. „Effekten“ gestört. Eine Tendenz glauben wir trotzdem erkannt zu haben: Auf Basis der vorliegenden Daten sind Brandwatch und der Web Analyzer von Valuescope hier die führenden Produkte. Das Niveau ist aber insgesamt recht hoch: Alle 5 SMMT erzielen über 90% Genauigkeit, die beiden hier genannten sogar 98% bzw. 97%.

  • Richtige Quelle

Alle SMMT haben Ergebnisse geliefert, deren URL mit http://twitter.com beginnt, aber die Überprüfung, ob diese URL auch zu einem realen Tweet führt, war schon wenige Tage nach den Searches nicht mehr zuverlässig möglich. Wir sind oben schon unter dem Stichwort „Schwund“ darauf eingegangen. Die beste „Quellenqualität“ (99%) haben wir (mit allem Vorbehalt) bei Echobot und Web Analyzer gemessen.

  • Richtige Spracherkennung

Die Spracherkennung ist eher ein schwaches Glied der Qualitätskette. Je nach Quelle der Ergebnismenge (die Tools kaufen die gesuchten Tweets in der Regel selbst wieder extern zu) ist sie besser oder schlechter. Aber sie ist nie voll belastbar.

Dabei geht es nicht um Tweets mit einem Sprach-Mix, die sicherlich schwer zu klassifizieren sind. Es geht um ganz einfach gestrickte Texte, in denen nicht ein einziges deutsches Wort vorkommt. Nur solche haben wir als „falsch erkannt“ markiert. Damit liegt die Spracherkennungsqualität für alle 5 bei mindestens 94% und maximal bei 98% (Brandwatch, talkwalker, Web Analyzer).

  • Richtiges Thema / richtige Logik

Dieses Kriterium ist vor dem Hintergrund der unterschiedlichen Behandlung von Textstrings (s.o.) nicht bewertbar.

  • Richtiges Datum

Sehr überraschend: Das Datum wird (relativ) oft falsch erkannt / selektiert. Die Qualität liegt zwischen 94 und 96%, d.h. rund 5% der Ergebnismenge hat ein anderes Datum, als in den Searchkriterien gefordert (oft vom 26.3.2013, richtig wären 27.oder 28.3. gewesen). Die Ursache für diese Fehlselektion ist bisher unklar, unterschiedliche Zeitzonen sind es aber offensichtlich nicht.

  • Richtiges Sentiment

An diesem Vergleich nahm Echobot nicht teil, das Produkt wertet Sentiment nicht aus. Von den anderen 4 stimmte die automatische Tonalitäts-Bewertung von Web Analyzer und von Brandwatch am besten mit unserer manuellen überein.

Hier muss allerdings angemerkt werden, dass UMT Delta eine manuelle Korrektur des Sentiments bei jedem Post ermöglicht. Kommende Bewertungen setzen dann lernend auf die Korrekturen auf. Diese Trainings- und Optimierungs-Chance haben wir dem Produkt nicht gegeben. Im professionellen Regelbetrieb und bei festen Produkten und Branchen ist so ein Training aber zu erwarten und wird dann zu anderen Ergebnissen führen.

Fazit

  • Der volle Vergleich war nicht möglich, konzeptionelle Unklarheiten stören einige Ergebnisse
  • Alle Produkte liefern dort, wo man es gut bis gerade noch zulässig messen kann, recht gute Ergebnisse. Bis auf Sentiment-Erkennung wurden von allen immer über 90% Qualität, oft über 95% Genauigkeit erreicht.
  • Nutzer eines Social Media Monitoring Tools müssen sich vermutlich generell darauf einstellen, dass numerische Angaben zum Treffer-Volumen zu rund 5% falsch sind.
  • Nutzer eines SMMT müssen mit den Produktverantwortlichen klären, welche automatischen oder optionalen „Deklinationen“ das Produkt an ihren Suchwörtern vornimmt (z.B. # dazu, Bindestrich weg)
  • Besonders kritisch sind die Spracherkennung und die zeitliche Eingrenzung. Wenn Tweets aus falschen Märkten oder falschen Zeiträumen mit ausgewertet werden, kann z.B. eine Kampagnenbewertung zu Fehlerkenntnissen kommen.
  • Sentiment ist ein Thema für sich, hier gibt es große Unterschiede und zum Teil erhebliche Abweichungen. Je nach Einsatzbereich müssen die Anforderungen an das ausgewählte Social Media Monitoring Tool sehr klar definiert werden. Die Qualität ist durch manuelle Parallelbewertung unbedingt regelmäßig abzugleichen / zu kalibrieren.

Ausblick

Obwohl die 5 Produkte nicht wirklich weit auseinanderliegen, würden wir es doch gern genauer wissen. Uns stören die oben angesprochenen Unterschiede der Suchemethoden. Wir werden deshalb einen ähnlichen, aber leicht modifizierten Test erneut auf setzen (vermutlich im Mai 2013) – und dann natürlich hiervon berichten.

So gesehen war es eben wirklich ein Pilot-Projekt – um genau solche Erfahrungen zu sammeln.

Abschließende Bemerkungen

  • Zunächst ein großes Lob an alle Leser, die bis hierher durchgehalten haben. Es ist kein leichtes Thema und es war viel Stoff. Wir hoffen, Sie können hieraus bereits ersten Nutzen ziehen und besuchen uns wieder, wenn es zum Thema Neues zu berichten gibt. Machen Sie doch von unserer RSS-Option Gebrauch! Wie das geht? Haben wir hier kurz vorgestellt.
  • Sollten Sie Erklärungen zu den hier angesprochenen Unklarheiten oder überraschenden Effekten haben – entsprechende Hilfe ist sehr willkommen.
  • Sollten Sie selbst ein SMMT verantwortlich vertreten und sind an einer Teilnahme bei Folgevergleichen interessiert: nehmen Sie bitte mit uns Kontakt auf.
  • Sollten Sie individuellen Support bei der Auswahl oder Nutzung eines SMMT benötigen: wir freuen uns, wenn wir Sie unterstützen dürfen. Hier ist eine Übersicht unserer Leistungen.
  • Und sollte Ihnen der Artikel einfach gefallen haben, freuen wir uns natürlich über die bekannten Social-Media-Freundlichkeiten wie Kommentar, Lob oder Weiterleitung.

 

 

Hinterlasse einen Kommentar