Learnings für E-Mail Kampagnen: Maschinelle Verarbeitung von E-Mails durch Google

Ein Newsletter ist ein direktes Marketing-Instrument, das Unternehmen maschinell über Tool-Anbieter gestalten und organisieren. Diese Tools generieren HTML-Gerüste, die der Nutzende meist per Drag&Drop zusammensetzt und mit seinen Inhalten befüllt. Ein Paper, das in Kooperation mit Google erarbeitet wurde, gewährt Einblicke in die maschinelle Verarbeitung von E-Mails durch Google und gibt indirekte Hinweise, wie man Teile dieses Gerüsts richtig zu gestalten hat. Wieso das bedeutsam für Sender von Newslettern sein kann, wird im folgenden Text erläutert.

Basiert auf: Hidden in Plain Sight: Classifying Emails Using Embedded Image Contents

Newsletter Marketing - Wenn das Postfach platzt

Google extrahiert Informationen aus den Werbemails

Google arbeitet an einem Algorithmus, der maschinell generierte, kommerzielle Mails ausliest und wichtige Informationen aus der Mail extrahiert. Aufgrund des hohen Volumens und Pensums an Werbemails ist ein Nutzer nicht mehr wirklich in der Lage, einen Überblick über kommende Angebote, Deadlines von Schlussverkäufen, etc. zu behalten. Laut der E-Mail Statistik Report der Radicati Group, werden 269 Milliarden Mails am Tag versendet. Davon sind insgesamt 90% automatisiert generierte Mails mit kommerziellem Ursprung. Das sind unter anderem Kaufbestätigungen, Social Media Updates der Unternehmen, Finanzstatus, Promotionen (klassischer Newsletter, persönlicher Gutschein, Geburtstagsgutschein, zurückgelassener Warenkorb). Google versucht sich an einer maschinellen Verarbeitung dieser Flut an E-Mails, um die Nutzer zu entlasten. Der Versuch hat zwei funktionale Schwerpunkte:

  • Angebote, die zu einem baldigen Zeitpunkt auslaufen, sollen dem Nutzer als Benachrichtigung angezeigt werden. Natürlich reduziert auf die wesentlichen Informationen.
  • Außerdem sollen Benachrichtigungen angezeigt werden, wenn es ein Angebot gibt, das immer noch besteht, wenn ein Nutzer den örtlichen Laden betritt.

Herausforderungen bei der E-Mail Analyse

Zu den generellen Herausforderungen bei der Analyse von Werbemails stehen natürlich der Datenschutz (Wie kann Google garantieren, keine privaten Mails auszuwerten?), das Volumen (269 Milliarden Mails täglich) und die Latenz auf der Liste. Zudem stellen die Mails an sich ein Problem dar: Die meisten kommerziellen Mails bestehen aus vielen Bildelementen. Das Auslesen dieser Bilddateien durch OCR-Verfahren („Optical Character Recognition“) ist sehr kostenintensiv.

Google setzt auf kosteneffiziente Systeme

Google nennt folgendes Beispiel: Black Friday! 20% off all purchased

Google wertet diese Information durch einen regulären Ausdruck aus: Black Friday! (.+)% off all purchased.

Außerdem verwendet Google laut eigener Aussage explizite und implizite Ähnlichkeitsmaße, Clustering basierend auf den Textstrukturen der Newslettersysteme und weitere Clustering-Techniken für den Textkorpus der E-Mail. Für den Textkorpus benutzt Google „Bags of Words“ und nennt wesentliche Beispiele, die innerhalb der Textwolke zu finden seien: in-store, savings, coupon, now, thru, thursday, extra und take. An dieser Stelle ist erwähnenswert, dass Google zwei „Bags of Words“ verwendet. Einen allgemeinen für den gesamten Textkorpus und einen weiteren für Worte, die nah an einem Datum zu finden sind!

Das Clustering von Mails per se, d.h. wann eine Mail als Werbemail klassifiziert wird, löst Google mit einem ähnlich funktionierenden Prozess der K-Anonymität. Man betont dabei erneut den Datenschutz der Nutzer.

Google versteht laut eigener Aussage Mails aus dem Bereich des Tourismus, der Hotels sowie Rechnungen, Angebote und Veranstaltungen! Für eine kleinere Gruppe wartet Google zudem manuell einen Algorithmus, der für spezielle Sender konzipiert worden ist.

Wertvolle Learnings für zukünftige E-Mail Kampagnen

Für die wertvolle Push-Benachrichtigung, die der Nutzer direkt auf sein Handy geschaltet bekommt, sollte man sich die Vorgehensweise des Algorithmus klarmachen und die entsprechenden Stellen optimieren. Zunächst wird ein Abgleich mit dem „Bag of Words“ laut Google mit folgenden Elementen gemacht:

  • Ausreichend Text innerhalb des <body>-Tags zur Verfügung stellen und auf Keywords achten (Was ist wichtig im Bezug auf die Verwendung des Gutscheins?)
  • Der Betreff wird ausgelesen
  • Text, der gefettet oder besonders groß geschrieben ist
  • Worte, die nah an einem Datum positioniert worden sind: Ist gültig bis 01.April 2018
  • HTML-Elemente (<img>, <script>, <a…>)

Außerdem: Die Bezeichnung der Bilddatei: In einer Abbildung wird die Klassifizierung von Bilddateien der Bezeichnungen bill.png und offer.png vorgenommen. Eine akkurate Bezeichnung der Bilddatei ist zu empfehlen.

Weitere wertvolle Hinweise:

  • Google befürwortet die Verwendung des Microdata-Markups und das Setzen von Alt-Attributen. Man bedauert, dass 47% der ausgewerteten alt-Attribute leer waren und 40% nur aus einem Wort bestanden. Ein Hinweis darauf, dass der alt-Tag eine entsprechende Bildbeschreibung offerieren sollte.
  • >25% der ausgewerteten Bilder waren kleiner als 10.000 Pixel. Diese Bilder wertet Google nicht aus! Zum Schutz der Netzwerk- und Verarbeitungsressourcen werden diese Bilder nicht ausgewertet. Hier entsteht ein möglicher Informationsverlust.
  • Google arbeitet mit Regex sowie XPath-Ausdrücken, um die Informationen zu extrahieren. Als Beispiele nennen sie hier XX% off, Valid through date, Free shipping for orders over $x, Buy X get Y free. Man sollte bei der Formulierung von eigenen Texten bzw. bei der Definition von Platzhaltertexten die Keywords entsprechend nicht vergessen.

Das eigentlich Interessante des Aufsatzes war der Versuch, diese Bilddateien durch ein OCR-Verfahren zu lesen und die Informationen zu extrahieren. Sollte man sich die Zeit nehmen wollen, so ist auch das OCR-Verfahren klar benannt worden (Aksara) und ein entsprechendes Dokument dazu online verfügbar.

 

Vielen Dank an Samuel Zeller für das Beitragsbild.

Marvin Jörs

Marvin Jörs ist Gründer und geschäftsführender Gesellschafter der Skyscraper Marketing UG.

Hinterlassen Sie einen Kommentar