Bots und Tracking Infos

Das erklärt dann wohl alles. Du definierst für dich und allgemein mittels deiner Methode was ein Bot und was ein Human Visit ist und gibts dir selbst eine Toleranz von 0,01 %.
Kein Kommentar …

Die von dir angekündigte “nächste Runde” sind also die Versionsnummern im Bezug zu den Browser-Namen. Das ist meiner Ansicht nach zu strikt und ergibt eine Fehlerquote weit höher als 0,01 %. Den Hinweis zum Mitmachen (Plugin Device Detector + Bot-Filter) wurde von dir abgelehnt. Da könntest du noch was lernen, aber willste nicht.

Dein Check der Versionsnummern … enthält ein Muster per zwei verschiedener Zeichen. Eine Prüfung auf diese beiden Zeichen wäre ein adäquater Bot-Filter.

Das Muster bei den Headers Accept und Accept-Language fehlt bei dir.

array_key_exists() würde es passender tun als isset().

Die Sec-Fetch-* Header Keys sind standardisiert*. strtolower() erhöht die Toleranz.
*Standardisiert zwar (noch) nicht von der IANA, aber von W3C.

Die Idee mit den Mustern in den Browser-Headern ist schon sehr hilfreich, aber deine Äußerungen zur Genauigkeit dann doch etwas überheblich. Mit JS wird sowieso nicht alles getrackt und eine Fehlerquote bei der Bot-Erkennung von 10 % (in beide Richtungen) akzeptabel, bzw. realistisch, sowie genügend.

Du darfst meine Lösung gerne kritisieren und natürlich auch Vorschläge zur Verbesserung einbringen, aber solange du keine konkrete Daten lieferst, theoretisierst und spekulierst Du nur. Ich für meinen Teil habe den Proof-of-Concept schon vor Jahren erbracht und überprüfe den Status fast täglich.

Wenn Du Dir das verinnerlichst und bereit dafür bist es zumindest zu testen, dann können wir diese Diskussion gerne fortsetzen. Du musst die Lösung ja nicht gleich praktisch einsetzen, sondern es zunächst auf ein entsprechendes Logging begrenzen.

einige Monate später …

wie es den Anschein hat, lernen die Bots stetig dazu. Bei meiner Website mit mehreren 10.000 Webpages ist die Besucherzahl seit Januar um das Doppelte gestiegen. Was mir bei meinem Test mit eigenem PHP-Tracking aufgefallen war, dass auch Bots mit IPs von Telekom und Co. betrieben werden. Das war daran zu erkennen, weil ein und die selbe IP verschiedene Websites nacheinander aufgerufen hatte, die in keinem Zusammenhang stehen.

Was weiterhin gegen die stetige Bot-Flut getan werden kann? Keine Ahnung.

Es wird immer schlimmer mit den Bots. Auf einigen meiner unbedeutenden Websites zwar keine echten Besucher, aber 28 GB an Traffic im Monat! Eine Verdoppelung gegenüber März.

Habe Gestern meine Consent Banner Hürde wieder um eins erhöht und sofort sind es weniger getrackte Visits. Es ist unwahrscheinlich, dass Human Visitors den ersten Button klicken, aber den zweiten nicht. Bots scheinen zwar einen (1) Button bewältigen zu können, aber weitere nicht.

Die ganz große Frage ist, wieso Bots unbedingt wollen, dass ihre Visits getrackt werden? Sie könnten auch simpel ein DNT senden, oder so tun als würden sie einen Adblocker benutzen.

Nicht nur anhand dieser Beobachtungen ist zu erkennen, dass das Internet vollkommen kaputt-gewirtschaftet wurde und obendrauf kaputt-reguliert wird.

Neben den Bots gibt es auf einigen meiner Website eine große Anzahl an Visitors, die ein Verhalten ähnlich Bots aufweisen. Sie klicken vollkommen ferngesteuert durchs Internet, Hauptsache sie haben alles mal angeklickt, vollkommen interessenlos und vermutlich gelangweilt. Einzuschätzen wären diese wohl in einer Altersspanne von um 10 Jahre alt, aber anscheinend auch bis 30 Jahre alt.

Weitere Infos zum Thema. Es ist wirklich heavy. Im Zeitraum März/April/Mai gab es extrem viele Bots. Der Traffic war 2,5 mal so hoch wie vorher und wie jetzt danach. Zudem ist es weiterhin so, dass die Schwere der Hürde im Consent Banner etwas ausmacht. Umso schwerer, umso weniger getrackte Visits. Nicht festzustellen ist dabei, ob das auch human Visits betrifft.

Anderweitig wurden mir Statistiken von TikTok bekannt. Dort ist das Verhalten von Internetusern gut zu beobachten mittels der Absprungrate. Die meisten mögen kurze Videos (3-10 Sekunden). Die Verweildauer nutzt TikTok um ähnliche Videos, eben mit der selben Spiellänge wie Verweildauer vorzuschlagen. Das Verhalten de User wird manifestiert. Es gibt aber wohl eine Einstellung, die das gespeicherte Verhalten löscht. Insgesamt sei jedoch ersichtlich, dass die meisten eine Verweildauer von 3-10 Sekunden haben. Exakt das stimmt mit den Statistiken auf meinen Websites überein. Es wird einfach nur geklickt, geklickt, geklickt mit Null Interesse.

Diese Klicker interessieren in der Statistik nicht. Was benötigt wird ist eine Verzögerung des Trackens, jedoch nicht dem Start des Trackings. Also das Matomo Tracking zwar startet, aber wartet mit dem Senden der Daten. Damit könnten diese Klicker gefiltert werden, während alle anderen weiter getrackt werden. Nur diejenigen werden getrackt, die mindestens x Sekunden Verweildauer haben.