Erfahrungsbericht matomo Tracking Rauschen

melbao · June 1, 2022, 8:26am

Hallo, ich nehme in meinem Matomo Tracking seit einiger Zeit sowas wie ein Tracking-Rauschen wahr. Soll heißen, es wird getrackt, aber das scheinen keine natürlichen Personen zu sein. Jetzt ist zwar bekannt, dass nicht alle Bots gefiltert werden können, weil einiger diese sich wie natürlichen Person zu erkennen geben und verhalten, aber es gibt da auch sehr eigenartige Vorfälle.

Eigentlich könnte ich zig Themen öffnen, um jede einzelne Beobachtung zu diskutieren. Ich will hier nur eines zum Thema machen, aber die anderen nebenbei erwähnen.

Ich habe nagelneue Webpages mit nagelneuen Domains veröffentlicht und sofort matomo Tracking darin scharf gemacht. Dabei ist aufgefallen das ausschließlich “Direkte Zufgriffe” getrackt wurden, mit ein paar Ausnahmen, und zwar jeden Monat in etwa gleich viele, jedoch nicht bei jeder Domain gleich viele. Es sind demnach keine natürlichen Personen. Erstens sind die Domains nicht im Umlauf und zweitens auch nicht in Suchmaschinen gerankt. Ich habe mich schon gewundert, woher die Besucher kommen. Ich kann es mir nur so erklären, dass Suchmaschinen auf Gut Glück auf Schlagwort-Domains angesetzt sind, egal ob es diese gibt oder nicht.

Die IPs sind verschieden. Die meisten dieser “Besucher” sind: USA, Chrome, Win 10, Desktop. Die zweitmeisten: Baidu, MIUI, Android, Phablet.

Dieses Rauschen vermute ich auch auf meinen älteren Websites und insbesondere verstärkt auf einer ganz besonderen. Diese besteht aus 10.000ten Webpages. Ich vermute hier, dass das Rauschen auf jede einzelne Webpage zutrifft, allerdings nicht pro Webpage so stark wie bei den oben erwähnten neuen Domains (Onepager). Jedoch in der Masse wirkt das Rauschen dadurch stärker.

Meine Frage: Hat hier jemand ähnliche Erfahrungen und Beobachtungen? Eine Lösung wird nicht gesucht, weil dagegen wohl nichts getan werden kann. Es geht nur um eine Bestätigung.

DanielHug · June 1, 2022, 8:34am

Hi @melbao,
Hast du mal geschaut, ob deine “nagelneuen Domains” irgendwelche Vorgeschichte haben? Mal in Majestic oder so geschaut, ob es Backlinks auf die Domain gibt?
Daniel

melbao · June 1, 2022, 9:00am

Hallo Daniel, die Domains sind wirklich frisch. Ich habe es in web.archive.org gechekt. Das Rauschen beträgt bis zu 50 Besucher im Monat, wobei ich bei wenn zwei TDLs mit gleichem Domainnamen die gleiche Tracking-ID verwende (plus cannonical). Das Tracking ist nicht defekt. Mittlerweile sind auch ein paar scheinbar echte Viewer darunter und die Domains sind auf einer meiner anderen Websites verlinkt. Von da können Bots auf sie gelangen. Aber die Rauschen-Viewer scheinen gleich zu bleiben. Bei der 10.000+ Website kann ich das leider nicht genauer analysieren, weil nur 500 “Seitentitel” angezeigt werden, und das sind dem Anschein nach echte Viewer. In der letzten Zeile “Andere” steht dann “~25.000” Seitenansichten und “~10.000” eindeutige Seitenansichten mit Ø Zeit 10 Sekunden. Die Zeit ist da auch ein Indikator für Bots. Es gibt einen weiteren Hinweis: Ich habe tote Webpages, die nicht mehr existieren (404), und diese werden jeden Monat mindestens einmal mit “Dirketer Zugriff” aufgerufen. Diese Webpages habe ich schon vor vielen Jahren auf eine neue Domain verlegt und neu verlinkt. Selbiges beobachte ich auch mit anderen uralten Webpages.

Bei Majestic stehen nur meine Backlinks.

DanielHug · June 1, 2022, 9:39am

@melbao
Hm, sobald eine Domain registriert ist, muss das ja irgendwo eingetragen sein… vielleicht greifen Bots das von diesen Einträgen ab? Aber was für einen Nutzen hätte das?

Majestic: Auch für den “Historic” Index?

melbao · June 1, 2022, 10:09am

@DanielHug , bei Verweisende Domains steht bei Aktuellen = 3 und bei Historischen = 3. Historische hat eine Paywall. Der Begriff ist ziemlich neu. Ich denke nicht, dass der schon einmal in Gebrauch war. Aber ganz ausschließen kann ich es nicht.

Die Sache mit Domains ist eh ein furchtbares Thema, bezüglich Domaingrabbing, Domainparking und Domainauktionen. zB die Denic ist eine Genossenschaft mit sehr vielen Mitgliedern. Diese haben Zugriff auf die Daten der denic, und sie betreiben Drittfirmen, die diese Daten kommerziell verwerten. In meinem Fall sind es aber keine .de Domains. Jedoch wird das bei anderen nicht viel anders sein.

hbbear · June 2, 2022, 12:01pm

Hallo melbao,
ja, das Rauschen gibts. Und nach einiger Beobachtung, welche Bedingungen es erfüllt, fange ich die Bots nun über folgendes Segment ein:

Aktionen beim Besuch maximal 1
und
Dauer des Besuchs (in Sekunden) entspricht 1
und
URL der Ausstiegsseite entspricht diejeweiligedomain.de

Das ergibt schon mal eine recht exakte Größenordnung fürs Rauschen.

Und nun könnte man diese Bedingungen natürlich negieren um damit Bot-freie oder wenigstens Bot-reduziertere Segmente für die Echt-Besuche zu erstellen.

hbbear

Thomas_Zeithaml · June 11, 2022, 12:43am

Trackst du mit dem Img im Noscript Bereich ?

melbao · June 29, 2022, 5:59pm

Ich tracke nur mit JavaScript.

Im aktuellen Monat sind es ungefähr die Hälfte weniger. Was häufig und auffällig ist:

Direkte Zugriffe + USA + Desktop + 800x600 Bildschirmauflösung.

Das ist eher unwahrscheinlich bei realen Viewern.
Alle weiteren Angaben wechseln jeweils.

Seit heute ist bei diesen Viewern die Zeit mehr als 0 oder 1 Sekunde, sondern 3 oder 4 Sekunden.

Zudem ist ab und an Baidu dabei mit Direkte Zugriffe. Da passt zB in einem Fall die Bildschirmauflösung nicht zum angezeigten Gerät.

Xiaomi Mi Note 2 + 800x600 Bildschirmauflösung.

melbao · July 8, 2022, 9:15pm

Irgendwie verliere ich die Lust an Matomo.

Jetzt habe ich die Sache zuerst im englischsprachigen Forumsteil gestellt. Weil da auch nichts konstruktives kam danach bei Github. Bei beiden wurde ein Plugin vorgeschlagen. Zumal zu beachten ist, dass ich keine Plugins nutze. Das Plugin ist zudem schwer fragwürdig. Es listet unter seinen Eigenschaften zwei Funtkionen auf, die eh schon in Matomo enthalten sind. Diese beiden wären einzig ein Zusatz, die anderen nicht. Also da die eh schon in Matomo default integriert sind, wozu soll dann das Plugin gut sein?

Die (sehr vermutlichen) Bots kommen weder von einer Cloud und sind auch nicht headless. Die Anzahl der Actions passt bei Onepager-Websites auch nicht, da dort immer nur 1 Action ist. Countries ausschließen passt ebenso nicht, da die Websites international sind. Also taugt das Plugin nicht um gegen diese Bots vorzugehen. Leider wurde das Problem von den Leuten die Einfluss auf Matomo haben nicht erkannt. Mehr als das was ich getan haben - es mitzuteilen - kann ich nicht machen. Matomo ist damit qualitativ minderwertig. Resourcenverschwendung durch Bots-Tracking-Aufzeichnung. Kann man sich sparen…

Wenn hier echt nichts konstruktives mehr kommt, sieht es wohl sehr übel für Matomo aus und ich werde jedem davon abraten es zu nutzen.

Thomas_Zeithaml · July 9, 2022, 8:44am

Du könntest Content Tracking oder Scroll Depth bei 250 px feuern.
Über Segmente könntest du diese dann aufteilen und ausschließen - zumindest bei den Auswertungen.
Ich würde ein zweites Segment machen um nach Mustern zu suchen.
Über JS kommst du auch an den Headerauch schauen, ob man die Botsc

Das Problem wirst du aber vermutlich auch bei anderen Tools haben.
Eventuell solltest du dir für deine Seite Maßnahmen überlegen. Antibot, Spider Traps, Honeypots

melbao · July 10, 2022, 5:18pm

Ich will da erst gar nicht anfangen herumzumanipulieren. Das ist endlos. Ich habe angefangen drüber nachzudenken und habe wieder aufgehört damit. Default oder gar nicht. Scroll Depth nützt auch nichts bei einigen meiner Pages. Ich weiß jetzt auf jeden Fall, dass da jede Menge Bots dabei sind.

Thomas_Zeithaml · July 10, 2022, 6:18pm

Du könntest mal eine Logfile Analyse machen.
Entweder mit ner eigenen Matomo Instanz oder dem screaming Frog.
Dann hast du nen Prozentsatz.
Sind das Expired Domains gewesen ?

melbao · July 11, 2022, 12:02pm

Was soll Screaming Frog bringen? Das ist doch selbst ein Bot (Spider). Eine neue Instanz von matomo fange ich erst gar nicht an. Wenn mir einer sagt, wie ich die Daten dieser Bots aus matomo extrahieren kann, dann kann ich sie gerne hier veröffentlichen.

Also mir geht es weniger um eine Lösung nur für mich, sondern um eine Lösung für default. Diese Bots werden ganz sicher nicht nur meine Websites besuchen, also die sind ganz sicher nicht nur auf mich angesetzt.

Keine Expired Domains. Nagelneue Domains. Mit Wörtern, die teils relativ neu sind, aber nicht gänzlich unbekannt, und tatsächlich neuen Wörtern, die es vorher noch nicht gab.

Thomas_Zeithaml · July 11, 2022, 3:41pm

Den Frog gibt es nicht nur als Crawler, sondern auch zur Analyse der Logfiles in denen alle Zugriffe protokolliert werden.

Ich hab schon genügend Seiten gesehen, die keinen Traffic haben. Sorry, aber ich vermute da eher einen Einzelfall bei dir. Deswegen ja mein Vorschlag mit der Logfileanalyse

melbao · July 14, 2022, 11:27am

Ich sehe das nicht als Einzelfall. Das würde sehr gezielte Überwachung bedeuten. Also dass ich von irgendwem ins Visier genommen worden bin. Bei aller Paranoia und auch möglichen Umständen schließe ich das allerdings aus.

Ich habe jetzt mal sporadisch eine (gekürzte IP) nachgesehen. Sie führt zur Firma “DataCamp Limited”. Über diese wurde bereits viel geschrieben. Traffic von dieser Firma wird als “high fraud risk ISP” (betrügerisch) eingestuft.

Auf den betreffenden Websites nutze ich keinerlei CDN, sowie keinerlei Third Party.

Die Frage ist nun, wieso matomo solche IPs nicht auf der Blacklist hat?

Thomas_Zeithaml · July 14, 2022, 2:40pm

Welche IP ist das denn ?

melbao · July 15, 2022, 10:14am

156.146.49.0
der gesamte Range von 0-255
https://scamalytics.com/ip/156.146.49.0
die verwenden sehr viele IPs:

melbao · July 30, 2022, 7:50pm

Hier jetzt mal Listen von IPs von 4 betroffenen Domains. Eine Domain mit .org/.com hat die selbe Matomo-ID.

Monat Juli/2022

Website 1.0 .de (deutsch)

180.163.220.0 -  - Baidu
205.169.39.0 - Vereinigte Staaten - Direkte Zugriffe
205.169.39.0 - Vereinigte Staaten - Direkte Zugriffe
171.13.14.0 - Vereinigte Staaten - Direkte Zugriffe
2003:e8:d718:2700:: - Deutschland - Google
27.115.124.0 -  - Baidu
180.163.220.0 -  - Baidu
27.115.124.0 -  - Baidu
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe
44.206.247.0 - Vereinigte Staaten - Direkte Zugriffe
111.7.100.0 - China - Direkte Zugriffe
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe
205.169.39.0 - Vereinigte Staaten - Direkte Zugriffe
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe

Website 2.0 .org/.com (englisch)

180.163.220.0 -  - Baidu
42.236.10.0 -  - Baidu
66.115.147.0 - Vereinigte Staaten - Direkte Zugriffe
207.102.138.0 - Vereinigte Staaten - Direkte Zugriffe
207.102.138.0 - Vereinigte Staaten - Direkte Zugriffe
156.146.49.0 - Vereinigte Staaten - Direkte Zugriffe
62.152.55.0 - Vereinigte Staaten - Direkte Zugriffe
69.160.160.0 - Vereinigte Staaten - Direkte Zugriffe
104.200.132.0 - Vereinigte Staaten - Direkte Zugriffe
156.146.49.0 - Vereinigte Staaten - Direkte Zugriffe
2a03:2880:20ff:3:: - Vereinigte Staaten - Direkte Zugriffe
156.146.49.0 - Vereinigte Staaten - Direkte Zugriffe
156.146.49.0 - Vereinigte Staaten - Direkte Zugriffe
104.192.108.0 -  - Direkte Zugriffe
171.13.14.0 - Vereinigte Staaten - Direkte Zugriffe
171.13.14.0 - Vereinigte Staaten - Direkte Zugriffe
171.13.14.0 - Vereinigte Staaten - Direkte Zugriffe
104.200.132.0 - Vereinigte Staaten - Direkte Zugriffe
111.7.100.0 -  - Direkte Zugriffe
111.7.96.0 -  - Direkte Zugriffe
111.7.96.0 -  - Direkte Zugriffe
36.99.136.0 -  - Direkte Zugriffe
111.7.96.0 -  - Direkte Zugriffe
211.95.50.0 -  - Direkte Zugriffe
111.7.100.0 -  - Direkte Zugriffe
211.95.50.0 -  - Direkte Zugriffe
180.163.220.0 -  - Baidu
42.236.10.0 -  - Baidu
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe
205.169.39.0 - Vereinigte Staaten - Direkte Zugriffe
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe
101.227.1.0 -  - Direkte Zugriffe
102.129.145.0 - Vereinigte Staaten - Direkte Zugriffe
211.95.50.0 -  - Direkte Zugriffe
111.7.100.0 -  - Direkte Zugriffe
101.227.1.0 -  - Direkte Zugriffe
102.129.145.0 - Vereinigte Staaten - Direkte Zugriffe
211.95.50.0 -  - Direkte Zugriffe

Hier wird manchmal wenige Sekunden später das .org/.com Pendant aufgerufen.

Website 2.1 .de (deutsch)

42.236.10.0 -  - Baidu
92.200.115.0 - Deutschland - Direkte Zugriffe
92.200.115.0 - Deutschland - Direkte Zugriffe
171.13.14.0 - Vereinigte Staaten - Direkte Zugriffe
3.131.97.0 -  - Direkte Zugriffe
42.236.10.0 -  - Baidu
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe
65.154.226.0 - Vereinigte Staaten - Direkte Zugriffe

Da sind einige IPs mehrfach dabei, auch Domain-übergreifend. Bis auf einige Ausnahmen ist das meiner Ansicht nach alles Tracking-Rauschen von Bots. Das selbst zu filtern ist so ziemlich unmöglich. Wenn Matomo seine Bot-Filter nicht erweitert, wird es dieses Rauschen weiterhin geben. Es müllt die Datenbank zu und verfälscht die Auswertung vom Tracking.

melbao · August 3, 2022, 6:08am

Nächster Fall: Wieder nagelneue Domain. Wenige Minuten nach Onlinestellen der nagelneuen Website erstes Tracking. Onepager.

Sofort nach Onlinestellen:
IP: 65.154.226.0 = Palo Alto Networks - 2 Aktionen - 1 Minuten 10s

2,5 Stunden später:
IP: 34.254.53.0 = Amazon[.com] (34.248.0.0 - 34.255.255.255) - 1 Aktion - 2 Sek.

Mehrere Stunden später:
IP: 2a03:2880:11ff:e:: = Facebook[.com] Search Engine Spider - 1 Aktion - 26 Sek. [von Matomo als “von Facebook” erkannt.]
IP: 65.154.226.0 = Palo Alto Networks - 1 Aktion

Das .de Pendant zu dieser Website ist schon länger online. Auch da nur Bot-Rauschen im Tracking. Beispiel:
IP: 69.160.160.0 = Intelium Corp. (crawler-50 nicecrawler com).

Damit dürfte die Sache klar sein, dass Matomo auch Bots trackt. Wieso diese IPs nicht auf der Blacklist stehen, das ist hier die Frage.

melbao · August 5, 2022, 12:00pm

Gestern habe ich das gelesen:

Lilith Wittmann: Beispielsweise Amazon Webservices (AWS) bietet die perfekte Lösung. Da kannst du eine Lambda-Funktion schreiben, die jedes Mal, wenn sie aufgerufen wird, eine neue IP-Adresse bekommt. Das bedeutet, dass mit jedem neuem Aufruf dieser Funktion ein neuer kleiner Server startet. Dieser macht dann 60 Requests, wird heruntergefahren, verliert seine IP Adresse und der nächste Server wird gestartet. Das ist so ein bisschen teuer, aber ja, das kann man machen. Außerdem gibt es den Vorteil, dass AWS weltweit Rechenzentren hat. Sprich: Entweder du blockst als Handelsregister den kompletten IP-Space von Amazon, was nicht so klug wäre, oder du hast sehr viel Arbeit beim Aussperren.

https://www.golem.de/news/scraping-des-handelsregisters-wir-machen-das-ja-nur-aus-notwehr-2208-167344-2.html

Wenn Bots per AWS Lambda-Funktion im Internet kursieren, dann bleibt einem wohl nichts anderes übrig als den kompletten IP-Space von Amazon und vielen weiteren zu blockieren. Bzw. alle, weil es gibt mehrere. Da wäre die Frage, wie viele echte Viewer kommen aus dem IP-Space von Amazon?