Hohes Traffic-Aufkommen aus USA

shadow2411 · June 27, 2018, 8:35am

Hallo Leute,
seit einigen Tagen habe ich ein sehr hohes Traffic-Aufkommen aus den USA…alles per Safari-Browser (Linux). Meine Shop-Sprache ist deutsch…meine Domain ist .de…Werbung schalte ich per Facebook nur für den deutschsprachigen Raum…und die Zugriffe werden auch alle als Direktzugriffe angezeigt…kommen also nicht per Facebook-Werbung.

Hat jemand ne Ahnung was da läuft? Die aufgerufenen Seiten sind auch total unterschiedlich. Ist das evtl. eine falsche Zuordnung (Lokalisierung) der Zugriffe? Es wird auch immer nur eine Seite aufgerufen…jeweils von unterschiedlichen IP´s.

Kann mir keinen Reim drauß machen was da abläuft!?

Viele Grüße

Lukas · June 27, 2018, 8:49am

Hallo,

Falls alle Englischsprachigen Nutzer in der USA angezeigt werden, liegt das daran, dass GeoIP/GeoIp2 nicht eingerichtet ist. Schau daher mal die Einstellungen dazu an.

Ich glaube aber eher, dass das Bots sind. Ich habe auf meinen eigenen Seiten auch schon einige Safari-unter-Linux-Nutzer gesehen und vermute, dass das damit zusammenhängt, dass seit einigen Versionen Chrome und Firefox headless verwendet können. Damit kann man auf einem Server ohne grafischer Oberfläche ganz leicht einen Crawler schreiben kann, der Chrome/Firefox verwendet und somit auch das Matomo-JS wie ein normaler Besucher aufruft.

Leider sind meine Webseiten zu klein für statistisch signifikante Aussagen und ich habe erst sehr vereinzelt derartige Aufrufe gesehen.

Hast du Zugriff auf das Serverlog? Kannst du den User Agent der Aufrufe dort herausfinden und hier posten? Schau auch nach, ob du zu den IP-Adressen etwas findest. Vielleicht kommen sie alle von AWS oder einer anderen Serverfarm.

shadow2411 · June 27, 2018, 8:52am

gibt es denn da ein Tool, um dass zu prüfen…oder die IP´s einfach googeln? Was mir einfällt…bringt ja nichts, da ich ja seitens Piwik eingestellt habe, dass die IP´s anonymisiert werden!

fdellwing · June 27, 2018, 8:58am

Unter Linux einfach whois <IP> eingeben. Aber für mich klingt das auch sehr sehr doll nach Bots. Die einfache Gegenmaßnahme dafür hab ich da beschrieben:

shadow2411 · June 27, 2018, 9:21am

ich habe mal meine Hosting-Provider angeschrieben…wüsste nicht, wie ich dran kommen soll!

shadow2411 · June 27, 2018, 10:11am

Hier mal ein Auszug aus den Server Logs:
IP ist immer: 94.130.64.45

Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36" 995 34558

Bis Safari immer der die gleiche Adresse

fdellwing · June 27, 2018, 10:13am

Ist eine Adresse von einem Hetzner Subnetz, bitte hier melden: Abuse — Formular

Lukas · June 27, 2018, 10:14am

Hallo,

Wobei das in dem Fall nicht wirklich viel bringt. Wenn der User Agent sich als Bot identifiziert, erkennt Matomo das und wenn nicht, kann eine Fail2Ban Regel es auch nicht erkennen.

Lukas · June 27, 2018, 10:19am

Sicher, dass das der Aufruf ist, der in Matomo erkannt wird?

Denn der ist eindeutig Windows NT und nicht Linux und wird auch von Matomo so erkannt:
http://devicedetector.net/?ua=Mozilla%2F5.0+(Windows+NT+6.3%3B+WOW64)+AppleWebKit%2F537.36+(KHTML%2C+like+Gecko)+Chrome%2F45.0.2454.85+Safari%2F537.36"+995+34558

fdellwing · June 27, 2018, 10:19am

Können schon, aber dann mit einem anderen Jail

/etc/fail2ban/filter.d/http-get-dos.conf

# Fail2Ban configuration file                                                                                                                                                                                                                
#                                                                                                                                                                                                                                            
# Author: http://www.go2linux.org                                                                                                                                                                                                            
#                                                                                                                                                                                                                                            
[Definition]                                                                                                                                                                                                                                 
                                                                                                                                                                                                                                             
# Option: failregex                                                                                                                                                                                                                          
# Note: This regex will match any GET entry in your logs, so basically all valid and not valid entries are a match.                                                                                                                          
# You should set up in the jail.conf file, the maxretry and findtime carefully in order to avoid false positives.                                                                                                                            
                                                                                                                                                                                                                                             
failregex = (?i)^<HOST> - .*"(GET) (?!.*\.css|.*\.js|.*\.gif|.*\.jpg|.*\.jpeg|.*\.ico|.*\.png).*HTTP\/.*                                                                                                                                     
        ^<HOST> -.*"(POST).*                                                                                                                                                                                                                 
                                                                                                                                                                                                                                             
# Option: ignoreregex                                                                                                                                                                                                                        
# Notes.: regex to ignore. If this regex matches, the line is ignored.                                                                                                                                                                       
# Values: TEXT                                                                                                                                                                                                                               
#                                                                                                                                                                                                                                            
ignoreregex =

Jail

[http-get-dos]
enabled = true
port = http,https
filter = http-get-dos
logpath = /var/log/apache*/*access*log
# maxretry is how many GETs we can have in the findtime period before getting narky
maxretry = 300
# findtime is the time period in seconds in which we're counting "retries" (300 seconds = 5 mins)
findtime = 300
# bantime is how long we should drop incoming GET requests for a given IP for, in this case it's 5 minutes
bantime = 3600
banaction = iptables[name=HTTP, port=http, protocol=tcp]

fdellwing · June 27, 2018, 10:22am

Die IP ist auch ganz sicher nicht aus den USA, sondern wie oben schon geschrieben von Hetzner.

shadow2411 · June 27, 2018, 10:30am

Ähm…war von 06:22Uhr…da war tatsächlich in Matomo nix zu erkennen. Der ist von 06:48 Uhr und da gab es einen Klick…:

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/64.0.3282.119 Safari/537.36" 763 36701

und IP ist auch nachvollziehbar:
34.221.146.247

wobei die IP´s ständig wechseln.

shadow2411 · June 27, 2018, 10:33am

Die wäre von 07:33Uhr…IP:
18.237.67.197

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/64.0.3282.119 Safari/537.36" 786 36198

fdellwing · June 27, 2018, 10:56am

Beides sind IPs von Amazon (also zu 99% kein Traffic den man haben will).

shadow2411 · June 27, 2018, 10:58am

Aha…und zu welchem Zweck treiben die sich auf meiner Seite rum?

fdellwing · June 27, 2018, 11:09am

Och, da ist von Suchen nach Sicherheitslücken bis einfach nur Nerven vieles dabei.

shadow2411 · June 27, 2018, 11:10am

Jetzt fällt mir was ein…habe mich vor 1 Woche bei “Webinterpret - Plug & Play International Ecommerce” angemeldet. Ist eine Art Übersetzungsdienst für Shop + Ebay + Amazon…habe mich erst einmal per Ebay verbunden.

Wenn ich mich einlogge und die Webadresse scannen lasse per “https://ip-info.org/”:
https://app.webinterpret.com/

dann bekomme ich als Ergebnis beim Host:
ec2-46-51-197-49.eu-west-1.compute.amazonaws.com

Könnte das des Rätsels Lösung sein? Also das die irgendwie ständig meinen Shop scannen?

Lukas · June 27, 2018, 11:13am

Hallo,

Das ist schon gut möglich.

Ich glaube Matomo sollte explizite Headless Browser ignorieren, da deren Besuche fast immer automatisiert sind.

Ich habe auch vor kurzem viel zu lange gebraucht um zu merken, warum hunderte Seitenaufrufe von meiner IP kommen, bis mir eingefallen ist, dass ich mithilfe eines Headless Chrome eine statische Kopie meiner single-page-application mache und somit alle URLs aufrufe.

shadow2411 · August 10, 2018, 8:24am

wie kann ich denn nu diesen Traffic blockieren!? Wird fast täglich mehr…immer von Adresse:
http://ec2-54-202-208-200.us-west-2.compute.amazonaws.com/

Irgendwie nimmt das überhand.

Gibt es da eine Option seitens Matomo, wo ich einstellen kann…diese Adresse nicht mehr zu tracken!?

Viele Grüße
René