Apache Logfile import importiert zu viele Bots

Ich habe für eine unserer Seiten das Tracking via Apache Log aktiviert. Zum testen gleich 2 mal via cron:


/srv/www/<website>/piwik/misc/log-analytics/import_logs.py --url=https://<website> /var/log/apache2/www.<website>.de_access.log --idsite=2 --recorders=4 --    enable-http-errors --enable-http-redirects --enable-static --enable-bots

/srv/www/<website>/piwik/misc/log-analytics/import_logs.py --url=https://<website> /var/log/apache2/www.<website>.de_access.log --idsite=3 --recorders=4 --    enable-static

In der Variante ohne Bots setzen angeblich 80% der Besucher Netscape in Version 5 ein.
In der Variante mit Bots werden einige Bots ganz klar nicht als solche erfasst. Beim Bericht der Custom Variables ist der Baiduspider/2.0, findlinks/2.6, Ezooms/1.0, Sosospider/2.0, DoCoMo/2.0 und Netcraft Web Server Survey als “non bot” erfasst.

Kann ich die Erkennung verbessern? Muss ich da tief in das import_logs einsteigen oder ist das woanders definiert, was als Bots zu werten ist?

edit in importr_logs.py gibt es eine einfache Liste, in die verbotene/ Bot Bowserstrings listet. Die habe ich gefüllt und damit 200+ Botzugriffe rausgerechnet bekommen.

Ich habe inzwischen auch die Geoip Datenbank eingebunden und bin jetzt erstaunt darüber, das auf meiner deutschsprachigen Seite nur 11% der Besucher aus Deutschland stammen sollen, aber 54% aus China. Ergo habe ich immernoch viel zu viele Bots/ Skriptkiddies/ Exploitpacks in der Zählung. Wie kann ich diese herausfiltern?