Článek
Člověk by řekl, fajn, 25 624 návštvěníků webu, unikátních 11 542. Jenže jiná metrika ukazuje jen 3 613 unikátů.
Jakto?
Vyfiltroval jsem, kde nematchují primární a sekundární logy, a náhodným výběrem prověřil pár adres v různých antispam databázích. Přes 90 % red flags. Celé řady IP adres s podvrženými UA stringy z farem, spam, brute force z Pakistánu, Singapuru, Lahore, USA…
A asi pár neúspěšných načtení webu.
Třetí nezávislá metrika z Google Search ukázala, že přes něj v prosinci přišlo 2 780 lidí. To je poměrně odpovídající údaj k té log analýze, protože teď není moc důvod na web chodit, krom „pár“ studentů, analytiků nebo novinářů. Zbytek vstupů bude přes sociální sítě, messengery, seznam hledání, přímá zadání a záložky. To by sedělo.
Takže výsledek není, že lidé představují jen už 14 % přístupů, ale ani ne 5 % přístupů. Samozřejmě plus-minus, některé farmy a scrapery se spouští ve vlnách, některé dny jsou intenzivnější než jiné.
Každopádně aktuální systém je takový, že odchytí a degraduje 85 % přístupů (prostě dostane jiný web, na kterém skoro nic není). Zbytku je sice přístup povolen, ale protože je web napsaný jako SPA se subloady a async komponentami, tak většina z těch služeb ho nakonec nedokáže zobrazit - a tedy nedokážou volat scripty a zatěžovat server.
Každopádně měsíční reporty budou od ledna lépe oddělovat lidské přístupy od těch robotických. Byť budou víc demotivační.





