Методы измерения в Интернете
Идентификация посетителей
Один и тот же пользователь может просматривать достаточно большое число страниц, запрашивать на сервере множество разных файлов, поэтому первая задача статистики — определение принадлежности различных запросов одному пользователю, или, говоря строгим языком, идентификация уникального посетителя. Без идентификации все посещения и посетители сливаются в одну сплошную неразличимую массу, и мы уже не можем отделить поведение одного пользователя от других.
Существует четыре основных метода идентификации посетителей, которые используются в различных ситуациях для решения различных задач.
1. ПО IP-АДРЕСУ. Каждый компьютер в момент подключения к любой сети TCP/IP (к которым относится и Интернет) имеет уникальный и однозначный IP-адрес, который не изменяется в течение всего времени подключения к Интернету, а для постоянного подключения вообще не меняется. Следовательно, можно однозначно идентифицировать компьютер пользователя по IP-адресу.
Этот метод идентификации совсем не точен, поскольку несколько пользователей могут иметь один и тот же IP-адрес, если они находятся, например, за общим proxy-сервером. В этом случае они все будут иметь тот IP-адрес, который подставляет им proxy-сервер. Таких пользователей сегодня большинство — это все пользователи корпоративных сетей, большинство пользователей домашних сетей, пользователи в интернет-кафе, институтах и т.д. Но и это еще не все: в том случае, когда пользователь выходит в сеть через коммутируемое соединение, при каждом соединении он получает новый IP-адрес. Более того, dial-up-соединение может быть разорвано в процессе сессии, и оно будет восстановлено потом уже с новым уникальным IP-адресом. Все это, конечно, уменьшает точность идентификации.
Последние годы применяется идентификация одновременно по IP-адресу и какому-либо еще постоянному параметру, которым может выступать User Agent или разрешение экрана. То есть пользователь идентифицируется по сочетанию двух параметров. Однако и этот метод недостаточно точен, поскольку в корпоративных сетях последнее время техника в очень большой степени унифицирована, и если в домашних сетях действительно за общим IP-адресом скрывается «зоопарк» различных компьютеров, то в корпоративных сетях все компьютеры часто имеют одинаковую конфигурацию и одинаковый набор программного обеспечения. Расхождение числа реальных пользователей и числа пользователей, определенных по IP, тем больше, чем больше сайт. Хостов всегда меньше. Для посещаемости менее 500 человек разница несущественна.
Методика идентификации по IP-адресу весьма грубая, несмотря на все дополнения и уточнения. Эта методика никак не позволяет идентифицировать посетителя между сессиями— при повторном посещении — и не всегда дает возможность отличить друг от друга корпоративных пользователей или пользователей в одной домашней сети. Несомненное преимущество метода: он возможен всегда, поскольку у пользователя всегда есть IP-адрес.
2. ПО COOKIE. В отличие от IP-адреса, уникальные cookie записываются на каждый компьютер посетителей сайта, поэтому эта технология изначально намного точнее. В cookie-файлы может записываться все что угодно, но обычно это уникальный идентификатор, который сохраняется и после того, как пользователь уходит с сайта и вообще отключается от Интернета. При следующем посещении сайта даже через длительный промежуток времени пользователь может быть идентифицирован повторно, то есть «узнан» сайтом. Поэтому данная методика используется сегодня чаще других.