Научный журнал
Международный журнал экспериментального образования
ISSN 2618–7159
ИФ РИНЦ = 0,425

ОБ ИЗМЕРЕНИЯХ ВЕБОМЕТРИЧЕСКИХ ИНДИКАТОРОВ

Печников А.А. 1
1 ФГБУН «Институт прикладных математических исследований Карельского научного центра Российской академии наук»
На примере вебометрического индикатора «размер сайта», измеряемого для множества веб-сайтов Российской академии наук, рассмотрен вопрос об ошибочных измерениях, полученных в результате использования поисковых систем. Предложим подход к «сглаживанию» ошибок поисковых систем, основанный на использовании результатов сканирования сайтов с помощью авторской программы BeeCrawler.
вебометрика
веб-сайт
вебометрическое ранжирование
индикаторы
1. Bar-Ilan J. Expectations versus reality – Search engine features needed for Web research at mid / J. Bar-Ilan // International Journal of Scientometrics, Informetrics and Bibliometrics. 2005. Vol. 9. URL:http://www.cybermetrics.info/articles/v9i1p2.pdf.
2. Bar-Ilan J. How much information do search engines disclose on the links to a web page? A longitudinal case study of the ‘cybermetrics’ home page / J. Bar-Ilan // Journal of Information Science. 2002. Vol. 28, No. 6. P. 455-466.
3. Snyder H. Can search engines be used as tools for web-link analysis? A critical view / H. Snyder, H. Rosenbaum // Journal of documentation. 1999. Vol. 55(4). P. 375-384.
4. Thelwall M. Web impact factors and search engine coverage / M. Thelwall // Journal of Documentation. 2000. Vol. 56(2). P. 185-189.
5. Вебометрический рейтинг научных учреждений России [Электронный ресурс]. Режим доступа: http://webometrics-net.ru (дата обращения 15.07.2013).
6. Рейтинг сайтов научных учреждений СО РАН [Электронный ресурс]. Режим доступа: http://www.ict.nsc.ru/ranking (дата обращения 16.07.2013).
7. Вебометрический индекс российских вузов и НИИ [Электронный ресурс]. Режим доступа: http://ru-webometrics.info (дата обращения 17.07.2013).
8. Ranking Web of World universities [Электронный ресурс]. Режим доступа: http:// www.webometrics.info (дата обращения 17.07.2013).
9. Чернобровкин Д.И., Печников А.А. Свидетельство о гос. регистрации программы для ЭВМ «Программа для поиска и сбора внешних гиперссылок BeeCrawler» Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ № 2012619665 от 26 октября 2012 г.
10. Pant G., Srinivasan P., Menczer F. Crawling the Web // In Web Dynamics / Springer. – 2004. Levene M. and Poulovassilis A., eds. P. 153-178.

Еще в 2005 году в работе [1] было отмечено, что исследования Веба зачастую основываются на данных, полученных, если можно так выразиться, с помощью самого Веба, и, в частности, с использованием возможностей наиболее распространенных поисковых систем. Однако, поисковые системы, являясь коммерческими проектами, ориентированы на некоего условного «среднего» пользователя (с возможностью адаптации к его запросам), а не на исследователя.

Критические публикации на тему использования поисковых машин в качестве средств измерений появились достаточно давно [2-4]. Например, в работе [2] показано, что для подобранных конкретных примеров Google (по неизвестным причинам) «скрывает» от 48 до 70% проиндексированных им же страниц, содержащих ссылки на заданный сайт. Даже в случае очевидной ошибки в результатах вывода по запросу к поисковой системе мы не получим ответа на вопрос о том, почему эта ошибка произошла. Это, однако, не останавливает исследователей, имеющих в качестве «измерительных устройств» только поисковые системы [6, 7].

В процессе работы по проекту «Вебометрический рейтинг научных учреждений России» [5] в процессе измерений значений вебометрических индикаторов авторам пришлось столкнуться с возникновением ситуаций, которые нельзя назвать иначе как ошибками поисковых систем. Наиболее явно такие ситуации проявились при измерениях с помощью Google индикатора, характеризующего размер сайтов, когда получаемое количество страниц выражалось сотнями тысяч для сайтов весьма скромных размеров (об этом достоверно можно судить из других источников).

Поисковые системы как «измерительные устройства» обладают низкой надежностью, измерения, проведенные в одинаковых условиях, не всегда дают согласующиеся результаты [1]. Это объяснимо, если измерения проводятся через большие интервалы времени (сказывается динамика Веба), но неприемлемо в тех случаях, когда причин для больших расхождений не видно. Измерения индикаторов в рамках проекта [5] проводятся в течение компактного временного интервала (в течение двух недель) и дальнейшая обработка полученных значений не подразумевает новых замеров при обнаружении предполагаемых ошибок, поскольку в этом случае нужно заново измерять все индикаторы.

Однако ни в первом проекте по ранжированию веб-сайтов [8], ни в других проектах [6, 7], вопросу об ошибочных измерениях вебометрических индикаторов должного внимания не уделяется. В данной статье мы предложим подход к «сглаживанию» ошибок поисковых систем при измерениях размеров сайтов.

Вебометрические индикаторы. Общеизвестны основные вебометрические индикаторы, используемые при решении задач ранжирования веб-ресурсов. Можно считать, что 4 индикатора, введенные ещё в 2004 году в проекте [8], не вызывают принципиальных возражений и в настоящее время:

  • размер сайта (S, size) – общее количество страниц,
  • видимость сайта (V, visibility) – количество гипертекстовых ссылок с других веб-ресурсов,
  • количество полнотекстовых файлов (R, «rich files», т.е. файлов с расширениями doc, pdf, ppt и т.д.),
  • научность сайта (Sc, «scholar») – количество ссылок на сайт, обнаруживаемых Google Scholar.

Для первых трёх индикаторов следует добавить фразу «обнаруживаемых с помощью Google/Яндекс/ ...». Отметим также, что разработчики проекта [8] недавно анонсировали использование в качестве индикаторов данных, предоставляемых коммерческими системами Ahrefs Pte Ltd (https://ahrefs.com) и Majestic SEO (http://www.majesticseo.com), чем еще больше усугубили ситуацию в плане прозрачности и отсутствия коммерческих влияний [1].

В проекте «Вебометрический рейтинг научных учреждений России» для сбора значений вебометрических индикаторов используются поисковые системы Яндекс и Google и специализированная программа сбора внешних гиперссылок BeeCrawler [9].

Измерения вебометрических индикаторов. В проекте [5] на сегодняшний день проведены измерения индикаторов примерно для 400 сайтов РАН (далее количество сайтов будем обозначать N).

Пусть pech1.wmf – размеры i-го сайта по Яндексу, Google и BeeCrawler, а pech2.wmf – видимость i-го сайта по Яндексу (она нам понадобится в разделе «Сглаживание ошибок»).

Приемы измерений поясним на примере сайта Российской академии наук (www.ras.ru). в Google на запрос вида «site:www.ras.ru» (текст набирается в поисковой строке, кавычки не нужны) будет выдан ответ «Результатов: примерно 513000». Это значение далее и будет принято в качестве pech3.wmf для сайта www.ras.ru (более точно – это значение pech4.wmf, поскольку сайт РАН имеет порядковый номер 1).

В Яндексе для получения количества страниц также можно использовать запрос вида «site:www.ras.ru». Ответ «Нашлось 85 тыс. ответов» округлен, хотя и его можно использовать в качестве приближенного значения pech5.wmf. Более удобным представляется использование специального сервиса Яндекс.XML, для чего необходимо зарегистрироваться в системе. Здесь запрос о количестве страниц на www.ras.ru выглядит следующим образом:

http://xmlsearch.yandex.ru/xmlsearch?text=site:www.ras.ru&user=USER&key=KEY,

где USER и KEY – логин и ключ пользователя. В одной из строк развернутого ответа на запрос будет строка <found−docs−human>нашёл 85145 ответов</ found−docs−human>, и 85145 будет являться значением индикатора pech6.wmf.

Удивляться существенному расхождению в результатах разных поисковых систем не следует: нам неизвестны правила отбора страниц на сайте, принятые в поисковых системах, и, по-видимому, в Google и Яндексе они различные. При последовательном просмотре результатов вывода Google вскоре выдаст информацию «Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше (683)», то есть проверяемыми являются только 683 результата из 513000 заявленных, а что собой представляют остальные результаты проверить не удастся. Яндекс также выдает не все, а только 1000 ответов по запросу «site:www.ras.ru».

В BeeCrawler реализован порядок обхода страниц «вначале вширь»: сканируется начальная страница нулевого уровня, находятся страницы первого уровня, сканируются страницы первого уровня и находятся страницы второго уровня и т.д. В процессе сканирования создается вспомогательная таблица количества страниц на каждом уровне, т.е. мы имеем

pech7.wmf,

где pech8.wmf – количество страниц на j-м уровне i-го сайта, а М – номер наибольшего сканируемого уровня, устанавливаемого при запуске программы (в последней версии сканирования M=7).

В табл. 1 приводятся значения индикаторов для нескольких веб-сайтов РАН.

Последние измерения, используемые в статье, проводились в июне-июле 2013 года. Полужирным шрифтом выделены значения pech9.wmf и pech10.wmf, которые представляются ошибочными. В частности, сайт Красноярского научного центра можно оценить визуально в любом браузере.

На рис. 1 приводятся значения размеров сайтов pech15.wmf. Для удобства восприятия в едином масштабе значения pech16.wmf умножены на коэффициент 6 и упорядочены по убыванию, поэтому соответствующий график выглядит как непрерывная убывающая кривая, хотя и скрытая за пиками на заднем плане.

Таблица 1

Фрагмент таблицы значений вебометрических индикаторов

i

Научное учреждение

Имя сайта

pech11.wmf

pech12.wmf

pech13.wmf

pech14.wmf

1

Российская академия наук

www.ras.ru

83013

606000

599904

20772

3

Отделение физических наук РАН

www.gpad.ac.ru

517

523

460

770

29

Пущинский научный центр РАН

www.psn.ru

5829

153

153

857

34

Красноярский научный центр СО РАН

www.krasn.ru

7291

93

1

500

44

Камчатский научный центр ДВО РАН

www.kscnet.ru

5757

177000

1525

6784

52

Библиотека по естественным наукам РАН

www.benran.ru

6471

177000

864

4154

pechnikov1.tiff

Значения pech17.wmf.

Графики по pech18.wmf и pech19.wmf в черно-белом изображении не слишком выразительны и в основном характеризуют пики значений, подозрительных на ошибки. При этом регистрируемые ошибки по pech20.wmf практически во всех случаях имеют содержательное объяснение: как правило, это так называемые «паучьи ловушки», когда разработчики сайтов (умышленно или неумышленно) создают условия для зацикливания поискового робота [10]. К ним относится организация меню сайта в виде дерева, динамические календари и т.д.

Обозначим pech21.wmf, pech22.wmf и pech23.wmf. Коэффициенты корреляции по Пирсону имеют следующие значения: pech24.wmf, pech25.wmf и pech26.wmf. Таким образом, можно говорить о высокой степени взаимосвязи между pech27.wmf и pech28.wmf, и низкой между остальными парами индикаторов.

Функция ранжирования. Функция ранжирования в проекте «Вебометрический рейтинг научных учреждений России» [5] находится в процессе исследования и разработки, но для лучшего понимания процедуры сглаживания ошибок здесь стоит коротко остановиться на основных подходах к ее построению.

Обозначим pech29.wmf ранг i-го сайта по индикатору S, измеренному поисковой системой Яндекс. Здесь ранг – это порядковый номер сайта в упорядоченном по убыванию векторе pech30.wmf, то есть сайт с максимальным значением pech31.wmf имеет ранг, равный 1. Для остальных индикаторов ранги определяются аналогично.

Для i-го сайта вычисляется интегральный показатель R(i) как функция от рангов сайта по каждому индикатору. Далее сайты упорядочиваются по возрастанию значений R(i), сайт с минимальным значением R(i) получает вебометрический ранг WR(i), равный 1, и т.д. В настоящее время R(i) определяется как сумма рангов i-го сайта.

При таком построении функции ранжирования WR в случае ошибочных значений вебометрических индикаторов нас интересуют, собственно говоря, не их реальные значения, а ранги по соответствующим индикаторам. Это замечание мы будем иметь в виду в следующем разделе.

Сглаживание ошибок. Сглаживанием ошибок поисковых систем будем называть процедуру вычисления правдоподобных значений индикаторов «размер сайта» вместо измеренных и представляющихся ошибочными значений с использованием данных о количестве страниц сайта, обнаруживаемых BeeCrawler.

Первым шагом такой процедуры является визуальное выявление подозрительных на ошибку значений pech32.wmf (с использованием графиков, аналогичных приведенному на рис. 1) и очистка таблицы значений вебометрических индикаторов от строк, соответствующих сайтам, у которых обнаружены такие значения.

Обработка таблицы вебометрических индикаторов, измеренных в июне-июле 2013 года, выявила около 40 таких сайтов. После очистки значения коэффициентов корреляции изменились, теперь pech33.wmf и pech34.wmf.

Предположим, что Яндекс формирует значения pech35.wmf исходя из следующих правил:

  1. на каждом уровне сайта индексируется часть страниц, и чем ниже уровень, тем меньше эта часть;
  2. чем больше внешних ссылок сделано на сайт, тем большее количество его страниц индексируется.

Эксперименты, проведенные с результатами работы BeeCrawler с учётом сделанных предположений, приводят нас к построению формулы следующего вида:

pech36.wmf, (1)

где 0<d<1 – коэффициент затухания, чем ниже уровень сайта, тем меньше страниц индексируется. Вычисления pech37.wmf для очищенной таблицы индикаторов показывают, что максимальное значение коэффициента корреляции, равное 0,826, достигается при d=0,075 и M=7 (здесь, как и ранее pech38.wmf).

Учитывая достаточно сильную статистическую зависимость между pech39.wmf и pech40.wmf, для сглаживания ошибок Яндекса предлагается использовать соответствующие значения pech41.wmf. Точнее, как было сказано ранее, нас интересуют не сами значения ошибочных pech42.wmf, а их pech43.wmf. Поэтому для ошибочного значения с индексом i по формуле (1) вычисляется pech44.wmf, далее определяется его ранг pech45.wmf для вектора pech46.wmf и полученное значение присваивается pech47.wmf как правильное.

Эксперименты показали, что для Google также можно построить формулу следующего вида:

pech48.wmf. (2)

Обратим внимание на то, что индикатор ссылочной популярности сайта V в (2) не используется. Вычисления pech49.wmf для очищенной таблицы индикаторов показывают, что максимальное значение коэффициента корреляции, равное 0,941, достигается при d=0,5 и M=7. Отсюда следует, что формулу (2) можно использовать для сглаживания ошибочных pech50.wmf по аналогии с формулой (1) для Яндекса (хотя и корреляция между pech51.wmf и pech52.wmf была уже достаточно большой).

Заключение

В статье предложен подход к сглаживанию ошибок поисковых систем, возникающих при измерениях вебометрического индикатора «размер сайта». Данный подход применяется в проекте «Вебометрический рейтинг научных учреждений России» и в большинстве случаев позволяет использовать точные процедуры исправления очевидных ошибок вместо слабо формализуемых мнений экспертов, в качестве которых пока выступают сами разработчики проекта.

Работа выполняется при поддержке гранта РГНФ № 12-03-12001.


Библиографическая ссылка

Печников А.А. ОБ ИЗМЕРЕНИЯХ ВЕБОМЕТРИЧЕСКИХ ИНДИКАТОРОВ // Международный журнал экспериментального образования. – 2013. – № 10-2. – С. 400-404;
URL: https://expeducation.ru/ru/article/view?id=4258 (дата обращения: 29.03.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674