|
Введение
В интернете и, в частности, в РуНете присутствует множество рейтингов писателей
и книг. Большинство из них составляются по двум методикам:
- учитываются оценки проголосовавших читателей;
- считаются логи скачиваний произведений либо переходов по страницам.
И та и другая методики очень важны и интересны, но прежде всего для администраторов
и владельцев библиотек. Абсолютной ценности они, на наш взгляд, представляют мало
в силу ряда причин. Не будем вдаваться в детали и заниматься критиканством,
сформулируем лишь правильное технологичное название таких рейтингов, из чего
специалистам станет понятны основные их достоинства и недостатки.
Мы бы назвали такие рейтинги - Рейтинги книг такого-то сайта при существующем
наполнении, существующем интерфейсе, сегодняшних точках входа, посещаемости и рефералах.
Надеемся для
специалистов понятно, а другим, вобщем то и читать данную страницу
- время терять.
Именно поэтому мы решили взяться за неблагодарное дело - составление абсолютного
рейтинга (впрочем, относительно русскоязычной аудитории),
который бы реально отражал текущий интерес потребителей библиотечного
интернета к тем или иным писателям и произведениям.
Посыл
В качестве основной идеологии взяты принцыпы поисковых машин:
- чем чаще что-то ищут в поисковых машинах, тем это интересней (в данном случае
читателям);
- чем чаще что-то цитируют, тем это интересней (в данном случае издателям).
В качестве источника информации взяты сами поисковые машины, как
наиболее репрезентативный и беспристрастный источник с достаточной для
статистического анализа выборкой.
Технология (Алгоритм)
1. Выбираем поисковую машину.
2. Строим базу запросов по авторам (произведениям) за искомый период.
3. Очищаем запросы от мусора и шума ("Блок"-"Александр Блок"-"Блок уРодина"-"блок-схема").
4. Группируем по авторам (произведениям) суммируя результат и сортируя по убыванию.
5. Получаем "Рейтинг Интернет Читателей".
6. Строим базу найденых поисковой машиной страниц по авторам (произведениям) за искомый период.
7. Очищаем запросы от мусора и шума.
8. Группируем по авторам (произведедниям) суммируя результат и сортируя по убыванию.
9. Получаем "Рейтинг Интернет Издателей".
10. Конец. ;-)
Проблемы
Проблемы две:
- Проблема Источника. Принципиальным вопросом для качества
рейтинга является выбор поисковой
машины. К ней предъявляются ряд понятных из методологии требований. Абсолютно
полностью устраивавшей машины не существует. Но на безрыбье приходится
довольствоваться существующим выбором. В настоящее время рейтинг издателей
считается по Google, а рейтинг читателей по Yandex, хотя последняя машина,
это действительно что-то ужасное потерявшее стержень(;
- Проблема очистки. В настоящее время пункты 3 и 7 алгоритма реализуются
вручную (первый визуально, второй методом аналогий), из-за большого объема
работы и не высокого качества очистки мы не считаем рейтинг произведений
(хотя, по секрету, и только для Вас) на момент написания
настоящей статьи (Январь 2004 года) первое место занимает Гарри Поттер,
в десять раз опережая по запрашиваемости своего создателя).
Критикам
...всегда рады!
Хотя особенно ждем мнения специалистов - идеологов существующих (-вавших)
библиотек и специалистов по алгоритмам, способных решить поставленные проблемы.
Все эпистолярные работы направляйте, пожалуйста, на
info@itlibitum.ru
будем весьма благодарны. Постараемся выловить из потока вируса и спама,
прочесть,
и, если будет на что, ответить и учесть замечания.
Благодарим, что дочитали! :-)
|