Поиск в Internet: новые методики.Сергей Митилино, edit@itc.kiev.ua | |
Количество
информации, размещенной в Internet, растет с
каждым днем, однако уровень ее
структуризации низок, а частота
обновления весьма высока. Уже в 1998 г.,
согласно исследованию Ли Джилса (Lee Giles) и
Стива Лоуренса (Steve Lawrence) из NEC Research,
Всемирная Паутина насчитывала более 320 миллионов страниц, в то время как
индексные базы наиболее мощных
поисковых узлов содержат сведения
только о приблизительно 140 миллионах
документов. Проблема наполнения,
стоявшая вчера, трансформировалась в
проблему поиска открытых и бесплатных,
но погребенных в недрах колоссальной,
запутанной гипертекстовой среды
источников. Традиционные поисковые
механизмы не справляются с задачей
индексирования и даже не в состоянии
представить имеющиеся данные в
упорядоченном виде. В прошлом году
появилось несколько новых поисковых
средств, использующих различные
методики для повышения релевантности
выдаваемых результатов. К сожалению,
возникают опасения относительно их
жизнеспособности, ведь они находятся в
прямом противоречии с потребностями
традиционных провайдеров баннерной
рекламы. Впрочем, каждый из описанных в
данной статье сайтов пытается | |
DirectHit. | |
Вспомните, как часто вам приходилось
задавать вопросы «Где это находится?»
или «Как пройти туда-то?» друзьям,
коллегам по работе и просто первому
встречному на незнакомой улице.
Формулировать их нас заставляет желание
использовать опыт и знания других людей,
и это естественно. Поиск информации в
Internet напоминает движение по
неосвещенной дорожке толпы людей,
которые по очереди упорно наступают на
один и тот же садовый инструмент. Увы,
идущий впереди никак не может
предупредить следующего за ним. Мы
прилежно изучаем стандартный набор
бесполезных ссылок, полученных на
типичный запрос, и после сотни-другой
издаем восторженное: «Эврика!». Вы
довольны, хотя повода нет. DirectHit частично
решает эту проблему, предоставляя своим
посетителям возможность
воспользоваться бесценным опытом
предшественников. Служба анализирует
поведение миллионов людей, ежедневно
обращающихся к различным поисковым
узлам, и для каждого запроса фиксирует
наиболее часто используемые ссылки.
Учитывается также количество времени,
проведенное человеком за изучением
содержимого Кроме этого, DirectHit разработала еще одно интересное нововведение: Personalized Search. Этот вариант сервиса учитывает различия в ментальности разных социальных групп. Пользователь, подписавшись на услуги Personalized Search, сначала заполняет анкету, в которой указывает свой пол, место проживания, род занятий и прочие сведения. Теперь система сможет предложить ему ссылки, заинтересовавшие других людей с похожими анкетными данными. Например, для европейца слово «motorsport» ассоциируется с чемпионатом Formula-1, а для жителя США с серией CART и соревнованиями NASCAR.
Индексная база службы пополняется с
помощью робота под названием Grabber. При
обновлении применяется избирательная
стратегия, согласно которой сайты,
получившие наибольшее количество
переходов с результатов поиска,
просматриваются чаще (раз в неделю), чем
все остальные ресурсы (полное
обновление раз в месяц).
Производительность аппаратного
кластера, поддерживающего
функционирование робота, позволяет
индексировать до 10 миллионов сайтов в
день. | |
Google. | |
Начало этой поисковой службе с
непонятным названием положили студенты
Стэндфордского университета: бывший
москвич Сергей Брин (Sergey Brin) и Ларри Пэйдж (Larry Page). Слово «Google» является
производным от «термина» googol,
придуманного племянником известного
американского математика Эдварда Каснера (Edward Kasner), и означает число,
записываемое как единица со ста нулями.
Академичность происхождения определила
академичность подхода. Компаньоны взяли
на вооружение общеизвестную систему «оценки
ценности» статей, принятую в мировом
научном сообществе. Рейтинг статьи есть
производная от количества сделанных
цитат и ссылок на нее в других научных
публикациях. Google высчитывает
релевантность документа, попавшего в
результаты поиска, в соответствии с
количеством ссылающихся на него других
Цитируемость документа выводится Google с использованием системы PageRank. Значение PageRank любого документа учитывает количество ссылок на него во всех прочих проиндексированных источниках и вычисляется по формуле: PR(A) = (1-d) + d (PR(T1)/C(T1) + + PR(Tn)/C(Tn)), где A оцениваемый документ, PR(X) рейтинг документа X, C(X) общее количество ссылок со страницы X, T1-Tn документы, ссылающиеся на A, а d некий фактор случайности, описывающий поведение посетителей. Итак, PR(A) представляет собой вероятность попадания хаотически путешествующего по Web серфера на страницу A. Величина d, которую изобретатели установили равной 0,85, характеризует вероятность того, что, находясь на странице, участвующей в оценочной формуле, серфер вдруг заскучает и решит взбодриться, перескочив на произвольную страницу в Internet, путем набора URL прямо в соответствующем поле броузера. Как видно из формулы, «рекомендация» от страницы, имеющей высокую «репутацию», обладает большим весом, что позволяет правильно оценивать значимость непопулярных, но качественных сайтов. В эту схему хорошо укладываются запросы, состоящие из одного слова, а в случае нескольких заданных терминов приходится учитывать и другие факторы. Например, оценка близости искомых слов в документе выбирается из десяти дискретных значений, начиная от совпадения фразы и заканчивая «очень далеко». Порядок слов в запросе не играет роли для Google. Система также активно использует индексирование по ссылкам.
Сбором данных в системе занимаются
несколько независимых роботов,
получающих задание от
Для пользователя титульная страница Google
весьма похожа на варианты
Компания Google не ограничилась только
поисковым сервисом и занимается
созданием собственного
Бизнес службы зиждется на двух китах:
услугах WebSearch и тематической рекламе.
Подписавшись на WebSearch, владелец сайта
получает в свое распоряжение аппаратные
и программные ресурсы компании, что
позволяет ему избавиться от
дополнительных расходов и беспокойства
по поводу надежности функционирования
системы. Страницу результатов можно
модифицировать так, чтобы добиться
единообразного оформления со своим
узлом. Различные варианты партнерства,
Free, Silver и Gold, соответствуют уровню
разрешенной адаптации. Если за Free не
надо платить ни цента, то последние два
потребуют платы в размере 600 и 2000 долларов. Того, кто не желает платить, но
не прочь заработать, приглашают стать
Googles Affiliate, разместить форму поиска на
своем сайте и получать по 3 цента за
каждый запрос. Впрочем, и без них служба
обзавелась влиятельными клиентами: Netscape,
WashingtonPost.com, RedHat и Virgin Net. Что касается
тематической рекламы, то, подобно Яndex,
Google коллекционирует запросы
пользователей, а затем сортирует их по
категориям, пополняя свой так
называемый Virtual Directory. Рекламодатель,
желающий разместить на сайте
собственную информацию, выбирает
категорию, наиболее соответствующую
тематике его бизнеса. Система
автоматически классифицирует каждый
новый запрос на основании его схожести с
образцами, собранными в Virtual Directory, и
выбирает подходящие рекламные
объявления. | |
CLEVER. | |
Client-Side Eigenvector Enhanced Retrieval столь
замысловато расшифровывается емкая
| |
Yep.com. | |
«Первый поисковый сервис, основанный
на ранжировании сайтов по качеству и
популярности« так характеризуют
свое детище сами его создатели. Yep.com
представляет собой нечто среднее между
службой немедленных сообщений (instant
messaging) и настоящим поисковым узлом.
Оценки качества содержания того или
иного сайта проводятся на основе
анализа предпочтений аудитории
пользователей программы Yep Web Companion. Она
позволяет оставлять на | |
В начале пути | |
В обзоре упомянуты только четыре службы,
взявшие на вооружение наиболее
любопытные технологии. На самом деле
наука о поиске в сложных, динамически
изменяющихся гипертекстовых средах
находится в начальной стадии своего
развития. После появления первых
публикаций о поисковых механизмах (http://www.cs.colorado.edu/home/mcbryan/mypapers/www94.ps)
наступило некое затишье в академических
исследованиях, так как основная часть
работ сместилась в область коммерческих
разработок. Увы, их создатели не имеют ни
желания, ни юридической возможности
раскрывать секреты своей деятельности.
В результате процесс «перекрестного
опыления идеями», важность которого
для науки трудно переоценить, был сведен
на нет. Возможно, появление Google и CLEVER
предвещает новый виток развития
технологий поиска. |
Источник: akmac.narod.ru/st/st5.htm