Профессиональный поиск в Интернете: планирование поисковой процедуры.Михаил Талантов, «КомпьютерПресс», №81999 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Этой статьей мы продолжаем начатый в КомпьютерПресс №799 разговор о поиске информации в сети Интернет, поставленном на профессиональную основу. Как было отмечено ранее, чертами, присущими профессиональному поиску, являются
его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным
фактором, определяющим, насколько быстро поисковик приходит к цели, оказывается
грамотное планирование поисковой процедуры. Говоря более предметно, речь здесь
идет, с одной стороны, о выборе типа ресурсов, которые потенциально способны
нести информацию, релевантную поисковой задаче (см. Статью «Профессиональный
поиск в Интернете: полнота, достоверность, скорость (http://akmac.narod.ru/st/st14.htm)», КомпьютерПресс №799).
С другой стороны, о выборе инструментов поиска, обслуживающих соответствующее
информационное поле, в зависимости от их предполагаемой результативности. Если
говорить о наиболее емком на сегодняшний день c точки зрения информационного
наполнения пространстве WWW, то относительное изобилие поисковых средств Всемирной
паутины делает решение большинства практических задач многовариантным. Построение
оптимальной последовательности применения тех или иных инструментов на каждом
этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора
может четкое представление о видах, назначении и особенностях работы Согласно схеме на рис. 1 реальными носителями информации о ресурсах, которыми располагает Сеть, являются поисковые машины (автоматические индексы) и каталоги. В силу того что они хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными системами. рис. 1 Автономные поисковые системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя: пространственный масштаб, в котором работает ИПС, и ее специализация. Сначала о масштабе. При формировании информационного массива поисковая система
может следить за обновлением наперед заданного набора документов, каталогов
или конечного числа узлов, отобранных по Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация поисковой системы на базе Региональными поисковыми службами информация фильтруется в основном на основе распознавания домена верхнего уровня сервера, например ru и su для России. Серьезным недостатком таких систем является то, что они не учитывают большого количества ресурсов, размещаемых региональными разработчиками в традиционно популярном домене com. Региональные мотивы нередко привносятся и в сервис глобальных ИПС. Система Lycos, например, ранжирует результаты из списка отклика в зависимости от того, из какого региона поступил запрос. Еще одно важное направление в деле «регионализации» поисковых сервисов связано
с разработкой В прошлый раз мы особо отметили, что именно становление автоматических индексов,
охватывающих ресурсы определенного типа, имеет знаковый характер. Это событие
всегда было связано с фазой бурного развития соответствующего информационного
поля, а на текущий момент с пространством WWW. Реально лишь высокая скорость
автоматического индексирования документов с помощью Каталоги WWW, содержащие большое количество записей, например Yahoo! (более
750 тыс.) или русскоязычный АУ (более 20 тыс.), нередко размещают на своих страницах
локальные поисковые машины, реализуемые в виде традиционных шаблонов. Поскольку
визуально и в работе последние мало чем отличаются от шаблонов на автоматических
индексах, сами каталоги такого типа часто неверно называют поисковыми машинами.
Дело здесь не в «чистоте» терминологии, которая не интересна рядовому пользователю.
Проблема в том, что непонимание того, как функционирует поисковая система внутри,
влечет за собой неконтролируемую потерю информации. Так, следуя ошибочному определению,
можно легко поставить на одну ступеньку глобальный автоматический индекс Northern Light и «поисковую машину» каталог Yahoo. Это означает попытку сравнения в
едином ключе сервисов, нацеленных на решение совершенно разных, по крайней мере
с точки зрения профессионального поиска, задач. Локальная поисковая машина каталога
предполагает поиск по ключевым словам, входящим в названия разделов, узлов и
другим немногочисленным данным, которые вводятся при регистрации. Тогда как
в автоматическом индексе информация об отдельном узле намного шире в идеале
вплоть до единичного слова каждого документа, причем с учетом специальных полей
Простота организации локальной по Благодаря этому довольно часто наиболее эффективный путь от запроса на глобальной
ИПС к конечному блоку информации лежит через промежуточное звено локальный
поисковый сервис узла (см. схему на рис. 2). Под внутренним
на схеме понимается поиск внутри конечного объекта, если это возможно, например:
поиск по тексту рис. 2 Чрезвычайно важной проблемой Сети является интеграция различных поисковых сервисов в единую систему. Для Паутины 1999 год уже ознаменовался одним неординарным событием при участии 15 крупнейших поисковых систем Интернета в феврале стартовал проект SESP (Search Engine Standards Project), призванный стандартизировать работу поисковых служб. Материалы о нем можно найти по адресу http://www.searchenginewatch.com/standards/990204.html. Уже первые документы проекта дают понять, что задачей стандарта является максимальное сближение синтаксиса и возможностей поисковых языков различных ИПС. В частности, одним из обязательных требований становится поддержка любой поисковой системой единых команд запросов, локализующих узел по его доменному имени, а документ по URL. Понятно, что даже это простое соглашение поставило бы учет и контроль информации в масштабе Сети на принципиально новый уровень. Теоретически привлекательна перспектива создания сверхмощной глобальной поисковой системы, которая была бы способна сопровождать Сеть в ее полном информационном объеме. Однако на практике это пока невозможно, и решение проблемы интеграции смещается в сторону разработки метапоисковых систем (см. рис. 1). Метапоисковые системыМетапоисковая система может быть реализована как в самой Сети, например, на
Telnet- или Одно из назначений метапоискового сервиса при поиске тестирование Сети на предмет информации, релевантной запросу. Метасистемы позволяют также оценить результативность применения отдельных ИПС для решения конкретной поисковой задачи. К сожалению, метасистемы пока еще плохо применимы для предметного и тонкого поиска. Проблема заключается в том, что язык запросов меташлюза располагает лишь самыми общими и поэтому крайне скромными возможностями для большинства ИПС. Появление проекта стандарта поисковых систем SESP в этом отношении открывает новые перспективы в развитии метасистем, поскольку стандартизация ИПС существенно расширит возможности шлюзования. Отметим, что метасистема допускает передачу запросов не только на автоматические индексы, но и в те каталоги, которые сопровождаются локальной поисковой машиной. Среди довольно легковесных продуктов целого семейства локальных клиентов метапоиска выделяется программа, известная под именем Inforia Quest 98 (рис. 3). рис. 3 Пробный вариант ее последней версии можно найти на узле http://www.inforia.com/quest. По итогам прошлого года она была признана одной из лучших в своем классе и претендует на роль профессионального поискового инструмента. Беглый взгляд на возможности этой программы позволяет обозначить черты метапоисковых клиентов самого последнего поколения. Прежде всего программа интегрирует в себе не только поисковые сервисы Большим достижением программы является то, что она поддерживает некоторое подобие поискового языка: работают два логических оператора и поиск по фразам. Однако всякий раз, когда язык метасистемы не в состоянии обеспечить точное построение поискового запроса, приходится прибегать к автономным сервисам Сети, в первую очередь к поисковым машинам WWW. Глобальные поисковые машины WWW: тонкая настройкаПосле знакомства с несколькими глобальными поисковыми машинами Сети пользователь,
как правило, останавливается на одной-двух, с которыми и предпочитает работать
в дальнейшем. На основе каких же мотивов делается подобный выбор? Рейтинги популярности
поисковых систем по опросам читателей, публикуемые такими известными изданиями,
как PC Magazine, Internet World, и другими, оставляют желать лучшего. Эмоции
торжествуют над осознанием реальных возможностей, маркетинговые решения над
техническими. Так, каталог Yahoo с легкостью одерживает победу над индексами
HotBot и Lycos, Excite и WebCrawler над AltaVista, а одна из крупнейших поисковых
машин Northern Light Чтобы грамотно распорядиться таким важным поисковым инструментом, как автоматический
индекс, необходимо учитывать два определяющих аспекта его работы. Первый это
индексирование Поскольку индексы сканируют единое информационное поле WWW, то в них может находиться информация об одних и тех же ресурсах. Однако время, затраченное на получение результата при поиске, может существенно зависеть от выбранной поисковой машины. Кроме того, как будет показано ниже, использование всего одной поисковой системы не дает никаких гарантий по полноте охваченных ресурсов. Приведем несколько ссылок, которые указывают на страницы, содержащие крупнейшие в Сети перечни поисковых систем: http://dir.yahoo.com/Computers_and_Internet/Internet/
Некоторые важные для обсуждения характеристики лидирующих поисковых машин, связанные как с фазой индексирования, так и с фазой обработки запросов, представлены в таблице. Сравнительные показатели глобальных поисковых машин общего назначения. Сетевые адреса поисковых машин строятся на базе их имен по шаблону www.имя.com (двусложные имена пишутся слитно).
Начнем с особенностей индексирования. Большой объем индекса, безусловно, выглядит как разумный аргумент при выборе поисковой системы. Однако он далеко не единственный. Любые начальные сведения о характере информации, служащей предметом поиска, делают задачу выбора более тонкой. Например, если нас интересуют сведения, которые могли поступить в Сеть только за последнюю неделю, то следует предпочесть поисковые машины с высокой скоростью индексирования и минимальным временем регистрации, через которое документ по представлению автора появляется в индексе. Для ускорения сканирования узла робот поисковой машины может ограничивать глубину его индексирования. WebCrawler, например, вообще сканирует только домашнюю страницу сайта. В результате даже такой крупный индекс, как Excite, может оказаться непригодным для поиска данных, которые в типичных случаях принято размещать в глубине узла. Из трех крупнейших конкурирующих индексов AltaVista, Northern Light и HotBot у последнего есть серьезные проблемы со сканированием узлов, содержащих фреймы. Отсюда следует, что при масштабном сборе информации из Сети HotBot во избежание потерь можно использовать только как систему, дополнительную к двум первым. Нередко разработчики коммерческих узлов закрывают под пароль доступ к материалам сайта. Заинтересованные, тем не менее, в рекламе, они часто прибегают к возможности открыть доступ к своим ресурсам роботам поисковых систем. Из таблицы видно, что только два индекса корректно работают с закрытыми узлами. Таким образом, при поиске информации, которая потенциально является продаваемой, их применение обязательно. Роботы поисковых систем, сканирующие Сеть, могут увязывать частоту своих повторных посещений уже зарегистрированного узла со скоростью обновления его материалов (AltaVista, InfoSeek). Эта черта полезна при поиске сведений, которым присуще частое обновление, например новостей. В нижнем блоке таблицы выделены возможности поисковых языков отдельных систем, которые также допускают специфичное применение. Так, ключевые слова, входящие в доменное имя узла, сегодня широко используются при поиске всевозможных компаний. Если есть начальные сведения о терминах, которые могут быть включены в названия каталогов или файлов носителей релевантной информации, то следует использовать поисковые машины, поддерживающие поиск по URL. Даже такая, казалось бы, незначительная деталь, как учет регистра при построении запроса в определенных ситуациях, становится крайне полезной. Например, при сборе сведений о Турции (Turkey) системы, которые фиксируют при индексировании регистр каждой буквы слова, позволяют легко избавиться от документов с термином turkey (индюк). Поиск по заголовку страницы (элемент title) достаточно эффективно применяется, когда разыскиваются организации, особенно с длинным двусложным названием. Односложное название обычно входит в имя домена или в URL как есть, а многосложное формирует аббревиатуру. По домену или URL их легче всего и удается локализовать. Название же компании из двух слов, например American Cybernetics, не позволяет точно угадать имя сервера (ни www.americancybernetics.com, ни www.ac.com не являются верными). Поэтому в синтаксисе AltaVista запрос title:«American Cybernetics» является наиболее эффективным. Ясно, что лидеры некоторых опросов поисковые службы Excite или WebCrawler выглядят здесь несостоятельными. Следует помнить, что одноименные операторы в разных поисковых системах могут иметь неодинаковые свойства. Оператор близости NEAR иллюстрирует этот факт. На запрос типа «термин_1 NEAR термин_2» откликнутся документы, заиндексированные роботами AltaVista, Lycos или WebCrawler, если заданные термины присутствуют в документах в пределах определенной близости друг к другу, не одинаковой для разных систем (см. таблицу). Разницу в интерпретации оператора NEAR можно тонко использовать при поиске. Необходимо также отметить возможность «теневой» профилизации глобальных поисковых машин. Чисто технические особенности работы сервиса могут спровоцировать увеличение доли одной тематики информации перед другой. В результате равные по объему индексы могут давать неодинаковый отклик по отдельным запросам, что следует учитывать при планировании поиска. Существует ли такой крен в каждом конкретном случае, выясняется с помощью тестовых запросов. Разумеется, исчерпывающий сравнительный анализ даже всего семи поисковых систем выходит за рамки одной статьи. Более важная задача виделась автору в том, чтобы обозначить общий подход к проблеме выбора поискового инструмента на основе детального анализа его возможностей. Полезно отметить, что обычно поисковые серверы разделяют интерфейс для ввода запросов на «простой» и «расширенный» (advanced, power). Все необходимые для профессиональной работы с системой возможности скрыты в «расширенном» интерфейсе, и именно с него стоит начинать знакомство с любой новой для себя поисковой машиной. Совершенно ясно, что борьба за глобальное лидерство разворачивается между тремя наиболее крупными поисковыми системами AltaVista, HotBot и Northern Light. Еще два года назад трудно было себе представить, что первенство AltaVista AltaVista отличается, пожалуй, самым изысканным и гибким языком запросов, требующим,
однако, специального изучения. Но он того стоит. Посмотрите, например, как изящно
выглядит запрос на получение электронных текстов Джека Лондона с (url:etext) and text:(Jack near London)
and not (text:(city or capital) or domain:ru)
Запрос тут же отсекает нерелевантную информацию о столице Великобритании. Другая черта AltaVista это многоязыковая поддержка индекса и возможность
перевода в режиме HotBot отличает от AltaVista шаблонный и поэтому более простой подход к построению запроса, а также богатый набор фильтров для поиска специфических объектов, таких как ActiveX,VRML, VB Script, и других. Northern Light в этом отношении имеет достаточно стандартный набор функций. Система пытается заработать очки на сопровождении уникальной коллекции ссылок (более 5 тысяч записей) в основном на статьи из периодических изданий. Поддержка индексом кириллицы делает его вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Яndex и Апорт при русскоязычном поиске. Сегодня при решении поисковых задач возрастает роль чувствительности поисковых
систем к закрытым форматам хранения данных. Речь идет о тех форматах, внутренняя
структура которых в отличие, например, от Если цель поиска с самого начала связана с одним из таких форматов, то целесообразно использовать глобальные системы с поддержкой соответствующих фильтров (например, Lycos, HotBot) или специализированные системы. Планирование поисковой процедурыТрудоемкие поисковые работы, связанные с масштабным сбором информации из Сети, нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов, попытка форсировать поиск все это не просто затягивает получение результата на дни и даже недели, но может поставить под вопрос смысл всей поисковой кампании. Несмотря на постоянный рост индексов поисковых систем, оценки показывают, что увеличение общего числа документов в WWW за последний год с 320 до 550 миллионов в целом ухудшило картину доступности информации. Из гистограммы на рис. 4 следует, что доля документов, захваченная отдельным индексом, значительно упала и не превышает 30 процентов. Отсюда ясно, что только применение совокупности поисковых машин способно дать полноценную информационную картину для поисковых задач, при решении которых существенна полнота поиска. Рис. 4 Тем не менее независимо от характера задачи непродуманное метание от одного поискового сервиса к другому существенно увеличивает время получения результата. Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами поисковой процедуры. Начинать обычно приходится со всестороннего лексического анализа информации, подлежащей поиску. Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса редких словах, возможно, названий и фамилий, тесно связанных c проблемой. Желательно также предвидеть, какие из выбранных терминов могут привнести в отклик поисковых систем нерелевантные документы. После накопления этого багажа можно перейти к получению предварительной информации из Сети. Основная задача этой фазы работы преломить проблему через призму Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличаться от общепринятых. Довольно трудно, например, догадаться, что появление огромного количества англоязычных электронных текстов литературных произведений в Сети связано с именем сетевого проекта Gutenberg. Или что название операционной системы OS/2 допускает два вида написания «OS/2» и «OS2». Одно неловкое движение и десятки тысяч полезных документов выпадают из поля зрения. Рейтинги потенциальных поставщиков нужной информации в обычной жизни и в электронном пространстве также могут существенно отличаться. В связи с этим, возможно, одно из главных положений, которое должно привлекать заказчика поисковых работ в Сети, это присутствие в ней совершенно уникальных источников, не допускаемых на традиционный рынок информации или неконкурентных на нем. При поиске в Сети заметную роль начинает играть видение психологического портрета поставщика информации, к чертам которого могут проявлять чувствительность поисковые инструменты. Прецедент существования в Сети необходимых данных лучше всего искать в известном каталоге, поддерживающем поиск по ключевым словам. В целом при решении простых, «любительских» задач типа «погода в Сочи» или «карта метро Рима» каталог может быть более быстрым способом получения информации, чем автоматический индекс, и гарантировать большую достоверность. После лексического анализа информации наступает технологический этап. Выбор информационного поля Сети и поисковых инструментов производится на основе подходов, которые мы изложили выше. Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы по релевантности отклика. В этой работе могут применяться и метапоисковые, и крупные автономные системы. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается. В заключение отметим, что прежде всего для решения задачи сбора информации из Сети сегодня заметно возрастает роль региональных и специализированных поисковых сервисов. Использование глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет форсировать поисковую кампанию в сжатые сроки. |
Источник: akmac.narod.ru/st/st15.htm