Close

Организация поиска в интернете – Организация поиска информации в сети Интернет.

Содержание

Организация поиска информации в сети Интернет.

Интернет предоставляет неограниченный доступ к информационным ресурсам, как в области юридической науки, так и практического законотворчества. Поисковые системы значительно облегчают задачу по нахождению необходимой информации, каких либо данных, статей, монографий и программ. Интернет-ресурсы становятся эффективным средством приобретения новых знаний, а также реализуют доступ к электронным версиям не только юридических журналов и газет, но и к множеству юридической литературы, доступной как в бесплатной, так и платной форме.

Практически любой юрист может попробовать себя в качестве «дистанционного консультанта» по юридическим проблемам. Для этого необязательно создавать персональную web-страничку, достаточно стать участником одного из уже действующих Интернет-проектов. Например, большой популярностью в отечественном Интернете пользуется так называемая «Виртуальная Юридическая Консультация» (www.uristy.ru). Принять участие в работе этой консультации может любой специалист, имеющий юридическое образование, достаточно лишь зарегистрироваться в системе.

Но нельзя не отметить, что доступность и простота размещения информации, а также практически полная независимость серверов друг от друга в Интернете, превратила всемирное достижение в хаос. Вот почему год от года проблема поиска необходимой информации в Интернете становится все актуальнее. Особенно это важно в условиях ограниченного времени и в том случае, когда принятие решения должно опираться на конкретный документ.

Самая простая возможность что-то найти, это ввести ключевые слова прямо в адресную строку браузера. Поиск происходит в майкрософтовской системе WSN Search.

Рис.18 Система WSN Search

Другой способ поиска дает кнопка Поиск на панели браузера. При использовании этой кнопки окно делится на две части. Слева находится строка для ввода ключевых слов, список найденных страниц, а справа можно просматривать выбранные страницы. Можно использовать другую поисковую систему, используя кнопку Настроить в панели Поиск.

Поисковые системы Интернет:

Поисковые системы можно подразделить на следующие группы:

  • поисковые каталоги

  • поисковые машины или поисковые указатели

  • классификационно-рейтинговые системы.

Поисковые каталоги.

Каталоги ресурсов – глобальные, локальные, специализированные – представляют собой размещаемые в Сети базы данных с адресами ресурсов. Эти базы данных могут иметь разный объем накопленной информации. Обычно они имеют иерархическую структуру.

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Обратившись к адресу поискового каталога, мы находим на его основной странице список тематических категорий, например таких как «Юриспруденция», «Образование», «Спорт» и т.д.

Каждая запись в списке категорий – это гиперссылка. Щелчок по ней открывает следующую страницу поискового каталога, на котором выбранная тема представлена более подробно. Продолжая погружаться в тему, можно дойти до списка конкретных Web-страниц и выбрать тот ресурс, который наиболее подходит для решения Вашей задачи. Также в поисковом каталоге можно использовать кнопку Поиск для уточнения поиска нужных страниц.

Поисковые каталоги создаются в основном вручную высококвалифицированными редакторами, которые просматривают пространство WWW, отбирают то, что по их мнению представляет общественный интерес и заносят адреса в каталог.

Yahoo (www.yahoo.com) –признан наиболее популярным каталогом во всем мире. Возможен поиск на русском языке.

Российские каталоги:

«List.Ru» (www.list.ru),

«Созвездие Интернет» (www.stars.ru),

«Russia on the Net» (www.ru) и другие.

studfile.net

ОРГАНИЗАЦИЯ ПОИСКА ИНФОРМАЦИИ

 

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопро-са:

1. что искать – какие источники информации;

 

2. где искать – места размещение этих источников;

 

3. как искать – какие инструменты для этого использовать.

 

Выделим основные источники информации, представленные в Интернете. Это документы WWW, ста-тьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной ин-формации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах дан-ных, энциклопедиях. Заметим, перечисленный список не претендует на полноту.

 

Теперь отвечаем на вопрос, где эти источники информации размещаются. Это такие популярные ресур-сы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализиро-ванных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Ин-тернет необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска. Таким образом, мы подходим к понятию автономного инструмента поиска – информационно-поисковой сис-темы.

 

Информационно-поисковая система (ИПС) –это система,обеспечивающая поиск и отбор необходи-мых данных в специальной базе с описаниями источников информации (индексе) на основе информа-ционно-поискового языка и соответствующих правил поиска.

 

Главной задачей любой ИПС является поиск информации релевантной информационным потребно-стям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная ха-рактеристика процедуры поиска – релевантность.

 

Релевантность –это соответствие результатов поиска сформулированному запросу.

 

Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

 

По пространственному масштабу ИПС можно разделить на:

 

‒ локальные;

 

‒ глобальные;

 

‒ региональные;

 

‒ специализированные.

 

Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе от-дельного сервера. Региональные ИПС

описывают информационные ресурсы определенного региона, например , русскоязычные страницы в Интернете. Глобальные поисковые системы, по возможности наиболее полно, описывают ресурсы всего информационного пространства сети Интернет. Специали-зированные ИПС сосредоточены на поиске определенных источников информации:документовWWW,файлов, адресов и т.д.

 

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределен-ных источников информации. Следовательно, сначала нужно описать информационные ресурсы и соз-дать индекс. Построение индекса начинается с определения начального набора URL источников ин-формации. Затем проводится процедура индексирования.

 

Индексирование –описание источников информации и построение специальной базы данных(индекса)для эффективного поиска.

В некоторых информационно-поисковых системах описание источников информации проводится пер-соналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае про-цедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как

 

в тематических каталогах библиотек.

В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого раз-рабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимо-сти от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может ока-заться очень большим по размеру.

 

Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии. Для поиска в системах данного типа пользо-вателю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запро-са. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого язы-ка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска . Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты . Не последнее значение имеет внешний вид поисковой системы, предстающий перед поль-зователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, ис-ключительно важна форма представления результатов поиска , поскольку пользователю необходимо уз-нать как можно больше о найденном источнике информации, чтобы принять правильное решение о не-обходимости его посещения.

 

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с ин-терфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом сис-темы (системой формирования запросов и просмотра результатов поиска).

 

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса поль-зователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи резуль-татов поиска пользователю.

 

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитекту-ра индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно бы-ло отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользо-вателя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрез-вычайно важно хранить запросы, на которые получен удовлетворительный ответ.

 

Web-сайты –те информационные ресурсы,доступ к которым обеспечивает ИПС.

 

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описа-нии подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:

 

‒ Заголовки (Title).

 

‒ Заглавия (h2-H6).

 

‒ Аннотация (Description).

 

‒ Списки ключевых слов (KeyWords).

 

‒ Гипертекстовые ссылки.

 

‒ Полные тексты документов.

 

Поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полно-текстовыми.

Для того, чтобы описать файл в ресурсе FTP используется его URL. Для описания статьи в группе ново-стей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список так называемых стоп-слов, которые игнорируются в процессе ин-

 

дексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфо-логии. Учет морфологии означает умение работать с различными формами слов конкретного языка. Следует отметить достаточную сложность русского языка , слова которого изменяются по числам, па-дежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут

 

и т.д. Все существующие ИПС с учетом морфологии русского языка используют «Грамматический сло-варь русского языка», составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно скло-няется или спрягается.

Итак, обобщенная технология поиска состоит из следующих этапов:

 

1. Пользователь формулирует запрос.

 

2. Система проводит поиск документов (или их поисковых образов).

 

3. Пользователь получает результат (сведения о документах).

 

4. Пользователь совершенствует или реформирует запрос.

 

5. Организация нового поиска.

 

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС. Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмот-ренных. В общем случае, можно выделить следующие поисковые инструменты для WWW:

 

‒ поисковые системы;

 

‒ метапоисковые системы;

 

‒ программы ускоренного поиска.

 

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяют-ся на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог –поисковая система с классифицированным по темам списком аннотаций со ссылками наweb-ресурсы. Классификация, как правило, проводится людьми.

Поисковая машина –поисковая система с формируемой роботом базой данных,содержащей информа-цию об информационных ресурсах.

Метапоисковая система –система,не имеющая своего индекса,способная послать запросы пользова-теля одновременно нескольким поисковым серверам, затем объединить полученные результаты и пред-ставить их пользователю в виде документа со ссылками.

 

Программа ускоренного поиска –это программа с возможностями метапоисковой системы,устанавли-ваемая на локальном компьютере.

 

Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на перво-источник. Среди самых популярных зарубежных каталогов можно упомянуть:

 

‒ Yahoo (www.yahoo.com),

 

‒ Magellan (www.mckinley.com),

 

‒ Российские каталоги:

 

‒ @Rus (www.atrus.ru)

 

‒ Weblist (www.weblist.ru)

 

‒ Созвездие интернет (www.stars.ru).

 

Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. Для сужения области поиска возможна сортировка содержимого индекса по кате-гориям. Как правило, поисковые машины поддерживают два режима: режим простого поиска и ре-жим расширенного поиска.

 

 

Рассмотрим обобщенные возможности формирования запроса в режиме простого поиска. Можно про-сто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моде-лируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение опреде-ленных слов. Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа . Как правило, количество найденных страниц будет слиш-ком велико. Для улучшения качества поиска в режиме простого поиска допустимо использование логи-ческих операторов и операторов, позволяющих ограничить область поиска, а также выбор определен-ной категории документов из представленного списка.

 

В качестве операторов, устанавливающих отношения между ключевыми словами, большинство поис-ковых систем используют следующие:

 

AND (И) &–обязательное присутствие всех ключевых слов;

 

OR (ИЛИ) |–присутствие хотя бы одного из ключевых слов;

 

NOT (НЕ) !–отсутствие ключевого слова;

 

NEAR (ОКОЛО) ~–определенный интервал между ключевыми словами.

 

Многие поисковые системы включают в свой язык составления запросов специальные операторы, по-зволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса . Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети стра-ницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область по-иска внутри указанного домена.

 

В качестве дополнительных специальных операторов можно выделить:

 

‒ Операторы поиска документов с определенным графическим файлом;

 

‒ Операторы ограничения по дате искомых страниц;

 

‒ Операторы близости между словами;

 

‒ Операторы учета словоформы;

 

‒ Операторы сортировки результатов (по релевантности, свежести, старости).

 

Следует заметить, что на сегодняшний день не существует стандарта на количество и синтаксис под-держиваемых операторов для различных поисковых систем. Поэтому пользователь, обращаясь к опре-деленной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами со-ставления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка По-мощь (Help), по которой можно перейдете к справочной информации.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установ-кой соответствующих флажков или выбором параметров из списка.

 

Рассмотрим способы представления результатов поиска в поисковых машинах. Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на стра-нице с возможностью перехода к следующей порции внизу страницы . Обязательно указывается заголо-вок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

 

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоя-зычных документов).

 

Что можно делать с полученными результатами ? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые сис-темы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предло-жить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похо-жести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов . Для экономии вашего време-ни можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

 

Наиболее популярные поисковые машины за рубежом и в России.

 

Зарубежные поисковые машины:

 

Google www.google.com

 

Altavista www.altavista.com

 

Excite www.excite.com

 

HotBot www.hotbot.com

 

Nothern Light www.northernlight.com

 

Go (Infoseek) www.go.com (infoseek.com)

 

Fast www.alltheweb.com

 

Российские поисковые машины:

 

Яndex www.yandex.ru (или www.ya.ru)

 

Рэмблер www.rambler.ru

 

Апорт www.aport.ru

 

Белорусские поисковые системы:

 

Система 09 www.09.open.by

 

Поисковая система Unibel http://search.unibel.by

 

Система *.BY http://search.promedia.minsk.by/

 

Белорусский интенет-каталог Акавiта http://akavita.kryvia.net/

 

Обратите внимание на то , что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поиско-вых системах.

 

Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы)

 

– системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылка-ми.

Здесь приведены адреса известных метапоисковых систем.

 

MetaCrawlerwww.metacrawler.com

 

SavvySearchwww.savvysearch.com

 

Наконец, рассмотрим последний в списке инструмент поиска – программы ускоренного поиска.

 

Программа ускоренного поиска –это программа,устанавливаемая на компьютере пользователя и спо-собная:

‒ посылать запросы к нескольким поисковым серверам;

 

‒ сортировать результаты поиска по релевантности;

 

‒ удалять дубликаты;

 

‒ проверять наличие документов в сети.

 

Далее приведены адреса разработчиков и название популярных программ ускоренного поиска.

 

WebFerret, NewsFerret www.ferretsoft.com

 

Inforia Quest 99 http://www.inforia.com/quest

 

Subject Search Spider (SSSpider) www.kryltech.com.

 

После подробного изучения основных возможностей инструментов обратимся к проблеме эффектив-ности поиска.Основными параметрами эффективности поиска является полнота как отношение числанайденных документов к общему числу релевантных документов (то есть, найдены все документы, со-ответствующие запросу), и точность поиска – отношение числа релевантных документов к общему чис-лу полученных документов (то есть не найдено ничего лишнего, не относящегося к делу). Это и означа-ет понятие релевантности. Немаловажное значение имеет актуальность ссылок на документы, то есть существование в настоящий момент найденных документов в сети, и скорость поиска.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

 

‒ Свойства и возможности поисковой системы.

 

‒ Качество формулировки запроса пользователем.

 

‒ Каким образом можно оценить качество поискового инструмента? Поисковые системы обычно сравнивают по следующим параметрам:

‒ Количество проиндексированных страниц (объем индекса).

 

‒ Количество поддерживаемых операторов.

 

‒ Стандартный оператор, объединяющий несколько ключевых слов. Если стандартным операто-ром является оператор И, поисковая машина автоматически будет искать документы, на которых

обязательно будут присутствовать все введенные ключевые слова. В противном случае (оператор ИЛИ) будут найдены документы со всеми ключевыми словами и с каждым по отдельности

‒ Поиск точной фразы.

 

‒ Поиск слов с различными окончаниями.

 

‒ Учет словоформ. В случае автоматического режима учета словоформ система будет искать в до-кументах слово со всеми его изменениями.

Далее, продолжаем список:

 

‒ Чувствительность к заглавной букве. Если система не различает заглавные и строчные буквы, ре-зультаты поиска будут менее качественными.

‒ Поиск мультимедийных файлов.

 

‒ Форма представления результатов.

 

‒ Сортировка по категориям

 

‒ Период обновления индекса. Этот показатель влияет на такой параметр как актуальность най-денных ссылок. Чем чаще обновляется индекс, тем реже в результатах поиска будут встречаться устаревшие ссылки.

 

‒ Задержка перед пропиской. Данный параметр указывает на временной интервал перед занесени-ем описания Web-страницы в индекс после просьбы ее автора.

 

Теперь рассмотрим , как лучше подготовиться пользователю к составлению запроса. Прежде всего, не-обходимо провести всесторонний лексический анализ информации, которую вы собираетесь искать. За-тем необходимо составить набор ключевых слов (при необходимости, на нескольких языках) в виде от-дельных терминов, словосочетаний, профессиональной лексики и клише.

 

Далее следует технологический этап поисковой процедуры, в котором необходимо исследовать различ-ные поисковые инструменты. Для каждого выбранного инструмента проводятся:

‒ Тестовые запросы из 1-2 ключевых слов или фразы.

 

‒ Анализ количественного отклика.

 

‒ Корректировка запроса по релевантности отклика.

 

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

 

‒ Поиск общей информации в каталогах. В каталогах вы, как правило, обязательно выйдете на специализированные сервера в искомой области.

‒ Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска ограниченного числа ссылок в каталогах явно недостаточно. Кроме того, узкоспециаль-ная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск в поисковых машинах, обладающих индексами большого объема.

 

‒ Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной по-исковой машины. Эффективным и простым способом решения проблемы составления качест-венного запроса является использование режима расширенного запроса.

 

‒ Использование функции поиска в найденном. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов. Как правило, для этого нужно включить специальный флажок Искать в найденном и ввести дополнительные слова для повторного поис-ка среди найденных по запросу страниц.

 

‒ Использование поиска похожих документов.

 

‒ Использование метапоисковых систем и программ ускоренного поиска информации. Для полу-чения общего обзора документов целесообразно использовать возможности метапоисковых сис-тем или программ ускоренного поиска. Напоминаем, данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько са-мых релевантных ссылок.

 

‒ Просмотр раздела Ссылки на специализированных сайтах. Авторы многих специализированных Web-узлов накапливают свои коллекции ссылок по тематике сайта. Зачастую вы зайдете в этих коллекциях много полезных источников, сэкономив время, затрачиваемое на самостоятельный поиск с использованием рассмотренных выше инструментов.

 

‒ Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей. Найти нужную группу можно, ис-пользуя специальные инструменты поиска, которые мы рассмотрим далее.

 

‒ Подписка на специализированные списки рассылки. Подписавшись на специализированный спи-сок рассылки, вы сможете получать по электронной почте свежую информацию по вашей тема-тике, а также задавать вопросы вашим коллегам-подписчикам.

Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструмен-тами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые ин-дексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный ре-жим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сер-вер Altavist а. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах ново-стей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.

 

Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы

 

WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport,… ). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссыл-кам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл. Вы можете спрогнозировать имя файла, например, файл с изображением орла может называться eagle.gif. Или до-гадаться, что фото Билла Гейтса будет иметь соответствующую подпись.

 

Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск про-граммного обеспечения для Интернета или для конкретной операционной системы. Эти системы в ко-нечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.

 

Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.

White-поиск –поиск адресной информации по заранее известному собственному имени адресата(имячеловека или организации)

Yellow-поиск –поиск собственного имени по дополнительным признакам(по роду деятельности,погеографическому признаку), а затем поиск его адресной информации.

Обычно Yellow Pages системы фактически сразу включают в себя и White Pages – у найденного адреса-та сразу видны его телефон и почтовый адрес . Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также со-держат элементы yellow-поиска – кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофа-мильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие, факти-чески white-поиск, называют себя Yellow pages.

 

Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.

 

Поиск людей:

 

‒ Поиск людей на Yahoo (http://people.yahoo.com).

 

‒ Система WhoWhere (www.whowhere.com).

 

‒ Система Bigfoot (www.bigfoot.com).

 

Поиск организаций:

 

‒ раздел Желтые страницы (Yellow pages) на поисковых системах

‒ специализированные сервера

 

‒ www.yellowpages.com – для поиска в США и других странах

 

РАБОТА С ПОЧТОВЫМ КЛИЕНТОМ

 

Как упоминалось выше, одним из направлений использования Интернета является обмен информацией.

Рассмотрим основные средства обмена информацией, доступные через глобальную сеть:

Электронная почта,позволяющая очень быстро отправлять электронные письма на электронные ад-реса пользователей Интернета.

Списки рассылки,на которые можно подписаться,как на журнал,и затем периодически получать насвой электронный адрес подборку статей на заданную тему. Впоследствии можно отправлять свои со-общения всем подписчикам.

 

Группы новостей,которые позволяют публиковать сообщения по интересам на специальных серверахв сети. Сообщения можно читать, подключившись к серверу и выбрав тему для себя. Далее, по жела-

 

нию, вы можете ответить автору статьи или послать собственное сообщение. Таким образом, организо-вывается сетевая дискуссия, носящая новостной характер, поскольку сообщения хранятся небольшой период времени.

Чрезвычайно популярным ресурсом является IRC, который служит для прямого общения группы лю-дей в режиме реального времени с помощью ввода текста с клавиатуры и немедленного появления его на общей доске.

 

Разработаны специальные программы для общения в реальном режиме времени, позволяющие после установления связи передавать текст, вводимый с клавиатуры, а также звук, свое изображение и любые файлы. С помощью этих программ можно организовать совместную работу удаленных пользователей с программой, запущенной на локальном компьютере.

 

‒ С помощью специального оборудования и программного обеспечения через Интернет можно проводить аудио- и видеоконференции, то есть передавать звук и изображение от одного ко мно-гим.

 

‒ В Интернете есть свои пейджинговые системы, в которых можно зарегистрироваться и получить свой персональный номер. Зная персональный номер другого человека, можно через централь-ный сервер пейджинговой службы отправить ему сообщение с предложением установить соеди-нение и пообщаться. Самой популярной пейджинговой системой в Интернете является система

 

ICQ.

‒ Интернет-телефонией называется система, позволяющая вести разговор в реальном времени че-рез сеть Интернет.

Приступим к более подробному описанию средств обмена информацией в Интернете. Начнем с самого древнего для сетевого общения средства под названием электронная почта. Введем определение:

Электронная почта –средство обмена информацией,подготовленной в электронном виде,междулюдьми, имеющими доступ к компьютерной сети.

 

Основными областями применения электронной почты являются ведение личной переписки и работа с некоторыми информационными ресурсами Интернета, такими как списки рассылки, off-line группы но-востей и системы пересылки файлов по электронной почте. Конечно, имея вариант подключения к Ин-тернету в режиме on-line, удобнее для копирования файлов использовать любой FTP-клиент или про-грамму загрузки файлов. Однако иногда для пользователей, имеющих способ подключения по протоко-лу UUCP, единственным способом получить файл с FTP-сервера является заказ его по почте с исполь-зованием специальной службы файлы-почтой. Кроме того, почтовая система не требует вашего непре-менного присутствия в Интернете, поэтому возможность получить архив с программой приличного размера по электронной почте иногда удобнее даже для пользователей, имеющий полноценный доступ ко всем ресурсам Интернета.

 

Как реализована технология клиент/сервер в случае электронной почты. Серверную часть представля-ет почтовый сервер.

Почтовый сервер –программа,пересылающая сообщения из почтовых ящиков на другие серверы илина компьютер пользователя по запросу его почтового клиента. На почтовом сервере создают почтовые ящики для пользователей с определенным именем и паролем для доступа.

 

Клиентскую часть сервиса представляет почтовый клиент. Почтовый клиент (мейлер) – программа, помогающая составлять и посылать электронные сообщения, получать и отображать письма на компью-тере пользователя.

 

Работа с почтой может проводиться в режиме off-line. Это означает, что для получения и отправки поч-ты в назначенный час вы устанавливаете соединение с провайдером. Затем вы даете команду вашему почтовому клиенту, по которой он подключается к вашему почтовому серверу, отсылает подготовлен-ные письма и забирает на локальный компьютер сообщения, пришедшие за истекший период на ваш почтовый ящик. Писать письма и читать полученные с сервера сообщения вы можете в автономном ре-жиме, то есть, без подключения к Интернету.

 

Теперь рассмотрим почтовые протоколы.

 

Одним из вариантов подключения к Интернету является подключение по протоколу UUCP. UUCP (протокол копирования с Unix на Unix) использовался для передачи информации по компьютерным се-тям очень давно, до изобретения протокола TCP/IP. UUCP (протокол копирования сUnixнаUnix) – устаревающий протокол для передачи информации по компьютерным сетям. В то время единственным средством общения была электронная почта, которая и передавалась по упомянутому протоколу, досто-инством которого является неприхотливость к ресурсам компьютера, параметрам модема и качеству телефонной линии связи. На сегодняшний день протокол UUCP безнадежно устарел, он не относится к Интернет-протоколам, то есть, не базируется на TCP/IP. Тем не менее, следует упомянуть о программе-

 

клиенте, разработанной российскими программистами специально для работы с почтой по этому прото-колу – программе, работающей под упра


Рекомендуемые страницы:

lektsia.com

4.5. Организация поиска информации в сети Интернет

4.5. Организация поиска информации в сети Интернет

4.5.1. Традиционные поисковые системы Интернета

      Для поиска информации используются специальные внешние службы — поисковые серверы: поисковые машины и каталоги.

      Поисковые машины — это такие серверы, которые накапливают информацию о содержимом сайтов автоматически, при помощи специальных программ-роботов.

      Информацию для серверов-каталогов отбирают люди. В отличие от поисковых машин, информация в каталогах более точно структурирована, причем в вертикальном иерархическом виде.

      И поисковые машины, и каталоги являются внешними службами или, как их еще называют, автономными системами. Особенностью автономных систем является то, что цикл работы с информацией выполняется полностью непосредственно на этой системе, начиная с получения информации от первоисточника и заканчивая предоставлением поискового сервиса конечному пользователю.

      Автоматические поисковые системы охватывают больший объем информации, их сведения чаще обновляются и поэтому более актуальны. Однако информация на таких серверах плохо структурирована, потому что оценка содержимого того или иного сайта — трудно формализуемая задача. Чаще всего программа-робот отбирает документы только по наличию искомых слов в тексте документа. Примером поисковой машины является AltaVista (http://www.altavista.com).

      В каталогах вся информация имеет четкую вертикальную иерархическую структуру. Причем эта структура строится на основе смыслового содержания. В этом главная ценность каталогов, обрабатываемых людьми: можно найти не множество сайтов, содержащих данные ключевые слова, а множество сайтов, посвященных данной тематике. Примером каталога может служить сервер Yahoo (http://www.yahoo.com).

      Каталоги WWW, содержащие большое количество записей, часто размещают на своих страницах локальные поисковые машины. Реализуемые в виде традиционных шаблонов, которые мало чем отличаются от шаблонов на автоматических индексах.

      Как для поисковых машин, так и для каталогов устанавливается некий принцип отбора информации. Этот принцип закладывается либо в алгоритмы работы поисковых машин, либо в регламент работы людей (для каталогов). В зависимости от того, откуда и какой тип информации накапливается, оценивают две характеристики автономных систем — пространственный масштаб и специализацию.

      Пространственный масштаб призван ограничить количество первоисточников информации до некоего конечного предела. Например, поисковая система может быть построена в рамках только одного сайта. Поиск может быть ограничен рамками одного географического домена (например, ru). Такие системы называют региональными.

      Существует множество поисковых серверов, которые не имеют подобных ограничений. Их называют глобальными информационно-поисковыми системами.

      Особенности регионального подхода могут присутствовать и в глобальных системах. Так, система Lycos (http://www.lycos.com) сортирует результаты поиска в зависимости от того, из какого региона поступил запрос.

      Наиболее популярные поисковые сервера загружены настолько, что возникает необходимость в создании «зеркал» (mirrors). Зеркала должны содержать точную копию первичной поисковой системы и гарантировать быстрое обслуживание обращений, поступающих из определенной географической зоны.

      При обращении к той или иной поисковой системе следует учитывать, какие сервисы она предоставляет. Например, в отечественной поисковой машине Яндекс (http://www.yandex.ru) введен поиск не только страниц, но и серверов. Суть этого метода заключается в том, что ключевые слова ищутся не по всем страницам, а лишь по их заголовкам (то, что заключено в HTML между тегами «title»). В зарубежной AltaVista сделана отдельная служба Real Names, которая содержит перечень всех зарегистрированных страниц компаний и организаций.

      Следующий важный сервис — это специализация поиска. В настоящее время Интернет является хранилищем разных типов информации. Поэтому и поиск информации тоже может быть формализован. Можно искать исключительно графические изображения, можно — мультимедийные записи в формате MP3 и т.д. На многих поисковых серверах можно задать тип искомой информации. кроме того, существуют и серверы, которые специализируются на поиске информации строго определенного типа. FTPSearch (http://ftpsearch.lycos.com) специализируется исключительно на поиске файлов. Он индексирует всевозможные ftp-серверы на предмет находящихся там файлов. Поиск осуществляется непосредственно по наименованию искомого файла. Аналогично MP3Search (http://mp3.box.sk) специализируется на поиске исключительно файлов в формате MP3.

      Еще одним важным моментом является то, какой язык запросов использует та или иная система. Чем сложнее этот язык — тем более тонкую настройку поиска оказывается возможным провести. В настоящее время не существует единого унифицированного языка запросов для поисковых систем. Разработка такого языка сделала бы возможной интеграцию различных поисковых сервисов в единую сверхсистему поиска. В феврале 1999 был начат проект SESP (Search Engine Standards Project), в котором участвует 15 крупнейших поисковых систем Интернета. В задачу проекта входит стандартизация работы поисковых служб (материалы о нем можно найти по адресу http://www.searchenginewatch.com).

4.5.2. Метапоисковые системы

      Еще одним перспективным направлением развития поисковых сервисов в сети является использование метапоисковых систем. Основа метапоисковых систем — это интерфейс между пользователем и множеством поисковых систем. Метапоисковая система не предназначена для индексирования и накопления информации. назначение ее — чистый поиск и обработка результатов поиска.

      Метасистема позволяет, в соответствии с пожеланиями пользователя, ограничить свой поиск определенными поисковыми серверами, проверять существование ресурсов, на которые указывают результаты поиска, осуществлять уточненный поиск в результатах поиска и т.д. Метапоисковые системы часто называют клиентами к поисковым серверам.

      Примером метапоисковой системы может служить отечественная разработка «ДИСКо Искатель» компании «ДИСКо» (http://www.disco.ru).

      Основной чертой метапоисковых систем нового поколения является объединение поисковых серверов различных специализаций. В рамках одного приложения можно осуществлять поиск информации различного типа. При обработке поискового запроса допускается соединение более чем со 100 поисковыми системами (в т.ч. и со специализированными). Результаты поиска дополнительно обрабатываются: ссылки, дублирующие уже найденные, системой исключаются; полученные адреса проверяются на доступность. Есть возможность конфигурации работы с поисковыми серверами (можно выбрать серверы, с которыми будет работать система, указать максимальное число ссылок, получаемых с каждого сервера и т.д.).

      Однако и в случае использования метапоисковых систем не обойтись без знаний о традиционных поисковых серверах — именно они служат базой для всякого поиска.

doronin2004.narod.ru

Принципы организации и поиска информации в Интернете. Блог. Создать и раскрутить

Принципы организации и поиска информации в Интернете

Два основных способа поиска информации

Существуют два основных способа поиска информации в Интернете – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.

Директории обеспечивают контекстный поиск, тогда как поисковые машины не обеспечивают контекста, однако позволяют находить конкретные слова или фразы. Их можно сравнить с оглавлением книги, а поисковые машины – с предметным указателем.

Крупные современные поисковые системы обычно объединяют в себе как поисковую машину, так и директории. Это хорошо видно на примере первой страницы Яндекса, где ниже поисковой строки размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения вглубь каждой из них.

Чтобы завершить разговор о каталогах, приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес – Реклама – Реклама в Интернете.

Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом, мы не будем подробно останавливаться на технике работы с ними, а уделим дополнительное внимание работе с поисковыми машинами.

Все современные поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают только на уровне технической реализации этих принципов в работе.

Чтобы понять принцип работы поисковой машины, давайте попробуем разделить вопрос на две части: на чем основан поиск и как он реализуется.

Поделитесь на страничке

Следующая глава >

it.wikireading.ru

Электронный учебникПоиск информации в Интернете

Поиск информации в Интернете

Для поиска информации в обычно используются три способа (См. Рис.1). Первый из них — поиск по адресу. Он применяется, когда пользователю известен адрес информационного ресурса, содержащего необходимую ему информацию. При организации поиска информации по адресу (форма адреса — IP, доменный или URL — в этом случае значения не имеет) пользователю достаточно просто ввести адрес ресурса в соответствующее поле браузера – программы, предназначенной для обеспечения доступа к сетевым ресурсам.

Рис. 1. Способы поиска информации в гипертекстовых базах данных

Второй – поиск с помощью навигации по гиперсвязям. При использовании этого вида поиска случае пользователь сначала должен получить доступ к серверу, связанному с соответствующей БД. После этого можно найти документ, используя гиперссылки. Очевидно, что этот способ удобен, когда адрес ресурса неизвестен пользователю. Для использования в качестве исходной точки для поиска при реализации этого способа предназначены Web-порталы — серверы, предоставляющие прямой доступ к некоторому множеству серверов, включая установленные на них информационные ресурсы, а также Web-приложения, которые реализуют Web-сервисы, соответствующие назначению портала. Доступные через портал серверы могут относиться к определенной системе (например — корпоративной) или различным системам и быть специально подобраны по видовому, тематическому или другим признакам документов и данных, содержащихся на их сайтах. Обычно порталы совмещают в себе разнообразные функции с целью удержать клиента как можно дольше. Доминирующим сервисом портала является сервис справочной службы: поиск, рубрикаторы, финансовые индексы, информация о погоде и т.д. Если Web-сайты в большинстве случаев представляют собой наборы статических Web-страниц, то порталы являются совокупностями программных средств и заранее неструктурированной информации, которую эти средства превращают в структурированные данные по запросу конкретных пользователей.

Третий способ поиска предполагает использование поисковых серверов Интернета. Поисковыми серверами называют выделенные хост — компьютеры, в которых размещаются базы данных ресурсов Интернета. Пользовательский интерфейс такого сервера имеет поле для ввода ключевых слов, описывающих тему, интересующую пользователя (См. Рис. 2).

Рис.2. Вид окна поискового сервера системы Яндекс

Эти слова сервер воспринимает как информационный запрос, в соответствии с которым он осуществляет поиск ресурсов и представляет список найденных документов пользователю. Очевидно, что при реализации этого способа возможны ошибки как 1-го (пропуск цели), так и 2-го рода (информационный шум). Следует упомянуть, что различаются две группы поисковых серверов: поисковые машины и предметные каталоги. Их отличие обусловлено способом создания и последующего пополнения базы данных ресурсов Интернета, которой данный сервер осуществляет информационный поиск. Так, поисковые машины имеют в своем составе специальную программу — поисковый робот. Она осуществляет постоянный мониторинг сети, собирает информацию с Web- страниц, индексирует их и фиксирует их поисковый образ в своей базе данных. В предметных каталогах база данных о документах Интернета формируется «вручную» специалистами-редакторами. Поскольку в Интернете отсутствует единое администрирование, постольку его информационные ресурсы постоянно меняются. В нём могут появляться новые и исчезать существующие документы. Частота обновления информации в документах для разных сайтов различна: для некоторых — это несколько раз в час, для некоторых — раз в сутки, день, месяц и т.д. Поэтому очень важно понимать, что при использовании информационно-поисковых систем для нахождения информации в Интернете, поиск осуществляется не на реальном пространстве документов Сети, а в некоторой модели, содержание которой может значительно отличаться от действительного содержания Интернет в момент проведения поиска. По степени охвата индексируемых ресурсов поисковые системы можно разделить на две группы: международные и русскоязычные. Первые индексируют все опубликованные в Интернете документы подряд. Вторые индексируют ресурсы, расположенные в доменных зонах с преобладанием русского языка. Список наиболее популярных систем приведен в Табл. 1.

Табл. 1. Наиболее популярные поисковые системы

Примечание: Рунет – это русскоязычная часть Интернета, составляющая домены с именами ru и рф.

Необходимо упомянуть, что существует особая категория поисковых серверов – метапоисковые системы. Их принципиальное отличие от поисковых машин и предметных каталогов состоит в том, что у них отсутствует собственная индексная база данных, и поэтому они, получив запрос пользователя, перенаправляют его сразу к нескольким поисковым серверам (См. Рис. 3).

Рис. 3. Схема работы метапоисковой системы

Возможность одновременного использования нескольких поисковых серверов по одному запросу является очевидным преимуществом метапоисковых систем. В настоящее широкое применение время нашла система Metabot.ru, интерфейс которой представлен на Рис. 4. Эта система позволяет использовать для поиска ресурсов как международные, так и русскоязычные поисковые серверы.

Рис.4. Окно метапоисковой системы Metabot.ru

 

help.rgsu.net

1 Общие принципы организации поиска информации в сети интернет

1.1 Поиск информации в Интернет: стратегия и методика

Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что мы потратим на чтение первых строк этого раздела, в виртуальной вселенной появится порядка сотни новых или измененных документов, десятки будут перемещены на новые адреса, а единицы — навсегда прекратят свое существование.

Необходимость и важность проблемы информационного поиска привела к образованию в самом Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на кaтaлoги (dirесtоriеs) и пoиcкoвыe мaшины (sеаrсh еnginеs).

Эти разновидности внешне очень похожи, поскольку каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина — собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии/неучастии человека. Поисковые машины запускают в Web программных «пауков» (spiders), которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст. Каталоги же формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации — каталоги или поисковые машины — не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого — постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.

Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью каталогов, можно провести более детальное их обследование, использовав локальный поисковый механизм. Таким образом, для достижения наиболее полных результатов следует применять каталоги и поисковые машины в сочетании друг с другом.

Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с каталогов.

2. Для получения более полных результатов по сложному запросу поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам.

4. Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.

При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью.

studfile.net

Поиск информации в интернете — способы поиска информации с применением языка запросов

Обновлено: 17 ноября 2019, в 18:28

Становимся профессионалами поиска информации в интернете

Всем привет! В сегодняшней статье я расскажу вам о том, как научиться быстрее и качественнее отыскивать нужную вам информацию. Однажды мне, по долгу службы, пришлось выполнять заказ, информации по которому было совсем мало и найти ее было тяжело. Приходилось перелопачивать пол интернета, чтобы найти нужную информацию. Именно в тот момент, я решил поближе познакомиться с расширенными возможностями поисковых систем. В результате знакомства были найдены интересные способы поиска, которые в дальнейшем очень помогли закончить тот сложный  проект.

Содержание статьи

Существуют три основных способа поиска информации в Интернет:

  1. Указание адреса страницы.
  2. Передвижение по гиперссылкам.
  3. Обращение к поисковой системе (поисковому серверу).

О последнем пункте и поговорим дальше. В этой статье речь пойдет об известных поисковиках, о принципах их работы и о расширенных возможностях поисковых систем. Вы узнаете некоторые интересные способы поиска и получите массу полезных советов, которые непременно облегчат вам поиск нужной информации в интернете.

Как работают системы веб-поиска

По данным сервиса статистики LiveInternet.ru распределение поисковых систем в России примерно следующее:

  1. Яндекс — 53.9%
  2. Гугл — 35.0%
  3. Поиск Mail.ru — 8.3%
  4. Рамблер — 0.9%
  5. Яндекс (картинки) — 0.6%
  6. Гугл (картинки) — 0.2%
Данные сервиса статистики LiveInternet.ru

Теперь, чтобы лучше понять, как работают поисковые системы, сделаем краткий обзор механизма работы. Поисковая система работает в следующем порядке:

  • Сбор данных поисковым роботом пауком (Web crawling)
  • Индексация найденных данных (Indexing)
  • Поиск по индексированным данным (Searching)

Сбор данных поисковым роботом пауком

Обычно делится на 2 этапа – скачивание веб-страницы и анализ ссылок. Первый этап выполняет Spider (быстрый поисковый паук) – программа для последовательного перебора и скачивания веб-страниц для анализа. Она получает веб-страницы с сайтов по определенному алгоритму и отдает их другой программе Crawler-у. После этого в дело вступает Crawler (медленный паук анализатор), который находит все ссылки и составляет дальнейший маршрут для spider-а. У spider-а есть определенный список сайтов для посещения, заранее подготовленный другими подсистемами поиска. Из этого списка spider получает все необходимые данные.

Индексация найденных данных

После того, как проходит первый этап, в дело вступает вторая подсистема – подсистема индексации. Она размещает найденную пауками информацию так, чтобы было удобно в дальнейшем к ней обращаться. Для этого программа Индексатор разбирает страницу на различные ее части и анализирует их. Из страницы выделяются заголовки страниц, ссылки, текст, структурные элементы и т.д. Все полученные данные структурируются по определенному алгоритму и затем полученные данные заносятся в базу данных.

Поиск по индексированным данным

Эта подсистема выдачи результатов, которая использует сформированную индексатором базу данных. Она определяет, какие страницы удовлетворяют запросу пользователя и показывает результаты поиска. Когда вы вводите ключевое слово и делаете поиск, поисковая система отбирает результаты на основании следующих критериев:

  1. Title (заголовок): Есть ли ключевое слово в заголовке?
  2. Domain/URL (Домен/адрес): Есть ли ключевое слово в имени домена или в адресе страницы?
  3. Style (стиль): Анализ стиля текста на страницы. Используется ли Жирный текст или Курсив, используются ли заголовки h2, h3 и т.д.
  4. Density (плотность): Как часто употреблено ключевое слово на странице? Какова величина плотности ключевого слова?
  5. MetaInformation (мета данные) – поиск совпадений в метаданных.
  6. Outbound Links (ссылки наружу): Есть ли ссылки на странице и на кого они ведут, а также встречается ли ключевое слово в тексте ссылки?
  7. Inbound Links (внешние ссылки): Кто ссылается на искомую страницу? Каков текст ссылки?
  8. Insite Links (ссылки внутри страницы): На какие страницы данного сайта содержит ссылки эта страница?

В результате этого сравнения подсистема поиска выбирает нужные веб-страницы и показывает их пользователю, который осуществляет поиск.

Что можно найти через поисковики

Технически найти можно любую информацию, которая проиндексирована поисковиком, находиться в общем доступе в сети интернет и не запрещена политикой поисковой системы. При поиске в интернете имейте ввиду следующее:

  • Большая часть информации в интернете не контролируется и любой человек с компьютером и доступом в интернет может публиковать информацию. Поэтому нужно понимать, что данные могут быть недостоверными.
  • Не всегда легко узнать кто автор найденной информации.
  • Вы не всегда знаете откуда приходит информация.
  • Информация может быть предвзятой, специально вводящей в заблуждение или просто неверной.
  • Дата публикации данных может быть не указано и будет трудно понять, является ли информация актуальной.

Чаще всего люди ищут через поиск (расположено примерно по убыванию):

  1. Всевозможные социальные сети – Вконтакте, Facebook, Одноклассники, mail.ru и т.д
  2. Порно
  3. Фильмы
  4. Картинки
  5. Музыку
  6. Интернет
  7. Авто
  8. Youtube
  9. Игры онлайн
  10. Компьютеры
  11. Деньги, финансы
  12. Отдых
  13. Недвижимость
  14. Спорт
  15. Реклама
  16. Строительство
  17. Здоровье
  18. Информацию о знаменитостях
  19. Приготовление еды, кулинария
  20. Логистика
  21. Заработок в интернете

Примерно 2-3% от всех введенных запросов обычно сформулированы как вопрос. Больше всего вопросительных запросов начинаются с:

  • какой
  • сколько
  • кто

В последнее время все больше запросов (около 10%) стали содержать прямое указание – купить, продать или получить что-то. Самые распространённые уточнения сегодня в рунете – это скачать и бесплатно. Примерно 4% от всех запросов. Самыми часто встречающимися ошибками при поиске – ошибки, возникающие из-за неверной раскладки клавиатуры, недописанные запросы и синтаксические ошибки.]

Методы поиска информации в интернете

5 полезных способов поиска в Google

Итак, давайте рассмотрим несколько хитрых способов поиска информации через поисковую систему. Для примера, используем Google (наверное не совсем удачный пример, ну да ладно 🙂 ).

Ситуация 1 – Поиск по изображению: Есть изображение или логотип какой-то программы или компании и вы хотите найти подробную информацию о нем.

Приведу пример. Я однажды увидел на стенах во дворе примерно следующее изображение:

Значок пацифистов

и никак не мог вспомнить, откуда оно взялось. Написать в поиске – «Кружочек, внутри которого палочка и еще 2 палочки» вряд ли что-нибудь дал 🙂 . Вот здесь и приходит нам на помощь сервис поиска картинок по цифровому коду изображения от Google. Рисуем на скорую руку изображение в любом графическом редакторе и перетаскиваем его в поиск гугл по картинкам.

 

Поиск по картинке

Обычно, в результатах поиска по картинкам можно всегда найти искомое, главное — это более-менее сносно нарисовать. Т.к. художник из меня никакой, то результаты поиска оставлю в секрете 🙂

Другой пример. Есть логотип компании, например такой:

Логотип Инфинити

Логотип лишь для примера, потому как его наверное многие знают. Перетаскиваем его мышкой в поле для поиска и видим что получилось:

Поиск компании по логотипу

Иногда изображения наложены друг на друга в одной картинке. Чтобы найти по нужному изображению, придется его аккуратно скопировать каким-нибудь графическим редактором, выделив нужную область. Если вы хорошо владеете каким-нибудь графическим редактором, то прежде чем искать по изображению, можно его обработать и почистить от лишнего «шума». Тогда результат поиска будет намного качественнее.

Ситуация 2 – Поиск внутри файлов с определенным расширением. Для того, чтобы искать текст в файлах, нужно ввести в поисковую строку следующую команду: filetype:xls искомый текст. Xls в данном случае – это расширение файлов Excel. Т.е. поисковая машина будет искать текст внутри файлов с указанным расширением. Например: filetype:xls отчет. В итоге получаем все Excel файлы, в которых встречается слово отчет:

Поиск по типу файла

Таким образом можно, например скачать шаблон какого-нибудь документа, ну или сам документ 🙂 , если его специально в общий доступ положили или просто забыли защитить.

Для поиска доступны следующие типы файлов:

  • pdf – поиск указанного текста внутри pdf файлов
  • dwf – файлы программы AutoCAD
  • ps – файлы Adobe Post Script, специальные сценарии для вывода высококачественной векторной графики на принтеры и плоттеры
  • kml и kmz – файлы программы Гугл Планета Земля(Google earth)
  • xls – файлы программы Microsoft Office Excel
  • ppt – файлы программы Microsoft Office Power Point
  • doc – файлы программы Microsoft Office Word
  • rtf – файлы Rich Text Format, поддерживаемые большинством текстовых редакторов
  • swf – файлы проигрывателя флеш-плеера Shockwave Flash
  • txt – поиск внутри обычных текстовых файлов

Ситуация 3 – Ищем точное вхождение поисковой фразы. Иногда нужно найти точное вхождение фразы в каком то тексте. В принципе здесь два пути. Первый подход – вводите в поисковую строку точную и достаточно длинную поисковую фразу и поисковик найдет текст, который наиболее точно содержит то, что мы ищем. Чем больше и точнее будет поисковый запрос, тем более точное совпадение найдет поисковая машина (если конечно такая информация присутствует в сети интернет).

Второй подход – обрамлять кавычками поисковую фразу. В этом случае фраза может состоять из небольшого количества слов. Например, вводим – “Большие города”, получаем:

Поиск по точному вхождению фразы

Но если мы попытаемся ввести между этими двумя словами в кавычках что-то бессмысленное, то поиск не даст результатов. И даже если вставить одну бессмысленную букву, поиск не даст результатов, хотя поисковая система и попытается предложить нам подходящие варианты.

Ситуация 4 – Поиск информации только по одному определенному сайту или домену. Если вам нужно найти информацию по определенному сайту, то… можно воспользоваться поиском, который есть на сайте ну или попробовать найти что-то при помощи поисковый системы Google. Глядишь, и найдется что-то, что не хотел (или не смог) искать встроенный в сайт поиск. Для этого вводим в поисковую строку следующее выражение: Разное site:livejournal.ru  Разное – это текст, который вы ищете, все что после site: это доменное имя сайта, на котором нужно искать.

Поиск по сайту

Тот же механизм работает для доменов. Вместо имени сайта можно указать в каком домене искать информацию, например: Закон site:gov, где .gov — общий домен верхнего уровня для правительственных организаций.

Ситуация 5 – Поиск информации по электронной почте. Иногда необходимо найти информацию по человеку или организации, но на руках есть только адрес электронного почтового ящика (email). Если ввести в поисковую строку адрес почтового ящика, то можно найти все сайты и ресурсы, где человек оставлял свой email. Можно также найти домены, которые зарегистрированы на этот ящик.

Поиск по email

Еще один способ поиска – это использование оператора *, который позволяет заполнить поисковый запрос произвольным текстом и частью почтового адреса. Например можно найти почтовые ящики сотрудников компании, написав *@имякомпании.ru, для примера *@microsoft.com

7 полезных советов при поиске информации

  1. Составлять поисковый запрос нужно так, чтобы максимально сузить количество вариантов в выдаче
  2. Используйте фильтрацию по времени – это позволит найти более-менее актуальную информацию. Благо сейчас все крупные поисковые системы предоставляют расширенный поиск, в котором можно установить диапазон дат.
  3. Корректный вопрос, задаваемый поисковику, должен состоять как минимум из двух ключевых слов тогда поисковику будет гораздо проще отыскать нужную информацию
  4. Для поиска информации используйте разные поисковые машины. Несмотря на то, что все поисковики построены на общих принципах, алгоритмы у них могут различаться. Поэтому может случиться так, что то, что не смог найти Yandex, выдаст Google
  5. Если вы ищете какие-либо товары или услуги в вашем городе, уточняйте регион поиска(например Москва). Это уменьшит количество результатов, но найденные результаты будут более релеванты вашим поисковым запросам
  6. Используйте больше существительных для поиска.
  7. Используйте синонимы, если по запросу не было найдено то, что нужно

Главный фактор успешного и быстрого поиска – это формулировка запроса для поисковой системы. Если вы умеете сообразить, какие нужны ключевые слова для устраивающего вас результата – вы король поиска!

«Горячий» расширенный поиск от Google. 16 способов

Некоторые методы я уже затрагивал выше, некоторые еще нет. Привожу для полноты весь список.

Исключение из Google поиска

Чтобы исключить из поисковой выдачи какое либо слово, фразу, символ и т.п., достаточно перед ним поставить знак “-” (минус), и оно не появится в результатах поиска. Для примера, я ввёл в строку поиска следующую фразу: “бесплатный хостинг – ru” и в поисковой выдаче нет ни одного .ru сайта, кроме оплаченных рекламных объявлений.

Поиск по синонимам

Используйте символ “~” для поиска схожих слов к выбранному. Например в результате выражения: “~лучшие фильмы -лучшие” вы увидите все ссылки на страницы, содержащие синонимы слова “лучшие”, но ни одно из них не будет содержать этого слова.

Неопределённый поиск

На тот случай, если вы не определились с конкретным ключевым словом для поиска, поможет оператор “*”. Например фраза “лучший редактор * изображений” подберёт лучшие редакторы для всех типов изображений, будь то цифровые, растровые, векторные и т.д.

Поиск на выбор из вариантов

Используя оператор “|”, можно осуществить Google поиск по нескольким сочетаниям фраз, заменяя несколько слов в различных местах. Например, введём фразу “купить чехол | ручку” выдаст нам страницы, содержащие либо “купить чехол”, либо “купить ручку”

Значение слова

Чтобы узнать значение того или иного слова, достаточно ввести в поисковую строку “define:” и после двоеточия искомую фразу.

Точное совпадение

Для нахождения точного совпадения поисковой выдачи с запросом достаточно заключить ключевики в кавычки.

Поиск по определённому сайту

Чтобы осуществить поиск ключевых слов только по одному сайту, достаточно прибавить к искомой фразе следующий синтаксис – “site:”.

Обратные ссылки

Чтобы узнать расположение ссылок на интересующий сайт, достаточно ввести следующий синтаксис: “links:” и далее адрес интересующего сайта.

Конвертер величин

Поисковая система Google также умеет конвертировать величины по запросу пользователя. Например, нам нужно узнать, сколько составляет 1 кг в фунтах. Набираем следующий запрос: “1 кг в фунтах”

Конвертер валют

Для того, чтобы узнать курс валют по официальному курсу, набираем следующий поисковой запрос: “1 [валюта] в [валюта]”

Время по городу

Если хотите узнать время по какому либо городу, то используйте синтаксис: “time” или русский аналог “время” и название города.

Google калькулятор

Google умеет считать онлайн! Достаточно вбить пример в строку поиска и он выдаст результат.

Поиск по типам файлов

Если вам необходимо найти что-то по конкретному типу файла, то у Google есть оператор “filetype:” который осуществляет поиск по заданному расширению файла.

Поиск кэшированной страницы

У Google есть собственные сервера, где он хранит кэшированные страницы. Если нужна именно такая, то воспользуйтесь оператором: “cached:”

Прогноз погоды по городу

Ещё одним оператором поиска у Google является оператор погоды. Достаточно вбить “weather” и город, как вы увидите, будет у вас дождь или нет

Переводчик

Можно переводить слова сразу, не отходя от поисковика. За перевод отвечает следующий синтаксис: “translate [слово] into [язык]”

P.S. Комбинируя различные варианты параметров можно очень сильно сократить диапазон поиска и найти то что нужно. Надеюсь, приведенные выше примеры помогут вам в поиске информации.

promotiger.ru

Leave a Reply

Your email address will not be published. Required fields are marked *