Всемирная паутина www: гипертекст, поисковые машины

Реферат выполнила: студентка 238 группы Мельник О. Н.

Санкт-петербургский государственный университет экономики и финансов

Санкт – Петербург 2009 г.

Всемирная Паутина - это совокупность информационных ресурсов, связанных средствами телекоммуникаций и основанных на гипертекстовом представлении данных, разбросанных по всему миру. Всемирная Паутина также обозначается как WWW (World Wide Web), W3 или просто Web.

Единицей гипертекстовых данных Всемирной Паутины является Web-страница - минимальный фрагмент гипертекста, который можно загрузить и прочитать за один раз. Web- страница содержит текст, графику и ссылки на другие Web- страницы.

Для идентификации гипертекстовой страницы в Сети используется так называемый URL - Universal Resource Locator - Универсальный Локатор Ресурсов. В нем содержится информация о способе передачи данных между клиентом и сервером (протоколе), имени сервера, на котором находится страница, пути в дереве каталогов сервера, по которому находится страница и имени страницы.

Для представления Web-страниц используется специальный язык разметки гипертекста – HTML (Hypertext Markup Language). Конструкции этого языка – тэги – позволяют управлять шрифтом, цветом текста и фона, определять ссылки, вставлять графику, аудио и видео и т.п. Сами тэги при чтении страницы не видны, а видны только результаты их действия. Если сравнить, как выглядит страница в исходном тексте и она же на экране браузера, то порой удивительно, насколько велики различия.

Клиента для WWW называют браузером. Браузер – это программа, которая загружает и, интерпретируя тэги HTML, показывает в своем окне WWW-страницы. Браузер отображает картинки в теле страницы, проигрывает аудио и видео, загружает следующую страницу, когда пользователь щелкает мышью по ссылке и пр. и пр. для того, чтобы сделать путешествие по Всемирной Паутине как можно более комфортным.

Гипертекст и web-страницы

Гипертекст (Hypertext) - это документ (в первую очередь текстовый), содержащий гиперссылки. Гиперссылка - это связь слова или содержащегося в документе изображения с другим ресурсом, которым может быть как еще один документ, так и раздел текущего документа. Подобные "связанные" слова или картинки документа, как правило, выделяются по оформлению из общего текста. Общепринятой является практика подчеркивания слова или предложения, связанного гиперссылкой.

Сам термин "гипертекст" появился с возникновением электронных документов, задолго до появления службы WWW. Поскольку современные электронные документы содержат не только текст, но и мультимедиа-информацию, понятие гипертекста было расширено до понятия гипермедиа. Гипермедиа - это метод организации мультимедиа-информации на основе ссылок на разные типы данных. Гипермедиа-документы могут использоваться не только в WWW, но и, например, в электронной энциклопедии на CD-ROM, где ссылка в тексте часто ведет на аудио- или видеоролик.

Особенно продуктивной идея гипертекста оказалась применительно к объединению цифровой информации, распределенной на серверах во всем мире. Документ, доступный через Web, называют Web-страницей, а группы страниц, связанных общим именем, темой и объединенных навигационно, - Web-сайтами. Первую страницу, которую видит пользователь при обращении на тот или иной ресурс, называют стартовой, домашней или индексной страницей (home page). Система гиперссылок определяет структуру Web-сайта. Страницы на сайте могут иметь линейную древовидную структуру, но чаще на каждой странице имеется несколько ссылок, что и позволяет говорить о структуре "паутина" (см. рис. 1)

Рисунок 1

Поиск информации в Internet

Как правило, последовательность поиска информации в Internet выглядит следующим образом:

Конкретизируется область поиска, выделяются ключевые слова, характерные для интересующей области. Рекомендуется по возможности подбирать такие слова, которые не используются ни в каких других областях деятельности или знания.

На поисковый сервер посылается запрос, сформированный из ключевых слов. На многих поисковиках имеется возможность конкретизировать область поиска путем выбора соответствующих пунктов предлагаемых меню.

Так или иначе, от сервера приходит список ссылок на WWW- страницы, в которых обнаружены запрошенные слова с кратким описанием каждой из них или просто с небольшим начальным фрагментом страницы.

Далее следует исследование подходящих (судя по заголовку или описанию) страниц. Здесь начинается “свободное плавание”, то есть переход по ссылкам с текстом, который обещает нечто интересное.

Сохранение на диске интересующего материала.

Отыскать нужную информацию в Седьмом океане - океане информации было бы просто невозможно если бы не существовало поисковых серверов. Такие серверы предоставляют возможность поиска страниц по ключевому слову или в иерархическом дереве каталога. Существуют как чисто англоязычные и русскоязычные, так и смешанные серверы. Документов на английском языке в Internet гораздо больше, чем на русском, поэтому имеет смысл посетить также и западные поисковики.

Для поиска информации по ключевому слову на поисковый сервер посылается запрос. Запрос формируется автоматически - нужно только ввести слова в поле ввода, выбрать нужные опции поиска и нажать кнопку. Обратно приходит Web-страница с отчетом о результатах поиска. Так как список найденных документов может быть очень большим, он разбивается на фрагменты по 10-100 элементов (на каждом сервере по-разному), а в конце отчета приводятся ссылки на следующие фрагменты списка.

Каждый элемент отчета формируется следующим образом:

- в начале идет заголовок документа являющийся также и ссылкой на этот документ (если у документа нет заголовка - - может быть и такое - - то здесь помещается надпись 'No title');

- далее следует небольшой фрагмент самого документа по которому практически всегда можно понять, о чем идет речь в документе и, следовательно, подходит он вам или нет;

- и, наконец, список URL данного документа (один и тот же документ может быть продублирован по разным адресам).

Чтобы перейти к документу, достаточно щелкнуть либо по ссылке с текстом заголовка, либо по одной из ссылок с URL. Кстати, единственный поисковик, который выдает пользователю не фрагмент документа, а настоящую аннотацию (на английском языке), написанную людьми - это Yahoo.

Второй метод отыскания документов, предоставляемый поисковыми серверами - - поиск по каталогам. Практически на всех поисковых машинах есть такие каталоги (исключение - - Altavista, Rambler). В таких каталогах вся область знаний разбивается на несколько крупных подобластей, например, искусство, бизнес, компьютеры, образование, спорт, политика, путешествия, здоровье и т.д. и т.п. Дале каждая такая подобласть разбивается на более мелкие разделы и подразделы. Таким образом в процессе поиска вы на каждом шаге будете уточнять искомое понятие, сужая область поиска, пока не получите список ссылок на документы, уже более соответствующих нужной вам теме.

Наиболее популярными англоязычными