Гипертекстовые способы хранения и представления информации
1. ОСНОВЫ ЯЗЫКА РАЗМЕТКИ ГИПЕРТЕКСТА (HTML). БАЗОВЫЕ ПОНЯТИЯ
Hyper Text Markup Language (HTML) является стан¬дартным языком, предназначенным для создания ги-пертекстовых документов в среде Web. HTML-документы могут просматриваться различными типами браузеров (специальными программами, интерпретирующими та¬кого рода гипертекстовые документы), наиболее извест¬ным из которых является Internet Explorer. В отличие от документов, например текстового процессора Microsoft Word, документы в формате HTML не орга¬низованы по принципу WYSIWYG (What You See Is What You Get — что видишь, то и получишь [при вы¬воде на печать или монитор] ). Когда документ создан с использованием HTML, браузер должен интерпретиро¬вать HTML для выделения различных элементов доку¬мента и первичной их обработки с целью их дальней¬шего отображения в виде, задуманном автором. Большинство документов имеют стандартные элемен¬ты, такие, как заголовки, параграфы или списки. Ис¬пользуя тэ-ги (команды) HTML, можно обозначать дан¬ные элементы, обеспечивая браузеры минимальной ин¬формацией для их отобра-жения, сохраняя в целом об¬щую структуру и информационную полноту докумен¬тов. В большинстве случаев автор докумен-та строго оп¬ределяет внешний вид документа. В случае HTML чита¬тель (основываясь на возможностях браузера) может в определенной степени управлять внешним видом доку¬мента (но не его содержимым). HTML позволяет от¬метить, где в до-кументе должен быть заголовок или аб¬зац, при помощи тэга HTML, а затем предоставляет браузеру интерпретировать эти тэги. Общая структура тэга и его содержимого такова: <тэг параметр_1=значение_1 параметр_2=значение_2 ... пара-метр_К=значение_К>содержимое элемента</тэг> Любой HTML-документ имеет следующую структуру: <HTML> <HEAD> <!-- заголовок документа --> </HEAD> <BODY> <!-- содержание документа --> </BODY> </HTML> Заголовок содержит служебную информацию, в част¬ности, предназначенную для поисковых систем. Все тэги, которые предназначены для оформления до¬кумента, могут быть условно разделены на несколько групп: • форматирование; • верстка таблиц; • верстка списков; • формирование гиперссылок; • вставка изображений. Тэт верстки, таблиц позволяют формировать и отобра¬жать таблицы произвольной сложности. Вообще дизайне¬ры довольно часто используют таблицы для оформления страниц, помещая в них меню, текст, рисунки и т.д. Тэги верстки списков позволяют формировать мар¬кированные и нумерованные списки. Гипертекстовый документ невозможно представить себе без ссылок на другие документы (внутренние или внешние). Ссылки формирует тэг <А>...</А> -с обязательным параметром HREF. Тэг для отображения рисунков — <IMG>. Он не имеет закрывающегося тэга и содержит обязательный параметр SRC, значением которого является адрес фай¬ла с рисунком {относительный, т.е. на данном сайте, но, например, в другом каталоге, или абсолютный, если рисунок, например изображение счетчика, подгружает¬ся с другого сайта). Современные web-конструкторы и дизайнеры пользу¬ются не только HTML, но и рядом его расширений, например, каскадными таблицами стилей (CSS), уп¬равляют содержанием страниц средствами программи¬рования. Желательно изложить Примеры других программных продуктов для раз¬метки документов, принцип их действия. Заголовок HTML-документа и назначение его эле¬ментов. Тэги форматирования текста и примеры их исполь¬зования. Тэги верстки таблиц и примеры их использования. Тэги верстки списков и примеры их использования. Графические форматы для web. Правила сохранения изображений для web, требования к изображениям. Па¬раметры тэга IMG. Понятие о CSS, языках программирования для web. Исполнение программ и скриптов на стороне сервера и клиента. Примечания для учителей Вопрос билета является в достаточной мере объем¬ным, , поэтому наилучшее запоминание и усвоение ма¬териала может быть достигнуто хорошей его структу¬ризацией. Следует отметить, что учащиеся, занимавшиеся верст¬кой web-страниц без использования визуальных редакторов (Front Page и др.), окажутся в гораздо более выигрышном положении перед учащимися, выполнявшими такого рода работу только с помощью указанных редакторов.
2. ПОНЯТИЕ И ОСНОВНЫЕ ЭЛЕМЕНТЫ ГИПЕРТЕКСТОВОЙ ТЕХНОЛОГИИ
К 1989 году гипертекст представлял новую, многообещающую технологию, которая имела относительно большое число реализаций с одной стороны, а с другой стороны делались попытки построить формальные модели гипертекстовых систем, которые носили скорее описательный характер и были навеяны успехом реляционного подхода описания данных. Идея Т.Бернерс-Ли заключалась в том, чтобы применить гипертекстовую модель к информационным ресурсам, рас-пределенным в сети, и сделать это максимально простым способом. Он заложил три краеугольных камня системы из четы-рех существующих ныне, разработав: язык гипертекстовой разметки документов HTML (HyperText Markup Language); универсальный способ адресации ресурсов в сети URL (Universal Resource Locator); протокол обмена гипертекстовой информацией HTTP (HyperText Transfer Protocol). Позже команда NCSA добавила к этим трем компонентам четвертый: универсальный интерфейс шлюзов CGI (Common Gateway Interface). Идея HTML - пример чрезвычайно удачного решения проблемы построения гипертекстовой системы при помощи специаль-ного средства управления отображением. На разработку языка гипертекстовой разметки существенное влияние оказали два фактора: исследования в области интерфейсов гипертекстовых систем и желание обеспечить простой и быстрый способ создания гипертекстовой базы данных, распределенной на сети. В 1989 году активно обсуждалась проблема интерфейса гипертекстовых систем, т.е. способов отображения гипер-текстовой информации и навигации в гипертекстовой сети. Значение гипертекстовой технологии сравнивали со значением книгопечатания. Утверждалось, что лист бумаги и компьютерные средства отображения/воспроизведения серьезно отлича-ются друг от друга, и поэтому форма представления информации тоже должна отличаться. Наиболее эффективной формой организации гипертекста были признаны контекстные гипертекстовые ссылки, а кроме того было признано деление на ссыл-ки, ассоциированные со всем документом в целом и отдельными его частями. Самым простым способом создания любого документа является его набивка в текстовом редакторе. Опыт создания хорошо размеченных для последующего отображения документов в CERN-е был - трудно найти физика, который не пользо-вался бы системой TeX или LaTeX. Кроме того к тому времени существовал стандарт языка разметки - Standard Generalised Markup Language (SGML). Следует также принять во внимание, что согласно своим предложениям Т.Бернерс-Ли предполагал объединить в единую систему имеющиеся информационные ресурсы CERN, и первыми демонстрационными системами должны были стать системы для NeXT и VAX/VMS. Обычно гипертекстовые системы имеют специальные программные средства построения гипертекстовых связей. Сами гипертекстовые ссылки хранятся в специальных форматах или даже составляют специальные файлы. Такой подход хорош для локальной системы, но не для распределенной на множестве различных компьютерных платформ. В HTML ги-пертекстовые ссылки встроены в тело документа и хранятся как его часть. Часто в системах применяют специальные форма-ты хранения данных для повышения эффективности доступа. В WWW документы - это обычные ASCII- файлы, которые можно подготовить в любом текстовом редакторе. Таким образом, проблема создания гипертекстовой базы данных была решена чрезвычайно просто. В качестве базы для разработки языка гипертекстовой разметки был выбран SGML (Standard Generalised Markup Language). Следуя академическим традициям, Бернерс-Ли описал HTML в тер-минах SGML (как описывают язык программирования в терминах формы Бекуса-Наура). Естественно, что в HTML были реализованы все разметки, связанные с выделением параграфов, шрифтов, стилей и т. п., т.к. реализация для NeXT подразу-мевала графический интерфейс. Важным компонентом языка стало описание встроенных и ассоциированных гипертексто-вых ссылок, встроенной графики и обеспечение возможности поиска по ключевым словам. С момента разработки первой версии языка (HTML 1.0) прошло уже пять лет. За это время произошло довольно серьезное развитие языка. Почти вдвое увеличилось число элементов разметки, оформление документов все больше при-ближается к оформлению качественных печатных изданий, развиваются средства описания не текстовых информационных ресурсов и способы взаимодействия с прикладным программным обеспечением. Совершенствуется механизм разработки типовых стилей. Фактически, в настоящее время HTML развивается в сторону создания стандартного языка разработки ин-терфейсов как локальных, так и распределенных систем. Вторым краеугольным камнем WWW стала универсальная форма адресации информационных ресурсов. Universal Resource Identification (URI) представляет собой довольно стройную систему, учитывающую опыт адресации и идентификации e-mail, Gopher, WAIS, telnet, ftp и т. п. E-mail (Electronic mail) - электронная почта (простонародн. - электронный аналог обычной почты). Gopher - это интегратор возможностей Internet. Он в удобной форме позволяет пользоваться всеми услугами, пре-доставляемыми Internet. WAIS - диалоговая система с оконным интерфейсом для поиска данных по ключевым словам в контексте. Telnet имеет и свой собственный набор команд, которые управляют собственно этой программой, т.е. сеансом связи, его параметрами, открытием новых, закрытием и т.д.; эти команды подаются из командного режима telnet, в который можно перейти, нажав так называемую escape-последовательность клавиш, которая вам сообщается при достижении удаленной машины. Ftp (File Transfer Protocol) - протокол передачи файлов - протокол, определяющий правила передачи файлов с одного компьютера на другой. ftp - также название программы из прикладного обеспечения. Использует протокол ftp для того, чтобы пересылать файлы. Но реально из всего, что описано в URI, для организации баз данных в WWW требуется только Universal Resource Locator (URL). Без наличия этой спецификации вся мощь HTML оказалась бы бесполезной. URL используется в гипертек-стовых ссылках и обеспечивает доступ к распределенным ресурсам сети. В URL можно адресовать как другие гипертексто-вые документы формата HTML, так и ресурсы e-mail, telnet, ftp, Gopher, WAIS, например. Различные интерфейсные про-граммы по разному осуществляют доступ к этим ресурсам. Одни, как например Netscape, сами способны поддерживать взаимодействие по протоколам, отличным от протокола HTTP, базового для WWW, другие, как например Chimera, вызыва-ют для этой цели внешние программы. Однако, даже в первом случае, базовой формой представления отображаемой инфор-мации является HTML, а ссылки на другие ресурсы имеют форму URL. Следует отметить, что программы обработки элек-тронной почты в формате MIME также имеют возможность отображать документы, представленные в формате HTML. Для этой цели в MIME зарезервирован тип "text/html". Третьим в списке стоит протокол обмена данными в World Wide Web - HyperText Transfer Protocol. Данный протокол предназначен для обмена гипертекстовыми документами и учитывает специфику такого обмена. Так в процессе взаимо-действия, клиент может получить новый адрес ресурса на сети (relocation), запросить встроенную графику, принять и пере-дать параметры и т. п. Управление в HTTP реализовано в виде ASCII-команд. Реально разработчик гипертекстовой базы данных сталкивается с элементами протокола только при использовании внешних расчетных программ или при доступе к внешним относительно WWW информационным ресурсам, например базам данных. Последняя составляющая технологии WWW - это уже плод работы группы NCSA - спецификация Common Gateway Interface. CGI была специально разработана для расширения возможностей WWW за счет подключения всевозможного внешнего программного обеспечения. Такой подход логично продолжал принцип публичности и простоты разработки и наращивания возможностей WWW. Если команда CERN предложила простой и быстрый способ разработки баз данных, то NCSA развила этот принцип на разработку программных средств. Надо заметить, что в общедоступной библиотеке CERN были модули, позволяющие программистам подключать свои программы к серверу HTTP, но это требовало использования этой библиотеки. Предложенный и описанный в CGI способ подключения не требовал дополнительных библиотек и бук-вально ошеломлял своей простотой. Сервер взаимодействовал с программами через стандартные потоки ввода/вывода, что упрощает программирование до предела. При реализации CGI чрезвычайно важное место заняли методы доступа, описанные в HTTP. И хотя реально используются только два из них (GET и POST), опыт развития HTML показывает, что сообщество WWW ждет развития и CGI по мере усложнения задач, в которых будет использоваться WWW- технология.
3. ШИРОТА ПРИМЕНЕНИЯ ГИПЕРТЕКСТА
Идея HTML - пример чрезвычайно удачного решения проблемы построения гипертекстовой системы при помощи специального средства управления отображением. На разработку языка гипертекстовой разметки существенное влияние оказали два фактора: исследования в области интерфейсов гипертекстовых систем и желание обеспечить простой и быстрый способ создания гипертекстовой базы данных, распределенной на сети. В 1989 году активно обсуждалась проблема интерфейса гипертекстовых систем, т.е. способов отображения гипер-текстовой информации и навигации в гипертекстовой сети. Значение гипертекстовой технологии сравнивали со значением книгопечатания. Утверждалось, что лист бумаги и компьютерные средства отображения/воспроизведения серьезно отлича-ются друг от друга, и поэтому форма представления информации тоже должна отличаться. Наиболее эффективной формой организации гипертекста были признаны контекстные гипертекстовые ссылки, а кроме того было признано деление на ссылки, ассоциированные со всем документом в целом и отдельными его частями. Гипертекст широко используется при написании страниц WWW в службе глобального соединения. Здесь с помо-щью языка разметки в текстах страниц в местах ассоциированных связей делаются гипертекстовые ссылки. Они не видны на экране, но благодаря им компьютер находит следующую страницу, требуемую пользователем. Выделяют две группы гипертекстов. Открытый, в который можно включать объекты, не предусмотренные его авто-ром, и динамический, увеличение которого является нормальным способом его существования. Большой гипертекст может быть расположен в нескольких абонентских системах сети. В этих случаях взаимодейст-вие компонентов определяется протоколом. Так, в сети Internet им является гипертекстовый протокол передачи. Создается гипертекст в три этапа: идеи (их сбор), план (связь идей) и реализация ветвящейся структуры гипертекста. В свою очередь, созданный гипертекст может развиваться и далее, обеспечивая основу для базы знаний. Гипертекст используется в обучающих системах и дистанционном обучении. В тех случаях, когда к блокам текста добавляется большое число изображений и записи звука, гипертекст превращается в гиперсреду. Простейший пример гипертекста - это любой словарь или энциклопедия, где каждая статья имеет гиперссылки к другим статьям этого же словаря. В результате читать такой текст можно по-разному: от одной статьи к другой, игнорируя гипертекстовые ссылки; читать статьи подряд, периодически просматривая другие статьи, руководствуясь гиперссылками; наконец, пуститься в гипертекстовое "плавание", т.е. от одной гиперссылки переходить к другой и при помощи слов и слово-сочетаний осуществить навигацию через все остальные статьи, образующие гипертекст.