розмітка документів

розмітка документів

Книга присвячена розробці додатків для перетворення XML-документів з використанням XSLT - розширюваної мови стилів для перетворень. Обговорюється застосування мов XSLT і XPath у вирішенні практичних завдань: висновку документів в форматі HTML, використання декількох кодових для інтернаціоналізації і, зокрема, русифікації додатків, питань ефективності існуючих підходів для вирішення проблем перетворення. Для ілюстрації матеріалу використовується велика кількість прикладів.

Для початківців і професійних програмістів

Книга: Технологія XSLT

розмітка документів

Розділи на цій сторінці:

Ідея розмітки полягає в тому, щоб використовувати для виділення частин документа прості текстові мітки, звані тегами. Теги розмежовують документ, виділяючи в ньому частини і привласнюючи їм деякі особливості (наприклад, вказуючи на те, що частина тексту треба підкреслити).

Простим прикладом мови розмітки є вже, швидше за все, знайомий Новомосковсктелю HTML - мова розмітки гіпертексту. В HTML заданий набір тегів для візуального форматування документа, наприклад:

вміст

- виділяє вміст, як параграф;


- задає перенесення рядка;

вміст - виділяє вміст напівжирним шрифтом;

вміст - виділяє вміст курсивом;

вміст - підкреслює вміст.

Теги можуть бути парними і одиночними. Парні теги (наприклад, вміст ) Виділяють частину документа, поодинокі (наприклад,
) Задають якусь інструкцію.

У попередньому прикладі текст може бути розмічений таким чином.

Тепер цей документ несе в собі не тільки дані про комерційну пропозицію, а й примітивну інформацію про те, як він повинен виглядати візуально. Це робить документ більш зрозумілим, але зрозумілим для людини, а не для машини. Словосполучення "швидке охолодження" і "безкоштовна доставка по місту", виділені в тексті однаковими тегами, насправді описують абсолютно різні речі. Перше - якість товару, друге - сервіс, що надається фірмою. Інакше кажучи, одні і ті ж теги в цьому документі мають різний зміст - один і той же синтаксис висловлює різну семантику.

Для вирішення цієї проблеми невідповідності, XML пропонує дуже простий і дуже ефективний спосіб - розширити безліч використовуваних тегів так, щоб вони могли повністю виразити всю семантику, якій тільки може володіти документ. Наприклад.

Таким чином, просто розширивши безліч тегів, ми вбили відразу двох зайців.

Явно виділили в документі структуру даних. Це уможливлює подальшу машинну обробку документа, який при цьому все ще залишається зрозумілим людині.

У цих двох положеннях і є сенс XML (англ. Extensible Mark-up Language, розширювана мова розмітки) - відокремлювати дані від подання і створювати в текстовому вигляді документи зі структурою, зазначеної явно.

Синтаксично в XML, в порівнянні з HTML, немає нічого нового. Це такий же текст, розмічений тегами, але з тією лише різницею, що в HTML існує обмежений набір тегів, які можна використовувати в документах, в той час як XML дозволяє створювати і використовувати будь-яку розмітку, яка тільки може знадобитися для докладного опису даних.