Регулярні вирази в українських текстах

довільні символи

Крапка "." позначає один довільний символ. Безліч можливих символів (клас) полягає в квадратні дужки "[]" - це означає, що в даному місці може стояти один із зазначених у дужках символ. Якщо перший символ в дужках це "^" - значить не один із зазначених символів не може стояти в даному місці вираження. Усередині класу можна вживати символ "-" позначає діапазон символів. Наприклад "[a-z]" позначає один з малих літер латинського алфавіту.

"A", "b" або "c"

будь-яка мала літера крім "a", "b" або "c".

Із застосуванням модифікаторів:

будь-яка мала літера, або відсутність символу

будь-яке число будь-яких символів

Угруповання: круглі дужки

Круглі дужки застосовуються для визначення групи символів або частини вирази, до якої відноситься символ альтернативи ( "|") або модифікатор.

внутрішні перетворення

У регулярних виразах допускаються українські літери по потрібним кодуванням (КОІ8 або Windows-1251). Перед самим пошуком пошуковому виразі трансформується пошуковою системою в латинські букви по нашій системі транслітерації). Крім того, точка. замінюється виразом "[a-zA-Z]". У рідкісних випадках це перетворення може призвести до того, що деякі символи всередині класів ([]) або перед модифікаторами отримують інше значення. Для найбільшого контролю над цими трансформаціями перетворене пошуковому виразі дається на початку сторінки результатів пошуку.

можливості пошуку

Як пошукових виразів допускаються словоформи і регулярні вирази. Необхідно шукати цілі словоформи. Пошуковий вираз має містити в собі повну словоформу. Для позначення довільній частині слова можливе використання символів ". *" (Точка і зірочка).
Згідно з обраною опцією, великі і малі літери розрізняються або не розрізняються. Словоформи розділяються пропуском. Це відноситься також до знаків пунктуації, так як вони розглядаються як окремі слова.
Крапку в абревіатурах (і т. Д. М. С.) або в кінці речення при пошуку треба задати знаком "#", а знак питання ( "?") Як "\?", Тому що точка і знак питання в регулярних виразах є метасимвол.
Якщо обрана кодування "КОІ8" або "Windows 1251", то введення здійснюється або українськими літерами з обраної кодуванні, або латинськими літерами по нашій системі транслітерації. Допускається навіть суміш українських і латинських букв.
Крім цілих словоформ можна використовувати регулярні вирази мови PERL.
(Див. Короткий вступ в регулярні вирази)
(Детальний опис регулярних виразів в мові PERL)