Приклад налаштування імпорту контенту

Приклад налаштування імпорту новин з сайту top.rbc.ru

1) Вибираємо Нова стрічка в плагіні WPGrabber і в поле Найменування стрічки пишемо якесь назва для нашої першої настройки імпорту. Ви можете написати в даний параметр все що завгодно, наприклад: Головні новини РБК.

2) В типі стрічки у нас повинно бути вибрано значення html

4) Далі нам треба вказати такий важливий параметр як Кодування HTML-сторінки.

Кодування сторінки сайту можна дізнатися в її вихідному HTML-коді.

Після завантаження даної сторінки, відкрийте її вихідний код (HTML-код сторінки).

У браузері Google Chrome це робиться за допомогою натискання клавіш Ctrl + U.

У FireFox і Internet Explorer поєднання Ctrl + U працює так само.

У відкритому вихідному коді шукаємо рядок виду:

Тут utf-8 якраз таки і є кодування сторінки! Тому вибираємо в параметрі Кодування HTML-сторінки значення UTF-8.

У деяких випадках при великій кількості коду для того щоб простіше знайти рядок із згадкою кодування скористайтеся пошуком слова charset. Для пошуку в Google Chrome та інших браузерах достатньо лише натиснути клавіші Ctrl + F і ввести слово charset. Швидше за все першим результатом пошуку в вихідному коді буде потрібна вам рядок із зазначенням кодування.

Ще раз зверніть увагу на те, як в вихідному html-коді сторінки вказується кодування:

На деяких сайтах кодування не вказана, тоді пробуйте значення: Вихідна, або ж WINDOWS-1251.

5) Тепер нам необхідно визначити один з найголовніших параметрів (параметр: Шаблон посилань), з якого починається збір посилань на цікаві для нас сторінки сайту, які ми хочемо імпортувати до себе на сайт.

Для того щоб правильно поставити параметр Шаблон посилань. потрібно спочатку подивитися на вигляд посилань у вихідному коді HTML сторінки.

Зверніть увагу на те, що зовсім не обов'язково шукати весь текст заголовка, він може виявитися занадто довгим. Можна виділити його невелику частину, як в цьому прикладі і шукати цю частину в результатом коді.

Так як даний текст може зустрічатися в вихідному коді сторінки не тільки всередині посилань, але і в інших місцях, нам необхідно знайти саме ту частину коду, де перед шуканим текстом знаходиться відкритий html-тег посилання:

Тепер давайте подивимося на інші посилання до інших новин:

Всі вище перераховані посилання підходять по раніше описаний "словесний" шаблон. Для завдання шаблону посилань в WPGrabber необхідно використовувати певний формат опису таких шаблонів (формат опису регулярних вираженійPCRE, про PCRE на).

У регулярних виразах PCRE будь непробельний символ позначається наступною конструкцією \ S

Зверніть увагу на слеш \ перед великою літерою S. Зворотний слеш в регулярних виразах скасовує нормальне функціонування символу, ми могли б написати просто символ літери S і тоді вона була б просто великою літерою S в нашому регулярному виразі. Однак \ S - означає зовсім чином один будь-який символ, крім пробілу!

Так як наші варіації слів: textonlines. society. politics і economics складаються з декількох символів (букв слова), нам потрібно якось вказати в нашому вираженні кількість символів. Для цього використовуються фігурні дужки.

наприклад вираз \ S означає рівно 5-ть поспіль непробельний символу.

Наприклад слово "гамбургер" потрапляє під регулярний вираз \ S. але не потрапляє під вираз \ S. тому що в слові гамбургер саме 9 букв. а не 4.

Крім точного зазначення кількості символів в рядку, регулярні вирази дозволяють вказувати і діапазон символів, наприклад під вираз: \ S потрапляють всі слова довжиною від 3-х до 6 символів (включно!).

Також є можливість вказівки мінімального кількості символів в рядку без вказівки максимального, наприклад: \ S - все слова від 4-х символів довжиною і більше.

Переписавши початкову частину нашого шаблону ми отримаємо наступне:

На даному етапі ми могли б записати весь шаблон посилань у вигляді:

Перепишемо наше вираз з урахуванням входження в нього саме цифр а не всіх символів:

Цей вираз можна сміливо вставити в Шаблон посилань. натиснути на кнопку Застосувати. і якщо Ви зберегли стрічки натиснути на кнопку Тест імпорту. щоб переконається в правильності складання регулярного виразу пошуку посилань в тексті сайту.

Тепер зверніть увагу, що Плагін знайшов набагато більше посилань, ніж нам потрібно. Більш того в наш список посилань потрапили такі непотрібні нам посилання:

А також, неправильні (непрацюючі) посилання виду:

Коли нам потрібно в регулярному виразі перерахувати входження різних символів (набору символів), то ми можемо використовувати квадратні дужки. Вираз виду:

буквально означає: будь-яка одна буква або одна цифра або більше подібних символів.

Наприклад, під вираз виду (будь-які дві букви або цифри або і букви і цифри і більш подібних символів):

але, не потраплять, такі рядки:

Таким чином, якщо ми перепишемо наше вираз у вигляді:

Воно перестане відловлювати непотрібні і неправильні посилання!

Вставте цей вираз в Шаблон посилань, натисніть Застосувати, а потім Тест імпорту і Ви побачите як плагін знайде вже всього 12 посилань і всі вони будуть правильними!

Для вірності переходимо на сторінку і вважаємо кількість посилань на новини перевіряючи, чи правильно встановлена шаблону посилань. На сторінці крім 10 посилань розташованих в центрі сторінки під наш шаблон потрапили ще 2 посилання, розташовані в інших частинах сторінки. У наступному уроці Ви зможете знайти інформацію про те, як вибрати посилання тільки з певної частини початкової сторінки.

Увага! Якщо в режимі тесту імпорту у вас на екрані відображається напис Знайдено посилань: 0 - подальша також встановлювати інші настройки стрічки практично позбавлена змила! Немає посилань на новини - не буде імпортованих записів в WordPress.

А якщо WPGrabber не знаходить посилання на новини - значить ви зробили помилку в написанні регулярного виразу шаблону посилань або ж неправильно вказали параметри: URL індексного сторінки або Кодування HTML-сторінки.

Ще одне невелике важливе зауваження з приводу правил написання регулярних виразів. Вся справа в тому що в регулярних виразах формату PCRE, є спеціальний набір символів або як ще їх часто називають керуючі символи.

Коли ви в регулярному виразі пишіть наприклад символ точки (.) - то він не означає в прямому сенсі просту точку в тексті. Точка в регулярному виразі - це службовий символ позначає входження будь-якого символу алфавіту, ціферний символу, символу пробілу і взагалі будь-якого іншого символу. Тобто точка в регулярному виразі - це взагалі будь-який символ в тексті.

Таким чином під вираз:

Для того щоб в регулярний вираз вставити саме символ точки, потрібно перед керуючим символом поставити зворотний слеш, тобто вираз \. позначає як раз таки звичайну точку в тексті.

Таким чином, по правильному наш шаблон необхідно переписати в такий вигляд:

тобто екранувати в ньому все входження точки як службового символу.

Ви запитаєте, чому ж наш шаблон навіть у вигляді:

спрацював успішно? Відповідь проста: точка в регулярному виразі, як я вже написав вище, означає будь-який символ, в тому числі просту точку!

Якщо ви перейдіть з результатом тесту імпорту стрічки трохи нижче відображення посилань ви побачите наступне:

Ми не задали правила вибірки двох основних параметрів для записів WordPress - це заголовок і текст.

6) Почнемо з Заголовку - який при імпортуванні стрічки буде заголовком створюваних в WordPress записів (постів).

Для того щоб WPGrabber знайшов заголовок в тексті сторінки певної новини нам необхідно описати шаблон його пошуку. Тут теж використовується формат регулярних виразів як і в описі Шаблона посилань.

Потрапивши на сторінку новини, відкриваємо її вихідний код (як відкрити вихідний код сторінки було описано вище, використовуйте поєднання Ctrl + U). Зробимо пошук нашого заголовка в початковому тексті сторінки:

На Україні стартували вибори до Верховної Ради. Політика. РосБізнесКонсалтинг

проте не поспішайте використовувати це входження, адже в ньому у нас крім тексту самого заголовка "На Україні стартували вибори до Верховної Ради" присутній ще і додатковий текст ". Політика. РосБізнесКонсалтинг", який нам зовсім ні до чого в заголовку записів.

Знайдіть чисте входження рядка заголовка без додаткових слів до і після. У нашому випадку це входження зустрічається у вигляді:

А також ще нижче:

Використовувати можна будь-чисте входження тексту заголовка.

Тепер нам треба скласти регулярний вираз для пошуку заголовка в тексті сторінки.
За попередніми прикладів, можна було б написати такий вираз:

Ви ж пам'ятаєте, що точка - це не просто точка, а будь-який символ в регулярному виразі!

Однак такий вислів поверне нам весь рядок цілком, тобто в заголовок матеріалу потрапить рядок виду:

нам же, потрібен саме текст "На Україні стартували вибори до Верховної Ради" розташований між лапками всередині цього тега.

Для позначення вибірки певної частини тексту з рядка, в регулярних виразах застосовуються группирующие символи круглих дужок (). Усередині яких якраз і повинна бути та частина тексту, яку ми хочемо вибрати з рядка.

Крім того в регулярних виразах є така конструкція виду:. *?

Це конструкція вбирає (поглинає) в себе будь-яку кількість символів аж до зустрічі з наступним символом після неї. Тобто наприклад вираз виду:. *? b - поверне все слова закінчують буквою b або ж всередині яких є буква b. Спробуємо застосувати цю конструкцію до нашого вираженню:

Скопіюємо цей вислів в поле Шаблон заголовка. натиснемо кнопку Застосувати і знову кнопку Тест імпорту.

Бачимо, що WPGrabber тепер знаходить правильні заголовки:

7) Наступним важливим етапом є пошук основного тексту сторінки.

Копіюємо частину початкового тексту (не обов'язково з самого початку, можна в середині тексту), відкриваємо вихідний код сторінки, і проводимо пошук по цій частині тексту. Є ймовірність того, що цей текст буде зустрічатися у вас в вихідному коді сторінки не один раз, тому важливо знайти саме те входження, яке є початком тексту новини на сторінці. Порівняйте текст у вихідному коді і на самій сторінці, знайдіть його початок і кінець.

Важливим завданням правильного визначення меж тексту є знаходження унікальних частин HTML-коду або будь-яких інших конструкцій (частини тексту і т.д.) до і після повного тексту новини.

Отже, знаходимо початкову точку тексту:

Перед початком тексту "Позачергові вибори Верховної Ради України проходять за посилених заходів безпеки. Скільки виберуть депутатів, залежить" ми бачимо тег

Отже, вставляємо в поле Початкова точка повного тексту рядок:

Далі знаходимо кінець тексту новини. Для цього також можна скористатися пошуком за словами в останньому реченні текст новини:

Отже, в поле Кінцева точка повного тексту можна вставити:

Відповіли вам поштою

Така ж проблема, прошу і мені надіслати рішення.

А так же прошу порадити рішення:

Створіть тему на форумі.