Парсинг html на php
можливості PHP для створення парсеров зараз розповім про один із способів парсинга html (він підійде і для xml теж, до речі).
Чи краще парсити html регулярними виразами або використовувати для цих цілей
можливості PHP DOM,
є холіваров. Все залежить від складності структури даних. Адже якщо структура досить складна, то за допомогою регулярок доводиться парсити в кілька етапів: спочатку виділити великий шматок, потім розділити його на більш дрібні і т.д. У підсумку, якщо дані складні (або їх дуже багато), то процес парсинга може значно затягнутися. Ресурсомісткість в цьому випадку ще буде залежати, звичайно ж, від самих регулярних виразів. Якщо в регекспи багато ". *" (Вони є самими ресурсоємними, тому що "прочісують" вихідний код з максимальною
жадібністю), то уповільнення буде помітним.
І ось якраз в цьому-то випадку як не можна до речі доводиться PHP DOM. це зручний
інструмент для парсинга як XML, так і HTML. Деякі дотримуються думки, що парсити html регекспи взагалі не можна, і люто захищають PHP DOM.
Пірімер скрипта наочно показує, як це все легко і просто. У прикладі розбирається html з частиною карти сайту якогось блогу. Він присвоєно змінної прямо всередині коду. В "бойових" ж умовах вихідні дані слід отримувати, наприклад, через file_get_contents ().
В результаті після запуску скрипта прикладу отримуємо таку картину:
- Микола »Спасибі. Довго шукав щось подібне. тільки цей код підійшов для script-shop free ver2
як я відпочиваю у вільний час
Многосайтовий на wordpress
- Марина »Здравствуйте! Подск ажіте, будь ласка, якщо не важко Я новачок. Нещодавно створила свій сайт з жіночою тематикою на Вордпресс (там поки пара.
- TruLander »Марина моя вам порада, якщо ви не розумієте суті переробки, краще зробіть 2 окремих сайту, вам буде простіше, тим більше.
- Марина »Спасибо большое!