український мануал до програми wget

GNU Wget - це відкрито поширюється утиліта для завантаження файлів з Інтернет. Вона підтримує протоколи HTTP. HTTPS. і FTP. завантаження з серверів проксі по протоколу HTTP.

Перевірка заголовків файлів: Wget може зчитувати заголовки файлів (це доступно по протоколах HTTP і FTP) і порівнювати їх з заголовкам раніше завантажених файлів, після чого може завантажити нові версії файлів. Завдяки цьому при використанні Wget можна реалізовувати дзеркальне зберігання сайтів або набору файлів на FTP.

Wget розроблений для повільних або нестабільних сполук: якщо під час завантаження виникне проблема, то Wget намагатиметься продовжити завантаження файлу. Якщо сервер, з якого завантажується файл, підтримує докачку файлоа, то Wget продовжить завантажувати файл саме з того місця, де обірвалося завантаження.

Основні параметри

-V-version Показати версію Wget. -h-help Показати параметри командного рядка Wget. -b-background Перейти в фоновий режим після запуску. Якщо файл для повідомлень не вказано параметром -o. то він записується в wget-log-ecommand-executecommand Виконати command як якби вона була частиною .wgetrc. Команда буде виконана після команд в .wgetrc.

параметри повідомлень

параметри завантаження

При зазначеному параметрі -nc файли з розширеннями .html або (ось це просто жахливо) .htm з локальних дисків будуть завантажуватися, як ніби-то з інтернет.

-c-continue Відновлення завантаження файлу. Використовується, якщо завантаження файлу була перервана. наприклад:


Якщо в цій папці вже є файл з ім'ям ls-lR.Z. то Wget перевірить, чи відповідає даний файл завантажений (не за розміром!), і якщо це так, то відправить запит на сервер на продовження завантаження файлу з того ж місця, де обірвалося завантаження в минулий раз.Помніте, що при обриві зв'язку Wget повторює спроби дозавантаження самостійно і без параметра -c. і тільки коли він «здасться» і завершить свою роботу, то для відновлення завантаження файлу буде потрібен цей параметр.

Без вказівки опції -c попередній приклад приведе до завантаження зазначеного файлу заново з кінцевим ім'ям ls-lR.Z.1. ніяк не чіпаючи вже наявний ls-lR.Z.

Починаючи з версії 1.7 при вказівці параметра -c якщо файл на сервері має рівний або менший, ніж у локального файлу, розмір, то Wget не буде нічого завантажувати і відобразить відповідне повідомлення.

Однак, при використанні -c будь-який файл на сервері, що має більший розмір, ніж локальний файл, буде розглядатися, як недокачанний. При цьому буде завантажено і записано в кінець файлу тільки "(довжина (удал.файл) - довжина (локал.файл))" байт. Це може стати в нагоді, якщо протягом п'яти років вам потрібно завантажити нові повідомлення з будь-якого журналу (log).

При цьому якщо завантажений файл більше тому, що він змінився. то ви отримаєте пошкоджений файл (тобто файл може в підсумку вийти зовсім відмінним від оригіналу). Потрібно бути особливо уважним при використанні -c разом з -r. так як кожен змінений файл може бути кандидатом на незавершену завантаження ».

Ви також отримаєте пошкоджений файл якщо ваш сервер проксі HTTP працює нерозумно і при обриві з'єднання пише в файл повідомлення »transfer interrupted». Ймовірно, в наступних версіях Wget сам буде виправляти це.

Пам'ятайте, що -c працює тільки з серверами FTP і HTTP. підтримують заголовки "Range" (тобто докачку файлів).

-progress = type Індикатор прогресу завантаження і його тип. Можливі значення: dot »і bar» .На замовчуванням використовується bar ». Вказівка ​​опції -progress = bar призведе до промальовуванні красивого індикатора з символів ASCII (як »термометр»). Якщо стандартний виходу не TTY. то буде використаний dot ».Укажіте -progress = dot щоб переключиться на тип dot». Прогрес завантаження буде відзначатися додаванням в смузі точки або знака одно, кожен символ представляє однакову кількість данних.Прі використанні цього типу, ви можете вказати його стиль - dot: style. Якщо стиль "default". то кожен символ буде представляти 1 Kб, 10 символів в кластері і 50 в рядку. Стиль "binary" має більш »комп'ютерний» вид - 8Kб в символі, 16 символів в кластері і 48 символів в рядку (виходить рядок на 384 Kб). Стиль "mega" використовується для завантаження великих файлів - кожен символ представляє 64Kб, 8 символів в кластері і 48 символів в рядку (виходить 3 Mб на рядок).

Ви можете визначити стиль за замовчуванням, використовуючи команду "progress" в .wgetrc. Якщо ви хочете, щоб тип індикатора bar »використовувався завжди (а не тільки при виведенні в stdout), то вкажіть -progress = bar: force.

-N-timestamping Включити порівняння за датою. -S-server-response Відображати заголовки, що відправляються серверів HTTP і запити, надіслані серверів FTP. -spider Установка поведінки Wget як «павука», т. е. Wget НЕ буде завантажувати файли, а тільки буде перевіряти їх наявність. Так можна перевіряти закладки та посилання сайту. наприклад:

wget - spider - force - html - i bookmarks. html


Wget не містить всі можливості «справжніх павуків» для WWW.

-T seconds-timeout = seconds Час очікування в секундах. За замовчуванням час очікування одно 900 с (15 хв). Установка значення в 0 скасовує перевірку часу ожіданія.Пожалуйста, що не знижуйте значення часу очікування, якщо Ви точно не знаєте, що саме робите. -wseconds-wait = seconds Пауза в секундах між декількома завантаженнями (в т.ч. повторами). Це знижує завантаженість сервера. Щоб вказати значення в хвилинах, використовуйте "m". в годиннику - "h". в днях - "d" після чісла.Указаніе великого значення цього параметру може бути корисним, якщо мережа нестабільна (наприклад при обривах модемного зв'язку). -waitretry = seconds Встановлює паузу тільки між повторами обірвалися завантажень. Wget буде чекати 1 секунду після першого обриву, 2 секунди після другого обриву завантаження того ж файлу, і т.д. - до максимуму, який вказується в секундах. Наприклад, при значенні даного параметра, рівного 10, Wget буде чекати в загальному (1 + 2 + ... + 10) = 55 секунд для кожного файла.Ето значення вказується за замовчуванням в файлі wgetrc. -random-wait Деякі сервери, здійснюючи формування файлів журналів з паузами запитів файлів, можуть визначити рекурсивне отримання файлів - сканування роботами, такими, як Wget. Цей параметр встановлює час між запитами, варіюючи паузи згодом, що розраховується від 0 до 2 * wait (секунд), де wait вказано параметром -w для маскування Wget.Нельзя забувати, що вихідний код Wget доступний, і петому навіть цю маскування при бажанні можна обчислити. -Y on / off-proxy = on / off Підтримка сервера проксі. Включена за замовчуванням, якщо проксі визначено. -Qquota-quota = quota Квота на розмір файлів. Вказується в байтах (за замовчуванням), в кілобайтах Кб (якщо в кінці k) або в мегабайтах Мб (якщо в кінці m) .При вичерпання квоти поточний файл завантажується до кінця, тобто квота не працює при завантаженні одного файлу. Наприклад, якщо ви ісполніет wget -Q10k ftp://wuarchive.wustl.edu/ls-lR.gz. то файл ls-lR.gz буде повністю завантажений. Також всі зазначені в командному рядку файли будуть обов'язково завантажені, на відміну від списку файлів в одному файлі або як при рекурсивної загрузке.Указаніе 0 або inf скасує квоту.

Параметри завантаження папок


Якщо ви хочете просто позбутися від структури папок, то ви можете замінити цей параметр на -nd і -P. На відміну від -nd. -nd працює з підкаталогами - наприклад, при -nH -cut-dirs = 1 підкаталог beta / запишеться, як xemacs / beta.

-Pprefix-directory-prefix = prefix Визначає початкову папку. в якій буде збережена структура папок сайту (або просто файли). За замовчуванням цей параметр дорівнює. (Поточна папка).

параметри HTTP

Netscape 4.x. Файл знаходиться в

/.netscape/cookies.txt. Mozilla і Netscape 6.x. Mozilla зберігає cookies в cookies.txt. розташованому десь в

/.mozilla. в папці вашого профілю. Повний шлях зазвичай закінчується чимось на зразок

/.mozilla/default/some-weird-string/cookies.txt. Internet Explorer. Щоб експортувати cookie для Wget, виберіть «Файл», «Імпорт і експорт», в майстра виберіть «Експорт файлів cookie». Перевірено в Internet Explorer 5; можливо не буде працювати в ранніх версіях. Інші оглядачі. Параметр -load-cookies буде працювати з cookie в форматі Netscape, який підтримується Wget. Якщо ви не можете використовувати параметр -load-cookies. то все одно є вихід. Якщо ваш оглядач підтримує Запишіть ім'я і значення cookie і вручну вкажіть Wget відправку цих cookie:


Вказівка ​​порожнього рядка в значенні заголовка очистить все певні користувачем до цього заголовки.

параметри FTP

-nr - dont-remove-listing Чи не видаляти тимчасові файли .listing. генеруються при завантаженні по FTP. Ці файли містять інформацію про папках серверів FTP. Невидаленого допоможе вам швидко визначити оновлення папок сервера (тобто визначати. ​​Що ваше дзеркало є таким) .Якщо ви не видаляєте .listing. то пам'ятайте про свою безпеку! Наприклад, з таким ім'ям можна створити символічне посилання на / etc / passwd або щось ще. -g on / off - glob = on / off Включає або вимикає використання спеціальних символів (маски) по протоколу FTP. Це може бути *. ?. [І]. наприклад:


За замовчуванням використання символів маски дозволено, якщо URL містить такі сімволи.Ви можете також взяти URL в лапки. Це спрацює тільки на серверах Unix FTP (і емулює вихід Unix "ls").

--passive-ftp Включає пасивний режим FTP. коли з'єднання ініціюється клієнтом. Використовується при наявності firewall. --retr-symlinks При рекурсивної завантаженні папок FTP файли, на які вказують символічні посилання, не завантажуються. Даний параметр відключає ето.Параметр --retr-symlinks працює зараз тільки для файлів, не для папок.Помніте, що цей параметр не працює при завантаженні одиночного файлу.

Параметри рекурсивної завантаження

-r - recursive Включити рекурсивне отримання. -ldepth - level = depth Максимальна глибина рекурсивної завантаження depth. За замовчуванням її значення дорівнює 5. --delete-after Видаляти кожну сторінку (локально) після її завантаження. Використовується для збереження нових версій часто запитуваних сторінок на проксі. наприклад:


Але тепер кращим параметром для завантаження однієї сторінки повністю вважається --page-requisites.

Приклади ВИКОРИСТАННЯ

просто використання

* Якщо вам потрібно завантажити URL. то введіть:

/ Usr / local / etc / wgetrc За замовчуванням це розташування глобального файлу налаштувань. .wgetrc Файл налаштувань користувача.

ПОМИЛКИ

1. Переконайтеся, що поведінка програми дійсно помилково. Якщо Wget "вилітає", то це помилка. Якщо поведінка Wget не відповідає документації, то це помилка. Якщо все працює дивно, але ви не впевнені, як воно повинно працювати насправді, то це теж може бути помилкою. 2. Спробуйте повторити ситуацію з видачею помилки за мінімальну кількість действій.Не поспішайте відправляти .wgetrc. спробуйте виконати всі дії, що призвели до помилки з іншим файлом налаштувань (або взагалі без нього). 3. Запустіть Wget з параметром -d і відправте журнал (або його частини). Набагато легше відшукувати помилки при наявності таких журналів. 4. Якщо Wget видав помилку, то спробуйте запустити його в відладчик, наприклад "gdb which wget` core" і введіть "where" для отримання зворотного трасування.