Зазначимо, що перші роботи працювали протягом тривалого часу, інколи місяцями. Щоб прискорити виконання завдання, деякі роботи працюють у паралельному режимі, перевантажуючи телекомунікації. Сервери можуть уповільнити роботу, якщо робот отримає велику кількість запитів за короткий час. Це приводить до зменшення швидкості роботи інших користувачів, особливо на повільних лініях зв'язку.
Крім висування високих вимог до мережі, роботи можуть потребувати і відповідних серверів. В залежності від частоти отримування даних з сервера, одночасне завантаження багатьох документів може привести до перевантаженості. Відповідно, буде знижено рівень сервісу для інших користувачів або відмовлено їм в доступі. Як рішення цієї проблеми власники серверів ввели обмеження на частоту звернень робота до сервера.
Навантаження на мережу та сервери також може збільшуватись внаслідок неякісної реалізації роботів, наприклад, якщо робот звертається декілька разів до одного й того ж ресурсу. Повторні звертання трапляються, коли автоматично не записується історія завантажених ресурсів, або коли робот не розпізнає випадки різних індексів (DNS - Domain Name System) для однієї IP-адреси. Також надлишкове навантаження на систему відбувається у випадку, коли робота не призначено обробляти певні типи файлів (наприклад, GIF). Проте, запитується весь вміст вузла.
Використання пошукових роботів може також виявитись шляхом до здійснення несанкціонованого доступу до інформації.
Сучасні розробки в галузі Інтернет-технологій відбуваються в напрямку створення "розумного" робота, для збільшення ефективності обробки і пошуку інформації. Як і всі дослідження в області штучного інтелекту, вони знаходяться лише на початковій стадії.
Проблеми індексації ресурсів мережі Інтернет. Існує декілька проблем, що обмежують використання роботів для пошуку ресурсів: великі обсяги динамічного матеріалу, критерії індексування web-сторінок, порядок аналізу сайту, альтернативи для пошуку ресурсів.
Великі обсяги динамічного матеріалу
Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і відбувається пошук. Від обсягів цієї бази і частоти її оновлення залежить факт знаходження в ній потрібної інформації - відповідно, чим більша і динамічніша база, тим більша ймовірність успішного пошуку.
Для порівняння, наведемо кількість сторінок, знайдених в результаті запиту "+а" у базах даних популярних пошукових систем, станом на 12.01.11 (табл.11.2). Запит було сформовано при дослідженнях кількості сторінок інтернет-спільнотою і відображає найбільш вживані символи (запит проводився при англійській розкладці клавіатури).
Критерії індексування web-сторінок
Альтернативи для пошуку ресурсів
11.4. Принципи функціонування пошукової системи Google
Сторінки
В нашій електронній бібліотеці ви можете безкоштовно і без реєстрації прочитати «Інформаційні технології та моделювання бізнес-процесів» автора Томашевський О.М. на телефоні, Android, iPhone, iPads. Зараз ви знаходитесь в розділі „11. Технології глобальної мережі Інтернет“ на сторінці 5. Приємного читання.