Інформаційні технології та моделювання бізнес-процесів. Розділ «11.4. Принципи функціонування пошукової системи Google»

Google Inc. (Ґуґл), www.google.com - приватна американська відкрита акціонерна компанія, заснована 7 вересня 1998 року, що займається розробкою, розвитком і дизайном найпопулярнішого в Інтернет пошукового сервісу. В компанії, розташованій в Маунтін В'ю (Каліфорнія) працюють близько 8000 робітників. Засновники - Леррі Пейдж та Сергій Брін, в 1998 році були співробітниками Стенфордського університету і прагнули створити систему пошуку з більш гнучким механізмом, ніж існували на той час - Altavista і Inktomi (останню було поглинуто в 2002 році пошуковою системою Yahoo!).

Назва "Google" - спотворене написання слова "гугол" (англ. googol), яке придумав Мілтон Сіротта, племінник американського математика Едварда Кайзера. "Гугол" - це число 10100, десятковий запис його містить одиницю та сто нулів.

Найголовнішою задачею розробників інформаційно-пошукової системи (ІПС) Google був такий розв'язок задачі сортування результатів пошуку, щоби на перших позиціях вихідного списку знаходились потрібні користувачеві документи - з максимальним співпадінням відповіді.

Майже кожна ІПС має свою внутрішню систему оцінки "якості" документів. В Google вона називається PageRank (рис.11.5). Сутність її в тому, що на порядок формування списку результатів пошуку впливає деякий коефіцієнт, який залежить від популярності сторінки та кількості посилань на неї з інших сторінок. Ще однією важливою властивістю ІПС Google є те, що в ній зберігаються опис посилань на проіндексовані сторінки - це дозволяє більш адекватно проводити пошук по базі даних. Наприклад, якщо автор сторінки забув вказати її назву (що є важливим для ІПС), Google буде орієнтуватись по текстам посилань на цю сторінку.

Для Google має значення також, яким шрифтом написано в документі шукане слово - чим більші букви, тим більший в них коефіцієнт. Якщо в запиті міститься декілька слів, найпершими в списку результатів будуть сторінки, на яких ці слова розташовані максимально близько.

Рис.11.5. Структура інформаційної пошукової системи Google

Всю основну роботу по "просіюванню" вмісту мережі виконують пошукові роботи. Кожний з них бере одну адресу URL з бази даних URL-сервера, скачує і передає вміст вузла на сервер збереження документів, де він залишається у заархівованому вигляді. Інша програма - індексатор - розкладає текст документу на складові слова, запам'ятовуючи його формат. Отримана інформація зберігається у наборі контейнерів (рис.11.5, прямий індекс). Для пошуку сторінок існують інші контейнери (рис.11.5, зворотний індекс).

Ідентифікатори слів беруться зі словника, що постійно поповнюється. Одночасно з цим індексатор переглядає текст посилань і перевіряє коректність самих посилань в службі DSN. Якщо знайдений URL відсутній в базі даних, індексатор поповнює базу. Пізніше ця адреса попадає на URL-сервер і система пошуку стає самодостатньою - вона поновлює сама себе. Нові сторінки, які ще ніхто не встиг відвідати, попадають до системи шляхом ручної реєстрації.

Додатково розглянемо оператори пошуку, що використовуються для підвищення ефективності роботи з ІПС Google:

Таблиця 11.3. Опції пошуку Google

Використання вказаних опцій при пошуку потрібної інформації може спричинити несанкціоноване отримання даних - ненавмисне чи спеціальне. Наприклад, якщо в рядок пошуку Google ввести filetype:pwd, пошуковик виведе список посилань на файли з паролями, що наявні в його реєстрі. Або відповіддю на запит site:gov буде перелік державних вузлів.

Наведемо декілька порад від професійних розробників web- сайтів для успішної популяризації сторінок:

o створювати сайти із чіткою структурою;

o називати кожну сторінку унікальним ім'ям, що буде відображати її зміст (наприклад, назва Photos.htm буде більш інформативною для пошуковика, ніжPage_07.htm);

o уникати навігації елементами, що погано індексуються (анімація);

o ключові слова розташовувати у верхній або нижній частині сторінки і виділяти їх крупнішим шрифтом.

Пошукові системи продовжують розвиватись; з'являються нові системи на основі сучасних технологій. Цікавим є науковий проект "Інтелектуальна пошукова система Nigma", розроблена в МДУ ім.М.В.Ломоносова в 2006 році. Зазначимо, що ця система окрім власних

роботів використовує також результати роботи всіх популярних пошуковиків (Google, Altavista, Yahoo!, Aport, MSN, Yandex, Rambler).

За результатом розглянутого вище запиту (див. табл. 11.2) Nigma видала 47 908 247 423 документів. Цікавою є також ідея, покладена в основу соціального пошуковика Anoox - результати автоматичного рейтингу коригуються відвідувачами шляхом голосування.

Сторінки

11. Технології глобальної мережі Інтернет

12. Основи електронної комерції

В нашій електронній бібліотеці ви можете безкоштовно і без реєстрації прочитати «Інформаційні технології та моделювання бізнес-процесів» автора Томашевський О.М. на телефоні, Android, iPhone, iPads. Зараз ви знаходитесь в розділі „11.4. Принципи функціонування пошукової системи Google“ на сторінці 1. Приємного читання.

Назад до анотації

Розділ «11.4. Принципи функціонування пошукової системи Google»

Ви є тут

Сторінки

Зміст

ВСТУП

1. Технологія: поняття, основні властивості та процеси. Інформація, дані, знання як об'єкти технології

2. Економічна інформація і засоби її формалізованого опису

3. Інформаційні технології: властивості, вимоги, цілі

3.5. Інформаційна технологія автоматизації процесу аналізу інформації з використанням програмного забезпечення

4. Інтелектуальні технології обробки економічних даних

4.3. Технологія виявлення знань в базах даних (Knowledge Discovery in Databases)

4.4. Нові концепції у теорії штучного інтелекту

5. Створення сховищ даних. Технології OLAP та Data Mining

6. Автоматизовані інформаційні системи для підприємств та організацій

7. Інформаційні технології в управлінні

7.3. ERP-системи та їх особливості

7.4. Корпоративні інформаційні системи

8. Прийняття рішень у системах управління. Динамічне програмування

9. Додаткові економічні задачі динамічного програмування

10. Інформаційні технології комп'ютерних мереж

11. Технології глобальної мережі Інтернет

12. Основи електронної комерції

12.3. Технології Інтернет-банкінгу

13. Гіпертекстові технології

14. Технології захисту інформаційного продукту

14.2. Документація та права на продукт

14.3. Життєвий цикл піратської електронної книги

Оцифровування

14.4. Піратство: різні погляди

15. Засоби захисту програмного продукту. Технології несанкціонованого одержання інформації

15.5. Електронне "сміття" та взаємодія програмних закладок

16. Технології забезпечення безпеки інформаційних систем

17. Проектування інформаційних систем. CASE - технології

18. Технології моделювання бізнес-процесів. Мова UML

ПЕРЕЛІК РЕКОМЕНДОВАНОЇ ЛІТЕРАТУРИ

Запит на курсову/дипломну