Розкриття внутрішніх документів Google: подробиці про роботу пошукових алгоритмів та порушення конфіденційності
GOOGLE SEO

Розкриття внутрішніх документів Google: подробиці про роботу пошукових алгоритмів та порушення конфіденційності

У кінці травня в мережі з’явилися конфіденційні документи Google. Вони розкривають деякі аспекти функціонування пошукових алгоритмів компанії. Наприклад, було з’ясовано, що Google використовує дані з Chrome для оцінки сайтів і створює «білі списки» джерел для окремих новинних подій. Журналісти виявили ймовірні багаторічні порушення правил безпеки та конфіденційності користувачів, які відбувалися в Google. Компанія змушена була визнати, що всі дані, які потрапили у мережу, правдиві. Нижче наведено подробиці цього інциденту.

Google складав «білі списки» для запитів про COVID і приховував реальні фактори ранжування сайтів

27 травня Ренд Фішкін, керівник компанії SparkToro та експерт у галузі SEO, повідомив про перший витік інформації. Йому надійшов електронний лист від анонімного джерела. Відправник стверджував, що має доступ до великої кількості внутрішніх документів Google. Зі слів аноніма, колишні співробітники компанії підтвердили справжність цих документів і надали додаткову інформацію про пошукову систему.

Фішкін поспілкувався з джерелом через відеозв’язок, переконався у правдивості інформації та вирішив її оприлюднити. Він також залучив іншого SEO-експерта, Майка Кінга з iPullRank, для спільного аналізу документів. Після публікації анонімний інформатор вирішив розкрити свою особу. Їм виявився  Ерфан Азімі, засновник EA Eagle Digital.

Заява Ерфана Азімі

Фішкін і Кінг отримали доступ до 2500 сторінок внутрішньої документації API, яка помилково була завантажена на GitHub. Вона знаходилась там з 27 березня по 7 травня, і за цей час її знайшов Азімі. Ця документація виявилася технічною і містила інформацію, важливу для фахівців у галузі SEO, а також давала уявлення про роботу пошукової системи.

Зокрема, було виявлено, що в Google є «білі списки» сайтів, які отримують вищий рейтинг у результатах пошуку. Список цих ресурсів регулярно оновлюється. Сайти, які не входять до списку, займають нижчі позиції в рейтингу та їх важче знайти за певними запитами. Фішкін зазначив, що такі списки використовувалися, щонайменше, двічі: під час пандемії COVID-19 та виборів у США.

Документи також спростували заяви Google про те, що дані з Chrome не використовуються для оцінки сайтів. Насправді браузер згадується в розділах, присвячених пошуковій видачі. Крім того, компанія заперечувала, що окремі фактори, наприклад авторство контенту, впливають на результати пошуку. Однак Майк Кінг зазначив, що показник E-E-A-T, який враховує рівень експертності автора, впливає на ранжування сайтів.

Експерти виділили низку параметрів, які впливають на видачу. Наприклад, система NavBoost аналізує кліки з урахуванням геолокації та поділяє їх на кілька категорій, включаючи «хороші», «погані» та «довгі». Назва домену та впізнаваність бренду також мають важливе значення. Нові сайти обмежуються у видачі через спеціальну «пісочницю», хоча раніше Google це заперечувала.

«Майже кожен запит до API, згаданий у витоку даних Google, містить географічний модифікатор. Це означає, що методи SEO, які працюють у США, можуть не бути ефективними в інших регіонах, де алгоритм менш розвинений, зокрема через меншу кількість даних або менш впізнавані бренди. Водночас те, що працює в цих країнах, не завжди дає такі ж результати у США.»

За словами Фішкіна, багато з цих даних суперечать офіційним заявам Google, що підриває довіру до компанії. 30 травня представник Google Девіс Томпсон підтвердив виданню The Verge справжність злитих документів, але попередив, що не варто робити некоректні висновки на основі «вирваної з контексту, застарілої або неповної інформації».

Несправності в сервісах Google призводили до ненавмисного збору персональних даних, зокрема дитячих розмов

3 червня журналіст Джозеф Кокс з 404 Media повідомив про новий витік інформації – матеріали про численні порушення безпеки в Google з 2013 по 2018 рік. Документи включали звіти про проблеми зі збором та обробкою даних, помилки співробітників та вразливості сторонніх партнерів. Кожному з інцидентів у звітах присвоювався ступінь пріоритетності, який вказував, як швидко необхідно усунути ту чи іншу проблему.

Одним з інцидентів було випадкове збереження номерів автомобілів системою Google Street View у 2016 році. Система була запрограмована на виявлення та ігнорування номерів автомобілів, але через збій у роботі компанія отримала цілу базу геолокованих номерів або їхніх фрагментів.

Також виявилося, що освітня платформа Socratic, яку Google придбала у 2018 році, зберігала понад мільйон адрес електронної пошти, включаючи електронні адреси дітей. У звіті значиться, що також могли бути доступними IP-адреси та геолокації.  В іншому випадку Google зібрав базу записів голосів приблизно тисячі дітей — через несправність фільтра система протягом години записувала та зберігала ці дані. Згодом ці записи були видалені.

Кокс надав інформацію про понад десять різних порушень. Одного разу користувача хмарного сервісу Google, який був призначений для державних установ, перевели на версію, призначену для звичайних користувачів, що поставило під загрозу конфіденційність даних у хмарі. Ще один випадок стосувався збою в додатку Waze (який належить Google з 2013 року), що призвів до витоку даних про адреси та маршрути користувачів. Крім того, була проблема з YouTube, коли сервіс надавав рекомендації на основі відео, видалених з історії переглядів, що суперечило політиці платформи.

У 2017 році контрактний співробітник Google завдяки правам адміністратора отримав доступ до облікового запису Nintendo і поділився зі своїм другом відеороликом нової гри Yoshi’s Crafted World, яку ще навіть не було анонсовано. У внутрішньому звіті компанії зазначається, що витік міг бути «ненавмисним».

Google підтвердила справжність усіх інцидентів і заявила, що вжила заходів щодо кожного з них.

Джозеф Кокс зауважив, що більшість із цих випадків дійсно були вирішені швидко, і кожен з них окремо вплинув лише на незначну кількість користувачів. Однак він підкреслив, що надані ним відомості чітко показують, як недбало найбільші компанії світу можуть поводитися з конфіденційною інформацією користувачів.

Слідкуйте за нами Telegram

5 1 vote
Рейтинг статьи
Підписатися
На
guest
0 комментариев
Міжтекстові відгуки
Переглянути всі коментарі