Google опубликовал новый подкаст для вебмастеров, в котором рассказал о том, как определяются дубли и канонические страницы.
Канонизация и поиск дублей не являются тождественными понятиями. После поиска дублей и их группировки необходимо выявить лидера в этой группе. Этот процесс и будет называться каноникализацией.
Для того, чтобы определить дубликаты, Google должен создать контрольную сумму для каждой страницы. Это можно сравнить с уникальным отпечатком документа, созданным на основе слов для каждой страницы. Соответственно, если у Google получается распознать две страницы с одинаковой контрольной суммой, он будет расценивать их как дубликаты.
Этот способ подходит для поиска, как полных дубликатов, так и частичных.
Контрольной суммой называется значение, полученное из блока цифровых данных с целью обнаружения ошибок, которые могли быть внесены во время их передачи или хранения. Контрольные суммы зачастую используют программисты для проверки целостности данных.
Каноническая страница является главной страницей в кластере и для её выбора Google учитывает более 20 сигналов — контент, PageRank страницы, наличие HTTPS-протокола, переадресация, атрибут rel=canonical и т.д.
Для присвоения веса всем этим сигналам компанией Google используется машинное обучение.
Важно отметить, что канониканизация не имеет никакого отношения к ранжированию – выбранная страница будет ранжироваться на основании других сигналов, а не тех, которые были использованы в процессе канониканизации.
Источник: Seroudtable
Следите за нами