Один из самых распространенных вопросов о SEO – что будет с адресами страниц – URL после миграции?
Ответ будет скорее всего банальный – в большинстве случаев ничего. Почему в большинстве? Если ваш интернет-магазин не использует модули для модернизации урлов в магазине то такие страницы как: категории, товары, а также CMS страницы, типа О нас и т.п. переносятся как есть. Также, нужно учесть, что если у вас есть блог или аналогичный раздел типа новости, то в новом модуле, который за этот раздел будет отвечать, нужно заранее изучить функцию формирования адресов – URL.
Описанный ниже способ подходит для любого веб-проекта, не только интернет-магазина, у которого есть sitemap файлы. Так же, это будет полезно сделать, если при переходе на новую платформу, вы решили изменить структуру каталога – категорий, так как с большой долей вероятности, адреса товаров поменяются и вам нужно будет проанализировать процент потерянных уролов, чтобы разработать план переадресации.
Способ, который поможет сравнить адреса двух веб-проектов
План действий:
- Спарсить sitemap.xml в текстовый файл – список адресов
- Импортировать текстовый файл в Google Spreadsheet
- Сравнить адреса, сделать таблицу
Простой парсер sitemap.xml в текстовый файл – список адресов
#!/bin/sh curl https://website.com/sitemap.xml | grep "<loc>" | awk -F"<loc>" '{print $2} ' | awk -F"</loc>" '{print $1}' > sitemaps.txt
Видео
Запуск сценария – парсера sitemap.xml и генерация текстового файла со списком всех адресов.
Импорт списка в файл Google Spreadsheet
В качестве примера вы можете воспользоваться моим файлом который содержит 2 вкладки: Live & Stage веб-сайты, со списком адресов – URL которые есть на основном сайте и сайте разработки соответственно. Основная вкладка это Live на которой мы сравниваем адреса основного сайта с сайтом разработки. Так как для нас важно проверить информацию о том, сохранились, есть ли все адреса страниц текущего интернет-магазина, то соответственно мы проверяем наличие ссылок основного сайта на сайте разработки.

Колонка Exist демонстрирует, найдено ли соответствие адреса из текущей строки в списке адресов Stage
