Отчет о файлах Sitemap. Детальное руководство по файлу Sitemap Исключения из трех правил

Файл sitemap - это файл с информацией о страницах сайта, подлежащих индексированию. Разместив этот файл на сайте, вы можете:

  • сообщить Яндексу, какие страницы вашего сайта нужно индексировать;
  • как часто обновляется информация на страницах;
  • индексирование каких страниц наиболее важно.

Как правило, xml-карта доступна по адресу site.ru/sitemap.xml

О проблемах с сайтом можно узнать при помощи сервиса Яндекс.Вебмастер, для этого необходимо .

Сразу замечу, что в обязательном порядке необходимо реагировать на фатальные ошибки. К "самым фатальным ошибкам" относятся заражение сайта вирусами и полный запрет на индексирование сайта в файле robots.txt (Disallow: /).

В конкретном случае сервис сообщает, что возможно есть какие-то проблемы с файлами Sitemap.


В одном или нескольких файлах Sitemap обнаружены ошибки, которые могут повлиять на обработку файлов индексирующим роботом
После щелчка по ссылке "Проверить" возникла ужасающая картина - почти 11 тыс. ошибок в файле Sitemap с постами сайта

У особо впечатлительных веб-мастеров может подняться давление, но сперва следует разобраться в причине статуса.


Как оказалось, проблема в теге image:image, который не смог распознать робот Яндекса

Этот тег появился в картах Sitemap по той причине, что в качестве SEO-плагина на сайте установлен Yoast SEO, который создает Sitemap согласно пожеланиям Google .

Тег содержит всю информацию об одном изображении. Он нужен для того, чтобы картинки были представлены в результатах поиска Google.

Следуя рекомендациям для веб-мастеров и советам по публикации изображений, вы повысите вероятность того, что ваши картинки будут представлены в результатах поиска. Кроме того, можно предоставить Google дополнительную информацию о графических материалах, размещенных на вашем сайте, с помощью специальных функций файла Sitemap. Это поможет Google найти контент, который иначе нельзя было бы обнаружить (например, если он загружается с помощью JavaScript), а также позволит вам указать изображения, которые необходимо сканировать и индексировать.

Получается, что хорошо для Google, то плохо для Яндекса. На некоторых блогах появились рекомендация убирать все лишнее из файлов Sitemap чтобы у Яндекса не было замечаний. Но надо ли на самом деле убирать то, что рекомендует Google? Насколько критичны данные ошибки для сайта? Чтобы ответить на этот вопрос, обратимся к справке Яндекса .

Файл Sitemap может содержать различную информацию о страницах сайта, которая передаётся роботам с помощью тегов в файле. Робот Яндекса поддерживает следующие теги:

  • loc (адрес страницы);
  • lastmod (дату последнего обновления страницы);
  • changefreq (частоту изменения страницы);
  • priority (относительную значимость страницы).

Если файл содержит другие теги, например, с указанием на мобильную или мультиязычную версию, а также с адресами картинок , в Яндекс.Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые теги игнорируются роботом при обработке Sitemap, при этом данные из поддерживаемых тегов учитываются, поэтому менять файл Sitemap необязательно . Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Яндекс.Вебмастере.

Итак, согласно справки Яндекса, если ошибки связаны с тегом , то нет необходимости его удалять. Однако всегда терзают смутные сомнения. А может ошибки все же негативно влияют на продвижение сайта? Чтобы дать адекватный ответ на этот вопрос, я нашел несколько топовых сайтов строительной тематики на движке WordPress с установленным плагином Yoast SEO и посмотрел их параметры:

  • Возраст;
  • Посещаемость;
  • Количество статей.

Согласно выработанным мною метрикам, у изученных сайтов все замечательно. Для большей наглядности привожу статистику одного из них.


Возраст сайта - 1,5 года, количество статей - 450, посещаемость более 15 тыс. человек в сутки. Плагин Yoast SEO был установлен с первых дней создания сайта

Все вышесказанное относилось к тегу . Естественно, возникают и другие ошибки, которые действительно могут негативно сказаться на индексировании сайта. Во всех случаях необходимо руководствоваться тем, что при помощи sitemap.xml поисковые роботы должны узнать обо всех документах которые вы хотите видеть в выдаче. Любой робот поймет следующую разметку:

https://сайт/gde-kupit-domen-deshevo.html
2012-08-22T18:08:20+00:00
monthly
1

Должна быть ссылка на каждый "нужный" документ. На практике могут возникать случаи, когда Вебмастера Яндекса и Google говорят "good", а на самом деле проблема существует. Например, ссылки на новые документы могут не появляться в карте сайта. Это может произойти из-за некорректной работы скриптов отрисовывающих Sitemap. Выявить данную неисправность довольно просто - опубликовав тестовую страницу, убедитесь, что ссылка на неё появились в карте сайта.

Если основное предназначение robots.txt – это запрет индексации, то карта сайта sitemap.xml выполняет прямо противоположные задачи. Она отвечает за ускорение индексации сайта и полноту индексации сайта.

Sitemap.xml указывает поисковой системе частоту, с которой возникает необходимость в переиндексации страниц. В этом плане карта сайта особенно важна для сайтов с регулярно обновляющимся контентом (новостные порталы и т. п.). Кроме того, sitemap.xml содержит все важные страницы сайта с указанием их приоритета.

Требования, предъявляемые к карте сайта

Файл Sitemap представляет собой XML-файл, в котором перечислены URL-адреса веб-сайта в сочетании с метаданными, связанными с каждым URL-адресом (дата его последнего изменения; частота изменений; его приоритетность на уровне сайта), чтобы поисковые системы могли более грамотно сканировать этот сайт.

Общее число sitemap.xml на сайте не должно превышать 1000, при этом число записей (урлов) в каждом не должно превышать 50 000 штук.

Если необходимо перечислить более 50 000 URL-адресов, следует создать несколько файлов Sitemap.

Карту сайта можно сжать gzip архиватором для уменьшения его размера. Но объем каждого сайтмапа в развернутом (разархивированном) виде не должен превышать 10 мегабайт.

Карта сайта не обязательно должна быть в виде xml файла. Протокол допускает генерацию карты в виде синдикации (RSS или Atom) либо в виде простого текстового файла с построчным перечислением URL. Но такие «карты сайта» либо не включают в себя все URL сайта (в случае с синдикацией), либо не несут дополнительную важную информацию (дата и время модификации контента страниц), собственно ради которой и используют в SEO карты сайта.

Предоставляя отметку времени последнего изменения , Вы позволяете сканерам поисковой системы извлекать только часть файлов Sitemap в индексе, то есть сканер может извлекать только те файлы (страницы) сайта, которые были изменены после определенной даты. Этот механизм частичного извлечения файлов из Sitemap.xml позволяет быстро обнаруживать новые URL на сайтах больших размеров. Кроме того это позволяет снизить нагрузку как на сервер, так и на краулер поисковой системы. А последнее они (поисковые системы) крайне любят.

Сочетание карты сайта с robots.txt и метатегами robots

Инструкции sitemap.xml, при правильном их использовании должны дополнять друг друга. Существуют три важнейших правила взаимодействия этих инструкций:

  • sitemap.xml, robots.txt и метатеги robots не должны противоречить друг другу;
  • все страницы, исключенные (заблокированные) в robots.txt и метатегами robots, должны быть исключены также из sitemap.xml;
  • все индексируемые страницы, разрешенные в robots.txt, должны содержаться в sitemap.xml

Исключения из трех правил

Есть и исключения из этих трех правил. И, как всегда, они связаны со страницами пагинации. Начиная со второй и далее страницы пагинации, мы прописываем noindex,follow в метатегах robots, при этом в robots.txt страницы пагинации не закрыты от индексирования.

Дату и время изменения страницы ставить равную дате и времени изменения главной (первой, основной странице) страницы каталога. В принципе, с этим можно согласиться.

Оптимизаторы старой школы советуют добавлять в файл sitemap.xls только непроиндексированные или изменившиеся страницы. Страницы, попавшие в индекс следует удалять из сайтмапа. А вот с этим мнением согласиться уже сложней. При наличии поля lastmod и его правильном заполнении, никакой нужды в таких вот изысках нет.

Основные проблемы при использовании sitemap.xml

При выполнении , мне наиболее часто встречались следующие ошибки:

  1. Несоответствие sitemap.xml страницам сайта, устаревший сайтмап. Эта проблема возникает, когда сайтмап генерируется не динамически, а эпизодически, запуском какой то службы в CMS, а то и сторонними сервисами. При этом возникает масса мертвых страниц, отдающих 404 ошибку (это если страницу физически удалили или перенесли в другое место, сменили адрес URL). Кроме того, новые страницы индексируются значительно медленнее, ибо не находятся в sitemap.xml.
  2. Следующая ошибка – неверная структура sitemap.xml. Эта ошибка возникает, как правило, на «самописных» CMS или при использовании неверных плагинов к популярной CMS. При этом генерируется файл sitemap.xml с нарушением структуры, описанной протоколом.
  3. Модификация этой ошибки – неверная работа с датой изменения записи. С точки зрения протокола — это не ошибка, так как поле lastmod не является обязательным. С точки зрения SEO и поисковых систем, отсутствие правильного значения в этом поле (совпадающее с непосредственным изменением контента) — полностью нивелирует значимость всего файла sitemap.xml. Как было сказано выше, ПС будут переиндексировать те страницы, поле lastmod которых изменилось.Что произойдет, если это поле меняется одновременно у всех записей (страниц) сайта. То есть дата модификации одинакова у всех файлов сайта. Скорее всего, ПС не будут обращать внимание на sitemap и сайт будет переиндексироваться обычным способом, при этом глубоко расположенные страницы либо не переиндексируются вовсе, либо будут переиндексироваться очень долго.Итак, Необходимо или вовсе не использовать поле lastmod (что плохо), либо ставить дату последнего значимого изменения страницы, например, когда поменялась цена или товар закончился или изменилось описание.
  4. Следующая группа встречаемых ошибок – логические, вызваны нарушением трех правил о сочетании robots.txt и sitemap.xml. В этом случае можно наблюдать постоянное попадание страницы в индекс и немедленный вылет оттуда. Однако, это не будет наблюдаться при наличии метатега noindex и записи в Sitemap.xml. В этом случае краулер (робот, паук ПС), зашедший на страницу индексировать её не будет.
  5. Ну и последняя ошибка, часто встречающаяся на сайтах — наличие «осиротевших страниц». Это такие страницы, на которые стоит ссылка из sitemap, но нет ни одной прямой ссылки с любой из страниц сайта. Часто это связано с тем, что страницы были удалены «логически» (например в WordPress помещены в корзину), а не физически. Это так же наблюдается на сайтах, где доступ к карточкам товаров сделано на скриптах и фильтрах способом, который не позволяет проиндексировать результаты работ этих скриптов. Возможны и иные причины возникновения таких страниц-сирот. Все это снижает доверие поисковых систем к сайту и является негативным сигналом ранжирования.

Согласно протокола, после изменения сайтмапа, можно перепинговать поисковые системы. Для этого нужно создать запрос следующего вида.

Sitemap.xml представляет собой документ, который содержит данные, используемые поисковыми системами для индексации сайтов. В этом файле содержится информация о тех страницах сайта, которые необходимо индексировать.

Данный документ позволяет поисковым системам определять местонахождение сайта, регулярность и время обновления его страниц, а также получить полный список документов сайта, которые необходимо индексировать. Наличие карты сайта (Sitemap.xml) не является 100-процентной гарантией того, что сайт будет полностью проиндексирован поисковыми системами, он служит всего лишь одним из средств, указать список страниц для сканирования страниц сайта. Правильное использование карты сайта помогает оптимизаторам в .

Структура Sitemap.xml

Файл размечается XML-тегами, основные из которых указывают на:

  • Важность страницы в диапазоне от 0,1 до 1,0 (где 0,1 – самый низкий, а 1,0 – самый высокий приоритет).
  • Частоту обновления (раз в час, раз в день, раз в неделю, раз в месяц, раз в год, никогда или всегда).
  • Описание страницы и ее начало (это обязательный элемент карты сайта).
  • Адрес страницы сайта (это тоже обязательный элемент карты сайта).
  • Дату последнего изменения страницы (это опциональный элемент).

Размещение Sitemap.xml

Существуют правила расположения файла Sitemap.xml, соблюдение которых позволит достичь наилучших результатов в продвижении ресурса.

  • Документ Sitemap.xml рекомендуется размещать в корневой директории сайта.
  • Все имеющиеся на сайте ссылки нужно размещать на одном домене с файлом Sitemap.xml.
  • Ссылки, имеющиеся в документе Sitemap.xml, должны использовать тот же протокол, что и ссылки, размещенные на сайте (http или https, с www. или без www.).
  • В необходимо указать путь к карте сайта.

Файлы Sitemap

Разрешается размещать не только основной документ Sitemap.xml, но и дополнительные файлы, подобные основному. Каждый их этих файлов может содержать не больше 50 тыс. ссылок, а общий размер документов не должен быть более 10 МБ. В случае необходимости Sitemap.xml можно сжимать стандартным архиватором. Дополнительные файлы используются в том случае, если превышен объем основного файла. Каждый дополнительный файл перечисляется в индексе, а его формат идентичен исходному.

Польза Sitemap.xml

Документ Sitemap.xml используется в поисковом продвижении и особенно важен в том случае, если:

  • Сайт относительно молодой и ссылок, которые ведут на него с других ресурсов, для эффективного продвижения слишком мало.
  • На сайте содержится большое количество страниц, которые не связаны друг с другом навигационными ссылками.
  • На сайте размещаются мультимедиа данные, не индексируемые ботом.
  • Содержание страниц сайта постоянно обновляется.

Sitemap для Google.News

Проверка карты сайта (Sitemap) на валидность

Самый простой способ проверить файл сайтмапа на валидность – добавить в вебмастеры поисковых систем и, если есть проблемы и ошибки, то вы их увидите в панели.

Привет. Много прошло времени с того момента, как мы учились на wordpress создавать xml карту сайта данного формата, используя для этого плагин Google XML Sitemaps.

Однако после обновления этого модуля до версии 4.0 карта претерпела ряд изменений и заставила многих сайтостроителей найти ей замену по средствам плагина All in One Seo pack.

В этой статье я разберу оба способа создания таких карт, а вы уже сами решайте, который хотите использовать на своей площадке.

Для тех, кто совсем недавно создал блог и еще не понимает, зачем она нужна, стоит понять простую истину.

Вебмастера должны помогать поисковым системам находить статьи сайта, а также показывать, какие из них обновились, чтобы роботы ПС могли проиндексировать их повторно.

Для этого создается в корневом каталоге файл sitemap.xml , где хранится перечень всех статей и страниц сайта, с информацией о времени последнего изменения и других не менее важных параметрах.

Проще говоря, такой файл является путеводителем по сайту, куда заглядывает каждый поисковый робот без исключения. Конечно же, не стоит рассчитывать, что Яндекс или Google на все 200% будет индексировать страницы при наличии данной карты, однако наличие ее по адресу http://ваш-сайт/sitemap.xml - обязательно.

Установка карты сайта плагином Google XML Sitemaps от 4.0 версии

Итак, начнем...

Первое . Сначала избавляемся от плагина Google XML Sitemaps, для этого деактивируем его в административной панели и радуемся небольшому ускорению сайта.

Второе . Переходим в корневую папку и удаляем старые файлы sitemap.xml и sitemap.xml.gz , но все же рекомендую где-нибудь на компьютере сохранить их резервную копию.

Третье . Переходите во вкладку плагина All in One Seo pack «SEO инструменты» — «Другие модули» и активируете модуль «Карта сайта».

В основных настройках указываем стандартный префикс файла, отмечаем какие поисковики следует уведомлять, если вы внесете изменения в ее содержание.

Далее указываем, из каких элементов будет состоять sitemap карта площадки, я оставил только записи и страницы, а также отметил самый последний пункт, чтобы плагин автоматически генерировал новую карту, по мере добавления новых ссылок.

Здесь можно исключать из xml ненужные категории, страницы и записи.

Задаем приоритеты для страниц сайта.

Указываем, с какой частотой надо поисковикам индексировать страницы. Последние два параметра не имеют значимой роли.

Ну и конечно же не забываем проверить работоспособность новой карты по адресу .

Вроде все. На этом я заканчиваю пост, хотел разделить его на две отдельных статьи, но в последний момент передумал.

Sitemap - это файл со ссылками на страницы сайта, который сообщает поисковым системам об актуальной структуре сайта. Яндекс поддерживает форматы XML и TXT. Формат XML позволяет передавать дополнительную информацию .

Примечание. Яндекс не гарантирует, что все указанные в файле URL попадут в результаты поиска.

  1. Требования к файлу
  2. Вопросы и ответы

В каких случаях нужен файл Sitemap

Яндекс разрабатывает специальные алгоритмы, по которым индексирующий робот узнает о сайте. Например, с помощью Ссылка, которая связывает страницы одного сайта. Страницы могут\n находиться в разных каталогах одного домена или на поддоменах.

"}}">внутренних и Ссылка, которая расположена на другом сайте."}}">внешних ссылок - переходя с одной страницы на другую. Иногда робот может пропустить страницы. Используйте Sitemap , если на сайте:

    большое количество страниц;

    отдельные страницы без навигационных ссылок;

    глубокая вложенность.

Поддерживаемые Яндексом форматы

Ограничение. Поиск Яндекса не поддерживает передачу RSS и Atom-фидов с помощью файла Sitemap .

Требования к файлу

    Максимальный размер файла в несжатом виде - 50 МБ.

    Разместите файл на том же домене, что и сайт, для которого он составлен.

    При обращении к файлу сервер должен возвращать HTTP-код 200.

Как создать файл и сообщить о нем Яндексу

При необходимости вы можете удалить информацию о Sitemap .

Вопросы и ответы

Sitemap отображается в сервисе как исключенная страница со статусом «Неверный формат документа»

Отображение файла Sitemap (как и других XML-файлов) как исключенных страниц имеет только информативный характер и никак не влияет на индексирование сайта или обработку Sitemap .

Файл Sitemap может отображаться в группе исключенных страниц, так как робот попытался проиндексировать его как обычную страницу, в то время как файлы формата XML не индексируются в поисковой системе Яндекса и в результатах поиска не участвуют.

При обработке Sitemap возникла ошибка «Неизвестный тег»

Файл Sitemap может содержать только определенные XML-элементы . Если Вебмастер обнаружит в файле другие элементы (например, указание на мобильную или мультиязычную версию, адреса картинок), в Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые элементы игнорируются роботом при обработке Sitemap , при этом данные из поддерживаемых элементов учитываются. Поэтому менять файл Sitemap необязательно.

Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Вебмастере.

Файл Sitemap находится в статусе «Не проиндексирован»

Файл Sitemap может быть не проиндексирован по нескольким причинам:

    Робот обошел файл Sitemap недавно и еще не успел обработать его. Подождите две недели. Если вы используете файл индекса Sitemap с несколькими файлами, то их обработка может занять больше времени, чем одного файла Sitemap .

    Сайт ранее был недоступен для индексирующего робота. Необходимо дождаться следующего посещения сайта роботом.



КАТЕГОРИИ

ПОПУЛЯРНЫЕ СТАТЬИ

© 2024 «tassr90.ru» — Полезные компьютерные советы