Web.archive.org найти и восстановить удалённый сайт

Приветствую вас, любознательные читатели блога seo-ap.ru!  Недавно я рассказывал, что такое Википедия. Это виртуальная энциклопедия, которая завоевала всенародную любовь. Невзирая на то, что она постоянно подвергается критике со стороны ученых мужей

 

Одно то, что этот проект вот уже не один десяток лет «пашет» на пользу всего прогрессивного человечества, питает его полезной информацией на безвозмездной основе, заслуживает большого уважения и длинных дифирамбов.

Но в сети есть еще один некоммерческий проект, не менее грандиозный – web.archive.org. Он создан, чтобы надежно хранить сайты, печатные материалы, аудио и видеопродукцию. Все, чем сегодня наполнен интернет. И то, что было во всемирной паутине много лет назад. Разве такое возможно?

 

Да. Более того, сайты архивируются не в виде мертвых скриншотов. Они реально работают! На веб-страницах имеются все картинки, ссылки, сохраняется стилевое оформление CSS. Сайты в веб-архиве имеют еще и сотни копий. Они накопились за все время, пока сайты еще функционировали, и содержат всю их эволюцию, от рождения и до последнего вздоха.

 

Какую пользу веб-архив сайтов может дать лично вам?

Вы можете отправиться в путешествие по страничкам сайта вашей юности, поностальгировать. Проследить, как изменялся и развивался не только ваш, но и любой другой сайт в интернете. К примеру, материалы для своих статей о поисковой системе Апорт, которая уже приказала долго жить, я брал как раз в этом веб-архиве сайтов, в его потаенных закромах. И все скриншоты, наглядно показывающие хронологию главной страницы всеми любимого Яндекса, взяты оттуда же.

 

Следующий сюрприз. Допустим, вы добавили в закладку сайт, а в нем страница не открывается. Тогда вы обращаетесь к Гуглу или Яндексу, пытаясь извлечь страницу из кеша (изучите информацию о том, как эффективнее искать что-либо в Google – пригодится!). Но если к вашему ресурсу уже давно нет доступа, мертвые ссылки оживить поможет только archive.org. Хотя и там этот ресурс может отсутствовать. Почему? Об этом напишу чуть далее по тексту.

 

Если звезды сошлись так, что вы не сделали резервную копию своего сайта (бэкап), то вы сможете восстановить его из web archive. И это будет единственный способ решить проблему. При этом можно убрать из ссылок все привязки к web.archive.org, они могут стать прямыми для вашего сайта. Более подробно о ссылках и привязках читайте ниже.

 

И еще одно полезное свойство веб-архива сайтов. Он дает доступ к поиску готовых уникальных текстов. Если написание статей – не ваше призвание, то здесь вы найдете их целые залежи, настоящие Клондайк и Эльдорадо, вместе взятые! Но чтобы ими разжиться, кое-какие телодвижения совершить все же придется.

 

Мертвые сайты с их внутренним наполнением недоступны в действующей сети интернета. Но вы можете зайти в веб-архив, отыскать нужные вам тексты и вытащить их с того света. А затем прогнать через проверку на уникальность и опубликовать на своих страницах. Никто не обвинит вас в воровстве (плагиате) и нарушении авторских прав в копирайтинге. Однако этот увлекательный поиск некоторым может показаться долгим и тернистым.

 

Webarchive появился в интернете, страшно сказать – в далеком 1996 году! Еще в прошлом веке. На то время задача, стоящая перед разработчиками проекта, казалась архисложной, как говорил вождь мирового пролетариата. Несмотря на то, что интернет тогда еще не вошел в полную силу, сайтов было в сотни и тысячи раз меньше. И архивировались они гораздо реже. Как говорится, миссия невыполнима. Но мало-помалу, постепенно увеличивая вместимость своих «сусеков» и «кладовых», сервис успешно копировал и резервировал сайты.

 

Уже в следующем, 1997 году Webarchive поместил в базу сам себя. Посмотрите, как выглядела его главная страница более двадцати лет назад:

 

 

  • Сейчас вся информация веб-архива занимает дисковое пространство объемом в 1015 Тбайт. Это гигантское число носит название квадриллион. Чтобы вам было легче его представить – примерно столько муравьев живет во всех муравейниках нашей планеты. Сервис Web.archive.org имеет официальный статус библиотеки. У него зеркала во многих центрах хранения и обработки данных.
  • Если считать только архивы разных интернет-страниц, то их количество уже приближается к ста миллиардам. В это число входят все копии, которые были хоть однажды сняты и сохранены.
  • Wayback Machine (обратная машина). Это архив страниц интернета. Он находится на главной странице сайта и доступен каждому. Здесь же хранятся телевизионные архивы, аудиоматериалы, отсканированные книги:

 

Просмотр сайта в  Web.arhive

Но в данном случае нас интересуют возможности Wayback Machine. В строку формы, которая там имеется, можно вставить URL (адрес вашего сайта или отдельной страницы) или домен сайта, который вам нужен. Перед этим разберитесь с тем, что представляют собой домен и URL , чем они отличаются друг от друга. И тогда вы окажетесь на странице с календариком:

Здесь я вижу, что мой блог в первый раз был за архивирован в марте 2015 г. Ровно через пять дней после того, как я зарегистрировал (купил) свое доменное имя seo-ap.ru. Много воды утекло с той памятной даты. За все это время архивное копирование сайта выполнялось 100 раз, и каждую копию можно посмотреть и пощупать, переходя со страницы на страницу (все ссылки работают).

Как открыть мертвые ссылки? Для этого сайт должен находиться в archive.org.

Смотрим на календарь. Цифры в голубых кружочках обозначают даты создания так называемых слепков – веб-архивов сайта. Разумеется, в процессе снятия копии не будут учитываться изменения, которые производились на ресурсе после того, как запущено архивирование. А время его проведения Webarchive устанавливает в соответствии с собственными таймерами и заложенными программами.

 

Поэтому не всегда имеет смысл использовать веб-архив в качестве способа открытия сайтов, недоступных лишь временно. В Яндексе можно тоже просмотреть их архивы:

 

Такая же возможность просмотра копий веб-страниц есть и в Гугле:

 

А к помощи мощного сервиса, о котором идет речь, надо прибегать в случаях, когда в существующем пространстве интернета уже давно нет страниц, которые вы ищете. Но их можно извлечь из дальних закромов, если отправиться туда на машине времени под названием Webarchive .

 

Но чтобы сайт попал в archive.org, необходимы два условия:

  1. В файле robots.txt должен отсутствовать запрет для его индексации роботом с web.archive.org. Табу прописано следующим образом:

User-agent: ia_archiver

Disallow: /

Когда мне понадобилось написать статью об электронной почте mail.ru, я не нашел в веб-архиве никаких копий этого сайта именно по этой причине. В его файле robots.txt как раз был подобный запрет:

 

 

  1. Шансы попадания сайта в архивную базу возрастут, если его добавить в каталог под названием Dmoz (УЖЕ НЕ ВОЗМОЖНО ПРАВДА). Также очень хорошо, если на ваш ресурс ссылаются другие хорошо посещаемые сайты, находящиеся в Webarchive. Даже если с главной страницы этого сервиса был сделан простой запрос на ваш сайт, к нему будет привлечено внимание архиватора.

 

Как найти и восстановить нужный сайт без бэкапа web-архива?

В верхней части страницы расположена временная шкала, с помощью которой можно легко перемещаться по архивам. Слепки, которые есть для этого сайта, обозначены черными вертикальными черточками. Бывает, что веб-архив битый. Тогда надо открыть другой слепок, который находится к нему ближе.

Если мы кликнем по голубому кружочку, то увидим все архивы в пределах выбранной даты:

 

Может быть, архивирование выполнялось неоднократно в течение суток для более надежного сохранения информации. Жесткие диски не вечны. Если посмотреть любой из веб-архивов, то перед вашим взором предстанет копия сайта (в данном случае моего), со всеми ссылками и переходами. Они работают. Но, как я убедился, не всегда идеально. Особенно часто бывают проблемы с страницами сайтов использующих JS.

Но все это можно пережить, поскольку в начальном коде страницы с сервиса web.archive.org указанное меню никуда не делось. Но взять и скопировать себе на существующий сайт контент с этой страницы не получится. Потому что прогулку по ретро-сайту нельзя совершить без замены всех внутренних ссылок на те, что генерирует Webarchive. Иначе при переходе по ссылкам вы неизбежно окажетесь на страницах современной версии сайта.

 

Вот какие они, эти ссылки:

 Конечно, можно и даже нужно сократить ссылки, вручную стереть лишнее. И тогда мы получим облегченный рабочий вариант, в нашем примере такой:

Если лень это делать вручную, можно прибегнуть к автоматизации. В этом поможет текстовый редактор Notepad. В него еще встроена автоматическая система, позволяющая заменить внутренние ссылки оригинальными. Воспользоваться ею еще проще.

Для этого нужно всего лишь зайти в адресную строку браузера, которая начинается с http://web.archive.org/. Скопировать из нее адрес страницы, где находится нужный слепок вашего сайта. В моем случае он будет выглядеть так:

 

После этого надо после даты (20170902102223) поставить две буквы с низкой чертой « id_», и у вас получится такая конструкция:

 

В таком виде вы вновь вставляете адрес в браузер, после чего давите на клавишу Enter.

К чему приведут все эти действия? Обновится страница с архивом вашего сайта. Все проставленные ссылки будут прямыми. Это даст возможность копировать контент прямо из исходного кода Webarchive.

На восстановление обширного сайта с помощью этого сервиса придется убить уйму времени. Но поскольку других возможностей нет, этот способ можно считать даром небес.

С проблемой безвозвратного исчезновения контента обычно сталкиваются новички. Умудренные опытом владельцы сайтов, неоднократно испытав эту прелесть на себе, во избежание такой ситуации делают резервное копирование своих файлов и всей базы ежедневно. И не один раз, а пять.

Если у вас появится желание просмотреть все страницы сайта (и не обязательно своего), которые спрятаны в этих гигантских вместилищах информации, достаточно будет вбить в строку браузера такой адрес:

Понятно, что вместо моего домена надо вписать тот, который вас интересует. И нажать на клавишу Enter.

 

Появится страница, на которой вы можете отфильтровать искомую информацию в предложенной форме:

 

 

Меня, например, интересовали только текстовые файлы моего блога. Их без предупреждения загрузил Webarchive. Не спрашивайте меня, почему.

Как вытащить из веб-архива уникальный контент для своего сайта?

Способ, о котором сейчас расскажу, я еще не применял на практике. Но работать он должен, так как эту идею я почерпнул из надежного ресурса, хоть и молодого. Метод основывается на том, что ежедневно в интернете уходят в мир иной и никогда не восстают из пепла десятки сайтов.

Содержание большинства этих ресурсов не представляет никакой ценности для тех, кто их создал и забросил, а для других и подавно. Но не исключено, что и среди этой кучи хлама, выброшенного на помойку истории, вы найдете свои золотые самородки. Надо только просматривать исчезнувшие сайты и выбирать приличные тексты. Если в веб-архиве сохранилась хотя бы одна копия такого сайта, этого вполне хватит.

Тексты с мертвых сайтов уже находятся вне поля зрения поисковых систем, (а значит уникален). И вы можете стать законным владельцем такого контента, вытянув его из недр веб-архива. Поисковые системы будут воспринимать его как новый и уникальный. Конечно, если еще при жизни ретро-сайта этот контент не успели жесточайше откопипастить. Поэтому надо всегда проверять его на плагиат.

Но сначала необходимо найти нужный сайт. Авторы метода, о котором я рассказываю, советуют зайти на сайт Nic.ru или Reg.ru. И скачать оттуда перечень освободившихся или освобождающихся доменов. Простыми словами, это сайты, которые уже умерли или собрались в последний путь.

Список представлен в виде примера таблицы. В ее последней колонке видно, сколько архивов каждого сайта имеется в Webarchive. На других сервисах тоже можно проверить, есть ли такие домены в веб-архиве. К примеру, здесь и здесь.

 

 

Готовые списки очень быстро становятся бесполезными, по этому лучше подбирать площадки для грабинга веб-архива самому. А потом просмотреть их содержание и выбрать тексты, которые нравятся. Проверить их на плагиат, после чего контент можно смело использовать или на своем сайте, или продать на текстовой бирже.

Да, метод нелегкий но мною уже не раз опробованный. Уверен! Многие после прочтения предыдущего абзаца наверняка сообразили, что при должной сноровке и разумном подходе это дело можно поставить на поток. А потом наслаждаться проливным дождем из денежных купюр. Разве я не прав?

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *