Приветствую вас, любознательные читатели блога seo-ap.ru! Недавно я рассказывал, что такое Википедия. Это виртуальная энциклопедия, которая завоевала всенародную любовь. Невзирая на то, что она постоянно подвергается критике со стороны ученых мужей
Одно то, что этот проект вот уже не один десяток лет «пашет» на пользу всего прогрессивного человечества, питает его полезной информацией на безвозмездной основе, заслуживает большого уважения и длинных дифирамбов.
Но в сети есть еще один некоммерческий проект, не менее грандиозный – web.archive.org. Он создан, чтобы надежно хранить сайты, печатные материалы, аудио и видеопродукцию. Все, чем сегодня наполнен интернет. И то, что было во всемирной паутине много лет назад. Разве такое возможно?
Да. Более того, сайты архивируются не в виде мертвых скриншотов. Они реально работают! На веб-страницах имеются все картинки, ссылки, сохраняется стилевое оформление CSS. Сайты в веб-архиве имеют еще и сотни копий. Они накопились за все время, пока сайты еще функционировали, и содержат всю их эволюцию, от рождения и до последнего вздоха.
Какую пользу веб-архив сайтов может дать лично вам?
Вы можете отправиться в путешествие по страничкам сайта вашей юности, поностальгировать. Проследить, как изменялся и развивался не только ваш, но и любой другой сайт в интернете. К примеру, материалы для своих статей о поисковой системе Апорт, которая уже приказала долго жить, я брал как раз в этом веб-архиве сайтов, в его потаенных закромах. И все скриншоты, наглядно показывающие хронологию главной страницы всеми любимого Яндекса, взяты оттуда же.
Следующий сюрприз. Допустим, вы добавили в закладку сайт, а в нем страница не открывается. Тогда вы обращаетесь к Гуглу или Яндексу, пытаясь извлечь страницу из кеша (изучите информацию о том, как эффективнее искать что-либо в Google – пригодится!). Но если к вашему ресурсу уже давно нет доступа, мертвые ссылки оживить поможет только archive.org. Хотя и там этот ресурс может отсутствовать. Почему? Об этом напишу чуть далее по тексту.
Если звезды сошлись так, что вы не сделали резервную копию своего сайта (бэкап), то вы сможете восстановить его из web archive. И это будет единственный способ решить проблему. При этом можно убрать из ссылок все привязки к web.archive.org, они могут стать прямыми для вашего сайта. Более подробно о ссылках и привязках читайте ниже.
И еще одно полезное свойство веб-архива сайтов. Он дает доступ к поиску готовых уникальных текстов. Если написание статей – не ваше призвание, то здесь вы найдете их целые залежи, настоящие Клондайк и Эльдорадо, вместе взятые! Но чтобы ими разжиться, кое-какие телодвижения совершить все же придется.
Мертвые сайты с их внутренним наполнением недоступны в действующей сети интернета. Но вы можете зайти в веб-архив, отыскать нужные вам тексты и вытащить их с того света. А затем прогнать через проверку на уникальность и опубликовать на своих страницах. Никто не обвинит вас в воровстве (плагиате) и нарушении авторских прав в копирайтинге. Однако этот увлекательный поиск некоторым может показаться долгим и тернистым.
Webarchive появился в интернете, страшно сказать – в далеком 1996 году! Еще в прошлом веке. На то время задача, стоящая перед разработчиками проекта, казалась архисложной, как говорил вождь мирового пролетариата. Несмотря на то, что интернет тогда еще не вошел в полную силу, сайтов было в сотни и тысячи раз меньше. И архивировались они гораздо реже. Как говорится, миссия невыполнима. Но мало-помалу, постепенно увеличивая вместимость своих «сусеков» и «кладовых», сервис успешно копировал и резервировал сайты.
Уже в следующем, 1997 году Webarchive поместил в базу сам себя. Посмотрите, как выглядела его главная страница более двадцати лет назад:
- Сейчас вся информация веб-архива занимает дисковое пространство объемом в 1015 Тбайт. Это гигантское число носит название квадриллион. Чтобы вам было легче его представить – примерно столько муравьев живет во всех муравейниках нашей планеты. Сервис Web.archive.org имеет официальный статус библиотеки. У него зеркала во многих центрах хранения и обработки данных.
- Если считать только архивы разных интернет-страниц, то их количество уже приближается к ста миллиардам. В это число входят все копии, которые были хоть однажды сняты и сохранены.
- Wayback Machine (обратная машина). Это архив страниц интернета. Он находится на главной странице сайта и доступен каждому. Здесь же хранятся телевизионные архивы, аудиоматериалы, отсканированные книги:
Просмотр сайта в Web.arhive
Но в данном случае нас интересуют возможности Wayback Machine. В строку формы, которая там имеется, можно вставить URL (адрес вашего сайта или отдельной страницы) или домен сайта, который вам нужен. Перед этим разберитесь с тем, что представляют собой домен и URL , чем они отличаются друг от друга. И тогда вы окажетесь на странице с календариком:
Здесь я вижу, что мой блог в первый раз был за архивирован в марте 2015 г. Ровно через пять дней после того, как я зарегистрировал (купил) свое доменное имя seo-ap.ru. Много воды утекло с той памятной даты. За все это время архивное копирование сайта выполнялось 100 раз, и каждую копию можно посмотреть и пощупать, переходя со страницы на страницу (все ссылки работают).
Как открыть мертвые ссылки? Для этого сайт должен находиться в archive.org.
Смотрим на календарь. Цифры в голубых кружочках обозначают даты создания так называемых слепков – веб-архивов сайта. Разумеется, в процессе снятия копии не будут учитываться изменения, которые производились на ресурсе после того, как запущено архивирование. А время его проведения Webarchive устанавливает в соответствии с собственными таймерами и заложенными программами.
Поэтому не всегда имеет смысл использовать веб-архив в качестве способа открытия сайтов, недоступных лишь временно. В Яндексе можно тоже просмотреть их архивы:
Такая же возможность просмотра копий веб-страниц есть и в Гугле:
А к помощи мощного сервиса, о котором идет речь, надо прибегать в случаях, когда в существующем пространстве интернета уже давно нет страниц, которые вы ищете. Но их можно извлечь из дальних закромов, если отправиться туда на машине времени под названием Webarchive .
Но чтобы сайт попал в archive.org, необходимы два условия:
- В файле robots.txt должен отсутствовать запрет для его индексации роботом с web.archive.org. Табу прописано следующим образом:
User-agent: ia_archiver
Disallow: /
Когда мне понадобилось написать статью об электронной почте mail.ru, я не нашел в веб-архиве никаких копий этого сайта именно по этой причине. В его файле robots.txt как раз был подобный запрет:
- Шансы попадания сайта в архивную базу возрастут, если его добавить в каталог под названием Dmoz (УЖЕ НЕ ВОЗМОЖНО ПРАВДА). Также очень хорошо, если на ваш ресурс ссылаются другие хорошо посещаемые сайты, находящиеся в Webarchive. Даже если с главной страницы этого сервиса был сделан простой запрос на ваш сайт, к нему будет привлечено внимание архиватора.
Как найти и восстановить нужный сайт без бэкапа web-архива?
В верхней части страницы расположена временная шкала, с помощью которой можно легко перемещаться по архивам. Слепки, которые есть для этого сайта, обозначены черными вертикальными черточками. Бывает, что веб-архив битый. Тогда надо открыть другой слепок, который находится к нему ближе.
Если мы кликнем по голубому кружочку, то увидим все архивы в пределах выбранной даты:
Может быть, архивирование выполнялось неоднократно в течение суток для более надежного сохранения информации. Жесткие диски не вечны. Если посмотреть любой из веб-архивов, то перед вашим взором предстанет копия сайта (в данном случае моего), со всеми ссылками и переходами. Они работают. Но, как я убедился, не всегда идеально. Особенно часто бывают проблемы с страницами сайтов использующих JS.
Но все это можно пережить, поскольку в начальном коде страницы с сервиса web.archive.org указанное меню никуда не делось. Но взять и скопировать себе на существующий сайт контент с этой страницы не получится. Потому что прогулку по ретро-сайту нельзя совершить без замены всех внутренних ссылок на те, что генерирует Webarchive. Иначе при переходе по ссылкам вы неизбежно окажетесь на страницах современной версии сайта.
Вот какие они, эти ссылки:
Конечно, можно и даже нужно сократить ссылки, вручную стереть лишнее. И тогда мы получим облегченный рабочий вариант, в нашем примере такой:
Если лень это делать вручную, можно прибегнуть к автоматизации. В этом поможет текстовый редактор Notepad. В него еще встроена автоматическая система, позволяющая заменить внутренние ссылки оригинальными. Воспользоваться ею еще проще.
Для этого нужно всего лишь зайти в адресную строку браузера, которая начинается с http://web.archive.org/. Скопировать из нее адрес страницы, где находится нужный слепок вашего сайта. В моем случае он будет выглядеть так:
После этого надо после даты (20170902102223) поставить две буквы с низкой чертой « id_», и у вас получится такая конструкция:
В таком виде вы вновь вставляете адрес в браузер, после чего давите на клавишу Enter.
К чему приведут все эти действия? Обновится страница с архивом вашего сайта. Все проставленные ссылки будут прямыми. Это даст возможность копировать контент прямо из исходного кода Webarchive.
На восстановление обширного сайта с помощью этого сервиса придется убить уйму времени. Но поскольку других возможностей нет, этот способ можно считать даром небес.
С проблемой безвозвратного исчезновения контента обычно сталкиваются новички. Умудренные опытом владельцы сайтов, неоднократно испытав эту прелесть на себе, во избежание такой ситуации делают резервное копирование своих файлов и всей базы ежедневно. И не один раз, а пять.
Если у вас появится желание просмотреть все страницы сайта (и не обязательно своего), которые спрятаны в этих гигантских вместилищах информации, достаточно будет вбить в строку браузера такой адрес:
Понятно, что вместо моего домена надо вписать тот, который вас интересует. И нажать на клавишу Enter.
Появится страница, на которой вы можете отфильтровать искомую информацию в предложенной форме:
Меня, например, интересовали только текстовые файлы моего блога. Их без предупреждения загрузил Webarchive. Не спрашивайте меня, почему.
Как вытащить из веб-архива уникальный контент для своего сайта?
Способ, о котором сейчас расскажу, я еще не применял на практике. Но работать он должен, так как эту идею я почерпнул из надежного ресурса, хоть и молодого. Метод основывается на том, что ежедневно в интернете уходят в мир иной и никогда не восстают из пепла десятки сайтов.
Содержание большинства этих ресурсов не представляет никакой ценности для тех, кто их создал и забросил, а для других и подавно. Но не исключено, что и среди этой кучи хлама, выброшенного на помойку истории, вы найдете свои золотые самородки. Надо только просматривать исчезнувшие сайты и выбирать приличные тексты. Если в веб-архиве сохранилась хотя бы одна копия такого сайта, этого вполне хватит.
Тексты с мертвых сайтов уже находятся вне поля зрения поисковых систем, (а значит уникален). И вы можете стать законным владельцем такого контента, вытянув его из недр веб-архива. Поисковые системы будут воспринимать его как новый и уникальный. Конечно, если еще при жизни ретро-сайта этот контент не успели жесточайше откопипастить. Поэтому надо всегда проверять его на плагиат.
Но сначала необходимо найти нужный сайт. Авторы метода, о котором я рассказываю, советуют зайти на сайт Nic.ru или Reg.ru. И скачать оттуда перечень освободившихся или освобождающихся доменов. Простыми словами, это сайты, которые уже умерли или собрались в последний путь.
Список представлен в виде примера таблицы. В ее последней колонке видно, сколько архивов каждого сайта имеется в Webarchive. На других сервисах тоже можно проверить, есть ли такие домены в веб-архиве. К примеру, здесь и здесь.
Готовые списки очень быстро становятся бесполезными, по этому лучше подбирать площадки для грабинга веб-архива самому. А потом просмотреть их содержание и выбрать тексты, которые нравятся. Проверить их на плагиат, после чего контент можно смело использовать или на своем сайте, или продать на текстовой бирже.
Да, метод нелегкий но мною уже не раз опробованный. Уверен! Многие после прочтения предыдущего абзаца наверняка сообразили, что при должной сноровке и разумном подходе это дело можно поставить на поток. А потом наслаждаться проливным дождем из денежных купюр. Разве я не прав?
29 комментариев. Оставить новый
1) не понятно для чего все-таки нужен notepad?
почему id_ нельзя вставить сразу в браузер?
2) в таком случае, как и во всех др. методах не сохраняется СSS страницы, т.е нет ни цвета, ни структуры, ничего кроме ссылок и неформатированного текста. Тогда нет смысла в этом методе.
Или я что-то делаю не так?
Ну, халява простой не бывает. Приходится руками поработать.
До момента прочтения данной статьи никогда раньше не догадалась бы использовать Webarchive для такой цели как поиск уникально контента, ведь действительно там же хваниться множество информации находящийся в архиве!
Заказал дизайн сайта, прошла время, и знакомый нашел сайт с аналогичным дизайном. Теперь, руководствуясь информацией из данной статьи я смогу узнать у кого дизайн появился раньше и, если у меня, предъявить претензии! Спасибо!
Как-то сталкивался с тем, что было необходимо восстановить частично сайт. Да, конечно, это задача не из легких и не быстро, однако результат действенный.
Да метод поиска контента предложенному Вами способу, конечно, весь затруднительный, однако средств на наем копирайтера у меня нет в данный момент. Думаю, ночь будет бессонная, пока я со всем разберусь.
Даже и не думал, что есть такая возможность. Хотя это очень даже хорошо, теперь можно наблюдать за тем, кто создал сайт раньше с аналогичным дизайном. Займусь изучением этой темы плотнее. Интересная штука, этот веб-архив!
Интересно в этом всем разобраться! Обязательно разберусь и узнаю попал ли мой сайт в archive. Я думаю, что это важно для сайта. Правда, если правообладатель решил удалить копии или веб-ресурс закрыли по закону интеллектуальной собственности, то можно и не узнать, как сайт выглядел раньше.
А я в целях сохранения свой информации на сайте уникальной вышел из ситуации очень просто. В файле robots.txt прописал запретную директиву для Webarchive. Теперь веб-машина больше не создает копии моего ресурса. Спасибо за статью!
Писала дипломную работу по терциям развития дизайна и оформления сайтов интернет-магазинов. Прочитав Вашу статью, поняла, что оказывается все дизайны по годам, располагаются в архиве. Однако да, все крупные сайты почему-то блокируют индексацию роботом ((
До сегодняшнего дня понятия не имел о существовании такого ресурса! Невероятный проект с такой древней историей. Я, правда, восхищен, особенно, когда отрыл там любимый в мою молодость сайт по книгам! Такая ностальгия, словами не передать. Спасибо автору!
Пожалуйста
Webarchive настоящая машина времени с гигантской информационной базой. В данном проекте невероятно все: и год создания (1996!) и функционал, и возможности которые он предоставляет! Впервые о нем я узнала в далекие годы студенчества, когда сайтов было значительно меньше, чем сейчас.
Эм. У вас был тогда интернет? хм….
Спасибо за познавательную информацию. Пользовалась архивом всего один раз, необходимо было найти сайт, которого не было в поисковике. Но никогда не думала, что из веб-архива можно вытащить уникальный контент для собственного сайта. Обязательно воспользуюсь Вашими рекомендациями, спасибо!
Писать уникальные статьи самостоятельно вызывает у меня проблемы, переписывать своими словами большое кол-во информации сложно и занимает много времени. Решил воспользоваться вашим методом, найти уникальный текст в веб-архиве. Покопаться мне пришлось знатно, но это того стоило, если хорошо поискать можно найти такие невероятные идеи! Спасибо за уникальную во всех смыслах статью!
Хорошо, что это не единственный метод продвижения, а то бы у нас были проблемы)
Просматривать старые версии сайта действительно полезно. порой при модернизации сайта теряютс важные страницы и интерактивные формы, которые вновь могли бы быть полезными.
И нередко прибыльно, то текстовочку найдешь, то баннер, то элемент полезный или тест.
Спасибо за открытие для такого полезного ресурса , как вэб архив. После редизайна сайта снизился трафик посетителей на сайт и чтобы хоть как-то спасти положение надо было вернуть прежний личный кабинет на сайт. По вашей программе смогли вспомнить что мы упустили при создании нового оформления для сайта.
Пожалуйста
О, слышал про этот ресурс. Еще удаленные страницы можно просматривать и находить на Archive.is. Там не нужна регистрация и смс.Также можно просмотреть ранние версии страницы.
Могу только сказать, что выискивать уникальный контент в Вэбархиве это ну просто архитяжкий труд (здесь еще стоит учитывать, что сайты с аналогичными материалами уходят под фильтр).
Поподробнее пожалуйста про «сайты с аналогичными материалами». Вроде как вы неправы)
Все-таки восстановление сайтов из архива — это очень быстро, легко и просто. Сам спасался так пару раз. Автор, спасибо за подробную статью.
Было просто и понятно. Щас не так
Интересно, а если текст из Webarchive уникальный на данный момент, это может ли значит что ПС про него забыли, поле того, как сайт умер. Никто не подскажет?
Да, поиск про него забыли. Нет ссылки. Контент ничейный
Он не наш. Но в целом так и есть. Штука полезная