Historia (Archiwum) stron WWW

W internecie istnieje wiele systemów które 'czytają cały internet’.
Dla przykładu Google, musi odwiedzić twoją stronę, by wiedzieli co się na niej znajduje.

Google może przechowywać kopię twojej strony

 

Choć istnieje wygodniejszy lepszy system – WayBack Machine z Archive.org

 

Jeśli jesteś ciekaw jak wyglądała dana strona w danym okresie – możesz to sprawdzić.

Zerknijmy jak wyglądał onet.pl w 1997 r.

 

W 1997 reklam było znacznie mniej 🙂

 

wp.pl 17 stycznia 1999

 

Reklama

Po co takie archiwum?

Dziedzictwo 🙂 – historia

Odzyskanie utraconych danych

Czasem, może się zdarzyć, że twoja strona przetanie istnieć (np. ze względu na włamanie, awarię serwera, błąd, przypadkowe usunięcie).

Może okazać się, że wszystkie twoje artykuły przepadły bezpowrotnie.

Może jednak się okazać, że kopia twoich artykułów znajduje się gdzieś w sieci np. na archive.org.
Jeśli jest, to możesz z powrotem skopiować artykuły (odzyskać, przynajmniej część) .

Pamiętaj jednak że nawet jeśli zapiszesz stronę np. z archive.org jako HTML.
To nie będzie to: to samo co twoja wersja. Współcześnie strony generowane są dynamicznie.
To znaczy masz pewien szablon jak ma wyglądać strona, a dana aplikacja np. WordPress w pewnym momencie umieszcza treści z bazy danych w tym szablonie otrzymując finalną wersję.

Jeśli nie robisz kopi zapasowych – zacznij!

 Jeśli posiadasz stronę, to twój dostawca miejsca na stronę (hostingu) prawie na pewno wykonuje cykliczne kopie.
Nie mniej warto mieć również swoją kopię, bo różnie bywa.

Strona nie istnieje, ale ..

Wielokrotnie potrzebowałem informacji ze strony, która przestała istnieć w miedzyczasie.
Albo znajdywałem linki które do nikąt nie prowadziły.

W takiej sytuacji często mogłem dostać się do treści przez archive.org.

Dowód

Gdy na danej stronie pojawi się coś dziwnego – np. próba wyłudzenia.
Warto przygotować dowód, że coś takiego miało miejsce.

Możesz zrobić zrzut ekranu, jednak bardzo łatwo można przygotować zrzut ekranu z dowolną treścią.
Zatem taki dowód, bardzo łatwo podważyć (jest mało wiarygodny).

Zdecydowanie lepiej (dodatkowo) zgłosić, wykonanie kopi danej strony w archive.org.
Wtedy wiadomo, że nikt nie modyfikował takiej strony – tak dana strona wygląła.

Webarchive oczywiście nie będzie miał dostępu do stron które wymagają logowania!

Możesz zapoznać się ze specjalistycznymi usługami (trzeba zainstalować dodatek do przeglądarki).

https://www.webpreserver.com

https://www.webpreserver.com

Technologie

Czasem potrzene są duże ilosci danych do analizy/trenowania sieci neuronowych.
Choć nawet w przypadku GPT-3 wikipedia i ksiązki są wystarczająco duże 🙂

Kolejna rewolucja w AI (GPt-3)

Artykuł nie został jeszcze opublikowany :/

AI

Artykuł nie został jeszcze opublikowany :/

Gdy archive.org, upubliczni twoje prywatne dane..

Wtedy należy się do nich odezwać.
Kontakt znajdzesz w TOS

Kontakt, TOS

https://archive.org/about/terms.php

Zobacz również

Internet mobilny? Uważaj! Twoje konto może być obciążone bez wysłania SMS premium!

Z internetu mobilnego korzystasz w telefonie. Być może masz nawet router mobilny. Jeśli nie zablokujesz WAP billing – to może cię to dużo kosztować!

Źródło techniczne

Nawet nie próbuj – jeśli nie jesteś „techniczny”!

https://commoncrawl.org

https://commoncrawl.org

Tak na szybko:

Dane przechowywane są na serwerach Amazona S3 w kolumnach: Apache Parquet (parquet.apache.org).

Dane można przetwarzać przy pomocy np. Apache Spark, Apache Hive czy AWS Athena.
AWS Athena może być o tyle ciekawa, że nie trzeba stawiać serwera. Co prawda każde zapytanie kosztuje (w zależności ile danych musi być przeskanowane), ale może to być lepsza opcja (wygodniejsza, szybsza,, tańsza).

https://commoncrawl.org/the-data/get-started/

Gdy potrzebujesz konkretne strony lub chcesz sprawdzić czy znajdująsie w indeksie

wejdź na:
https://index.commoncrawl.org

Wybierz interesujące archiwum (kolumna Search Page)

Tu już możesz wyszukiwać (pamiętaj że przeszukujesz tylko dane archiwum!)

Dla zapytania o moją stronę otrzymuję listę:

{"urlkey": "pl,starthere)/", "timestamp": "20210302101317", "url": "https://starthere.pl/", "mime": "text/html", "mime-detected": "text/html", "status": "200", "digest": "VT4YRPCZSJESPN3T7BPYS6P7QKHJO5B6", "length": "33373", "offset": "554783258", "filename": "crawl-data/CC-MAIN-2021-10/segments/1614178363809.24/warc/CC-MAIN-20210302095427-20210302125427-00583.warc.gz", "languages": "pol", "encoding": "UTF-8"}
...


A to są „współrzędne” pliku.

  • filename – względny adres pliku archiwum.
    Jednak takie archiwum zawiera w sobie bardzo dużą ilość RÓŻNYCH stron! Jadna po drugiej.
  • offset – określa w którym miejscu w archiwum zaczyna się nasz plik,
  • length – to długość naszego pliku.

Bez kombinowania (przez przeglądarkę)

W sumie, można użyć serwerów indeksujących.
Wejðź na:
https://index.commoncrawl.org/[nazwa archiwum]/[url taki jak otrzymaliśmy w odpowiedzi z CDX serwera]

Pobieranie curl/Boto3/AWS cli

serwery s3 dostępne są publicznie, zatem można pobrać curlem i potem rozpakować

Dla powyższego przykładu dane można pobrać:

curl -s -r554783258-$((554783258+33373-1)) \
"https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2021-10/segments/1614178363809.24/warc/CC-MAIN-20210302095427-20210302125427-00583.warc.gz" \
| gzip -dc

„curl” to popularny program do pobierania 🙂

„-s” tryb cichy bez pasków postępu itd.

„-r” określamy zakres bajtów które chcemy pobrać „od-do”.
by uniknąć ręczych obliczeń powłoka „$” może za nas policzyć.


gzip – program do kompresji/dekompresji

„-d ” dla dekompresji

„-c” by gzip zdekompresował dane i wyświetlił w konsoli (stdout)

Szablon

curl -s -r[offset]-$(([offset]+[length]-1)) „https://commoncrawl.s3.amazonaws.com/[filename]” | gzip -dc

Oczywiście można zapisać taki plik dodająć np. ” > moja_strona.html”

Oczywiście jak masz boto3 lub AWS Cli to możesz pobrać objekt przy ich pomocy.
Bucket: commoncrawl, klucz to filename, a range jak powyżej.

Inne źródła

Istnieje wiele inicjatyw archiwilizacji stron www.

Część z nich obejmuje tylko np. strony danego kraju, stron z daną domeną najwyższego rzedu (np. .eu), strony rządowe,..

Na wikipedii masz listę: https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

Czy posiadasz kopie zapasowe?

Jeśli nie, to je zrób!
Jeśli są nieaktualne – to je zrób!

Czy kopia działa? Nie wiesz? – sprawdź!

Historii słyszałem wiele

  • „dysk mi upadł, spalił się”,
  • nie opłaciłem faktury w terminie i „zaorali serwer” (bez możliwości odzyskania danych),
  • miałem kopię ale …
Czasem dzieje się coś niespotykanego.
Po takim pożarze jak w serweroni OVH SBG2 kopia na drugim serwerze w tym samym centrum danych raczej nie pomogło!
Czas na „Disaster recovery Plan” – posiadasz?
Czy jesteś w stanie zaakceptować stratę?

Ciekawe? Newsletter?

Subscribe
Powiadom o
guest
4 komentarzy
Oldest
Newest Most Voted
Informacje zwrotne w treści
Wyświetl wszystkie komentarze
artur44
artur44
3 lat temu

niestety nie każda strona internetowa jest w archive.org
nawet brakuje wiele z końcówką .pl

karol23
karol23
3 lat temu

gdyby jeszcze był dostęp do większej liczby stron polskich (niż na archive.org)
a wiele z nich po prostu nie jest zarchiwizowana. albo polska wersaj archiwe.org