W internecie istnieje wiele systemów które 'czytają cały internet’.
Dla przykładu Google, musi odwiedzić twoją stronę, by wiedzieli co się na niej znajduje.
Google może przechowywać kopię twojej strony
Choć istnieje wygodniejszy lepszy system – WayBack Machine z Archive.org
Jeśli jesteś ciekaw jak wyglądała dana strona w danym okresie – możesz to sprawdzić.
Zerknijmy jak wyglądał onet.pl w 1997 r.
Po co takie archiwum?
Dziedzictwo 🙂 – historia
Odzyskanie utraconych danych
Czasem, może się zdarzyć, że twoja strona przetanie istnieć (np. ze względu na włamanie, awarię serwera, błąd, przypadkowe usunięcie).
Może okazać się, że wszystkie twoje artykuły przepadły bezpowrotnie.
Może jednak się okazać, że kopia twoich artykułów znajduje się gdzieś w sieci np. na archive.org.
Jeśli jest, to możesz z powrotem skopiować artykuły (odzyskać, przynajmniej część) .
Pamiętaj jednak że nawet jeśli zapiszesz stronę np. z archive.org jako HTML.
To nie będzie to: to samo co twoja wersja. Współcześnie strony generowane są dynamicznie.
To znaczy masz pewien szablon jak ma wyglądać strona, a dana aplikacja np. WordPress w pewnym momencie umieszcza treści z bazy danych w tym szablonie otrzymując finalną wersję.
Jeśli nie robisz kopi zapasowych – zacznij!
Jeśli posiadasz stronę, to twój dostawca miejsca na stronę (hostingu) prawie na pewno wykonuje cykliczne kopie.
Nie mniej warto mieć również swoją kopię, bo różnie bywa.
Strona nie istnieje, ale ..
Wielokrotnie potrzebowałem informacji ze strony, która przestała istnieć w miedzyczasie.
Albo znajdywałem linki które do nikąt nie prowadziły.
W takiej sytuacji często mogłem dostać się do treści przez archive.org.
Dowód
Gdy na danej stronie pojawi się coś dziwnego – np. próba wyłudzenia.
Warto przygotować dowód, że coś takiego miało miejsce.
Możesz zrobić zrzut ekranu, jednak bardzo łatwo można przygotować zrzut ekranu z dowolną treścią.
Zatem taki dowód, bardzo łatwo podważyć (jest mało wiarygodny).
Zdecydowanie lepiej (dodatkowo) zgłosić, wykonanie kopi danej strony w archive.org.
Wtedy wiadomo, że nikt nie modyfikował takiej strony – tak dana strona wygląła.
Webarchive oczywiście nie będzie miał dostępu do stron które wymagają logowania!
Możesz zapoznać się ze specjalistycznymi usługami (trzeba zainstalować dodatek do przeglądarki).
Technologie
Czasem potrzene są duże ilosci danych do analizy/trenowania sieci neuronowych.
Choć nawet w przypadku GPT-3 wikipedia i ksiązki są wystarczająco duże 🙂
Gdy archive.org, upubliczni twoje prywatne dane..
Wtedy należy się do nich odezwać.
Kontakt znajdzesz w TOS
Kontakt, TOS
https://archive.org/about/terms.php
Zobacz również
Z internetu mobilnego korzystasz w telefonie. Być może masz nawet router mobilny. Jeśli nie zablokujesz WAP billing – to może cię to dużo kosztować!
Źródło techniczne
Nawet nie próbuj – jeśli nie jesteś „techniczny”!
Tak na szybko:
Dane przechowywane są na serwerach Amazona S3 w kolumnach: Apache Parquet (parquet.apache.org).
Dane można przetwarzać przy pomocy np. Apache Spark, Apache Hive czy AWS Athena.
AWS Athena może być o tyle ciekawa, że nie trzeba stawiać serwera. Co prawda każde zapytanie kosztuje (w zależności ile danych musi być przeskanowane), ale może to być lepsza opcja (wygodniejsza, szybsza,, tańsza).
https://commoncrawl.org/the-data/get-started/
Gdy potrzebujesz konkretne strony lub chcesz sprawdzić czy znajdująsie w indeksie
wejdź na:
https://index.commoncrawl.org
Wybierz interesujące archiwum (kolumna Search Page)
Tu już możesz wyszukiwać (pamiętaj że przeszukujesz tylko dane archiwum!)
Dla zapytania o moją stronę otrzymuję listę:
{"urlkey": "pl,starthere)/", "timestamp": "20210302101317", "url": "https://starthere.pl/", "mime": "text/html", "mime-detected": "text/html", "status": "200", "digest": "VT4YRPCZSJESPN3T7BPYS6P7QKHJO5B6", "length": "33373", "offset": "554783258", "filename": "crawl-data/CC-MAIN-2021-10/segments/1614178363809.24/warc/CC-MAIN-20210302095427-20210302125427-00583.warc.gz", "languages": "pol", "encoding": "UTF-8"} ...
A to są „współrzędne” pliku.
- filename – względny adres pliku archiwum.
Jednak takie archiwum zawiera w sobie bardzo dużą ilość RÓŻNYCH stron! Jadna po drugiej. - offset – określa w którym miejscu w archiwum zaczyna się nasz plik,
- length – to długość naszego pliku.
Bez kombinowania (przez przeglądarkę)
W sumie, można użyć serwerów indeksujących.
Wejðź na:
https://index.commoncrawl.org/[nazwa archiwum]/[url taki jak otrzymaliśmy w odpowiedzi z CDX serwera]
Pobieranie curl/Boto3/AWS cli
serwery s3 dostępne są publicznie, zatem można pobrać curlem i potem rozpakować
Dla powyższego przykładu dane można pobrać:
curl -s -r554783258-$((554783258+33373-1)) \
"https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2021-10/segments/1614178363809.24/warc/CC-MAIN-20210302095427-20210302125427-00583.warc.gz" \
| gzip -dc
„curl” to popularny program do pobierania 🙂
„-s” tryb cichy bez pasków postępu itd.
„-r” określamy zakres bajtów które chcemy pobrać „od-do”.
by uniknąć ręczych obliczeń powłoka „$” może za nas policzyć.
gzip – program do kompresji/dekompresji
„-d ” dla dekompresji
„-c” by gzip zdekompresował dane i wyświetlił w konsoli (stdout)
Szablon
curl -s -r[offset]-$(([offset]+[length]-1)) „https://commoncrawl.s3.amazonaws.com/[filename]” | gzip -dc
Oczywiście można zapisać taki plik dodająć np. ” > moja_strona.html”
Oczywiście jak masz boto3 lub AWS Cli to możesz pobrać objekt przy ich pomocy.
Bucket: commoncrawl, klucz to filename, a range jak powyżej.
Inne źródła
Istnieje wiele inicjatyw archiwilizacji stron www.
Część z nich obejmuje tylko np. strony danego kraju, stron z daną domeną najwyższego rzedu (np. .eu), strony rządowe,..
Na wikipedii masz listę: https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
Czy posiadasz kopie zapasowe?
Jeśli nie, to je zrób!
Jeśli są nieaktualne – to je zrób!
Czy kopia działa? Nie wiesz? – sprawdź!
Historii słyszałem wiele
- „dysk mi upadł, spalił się”,
- nie opłaciłem faktury w terminie i „zaorali serwer” (bez możliwości odzyskania danych),
- miałem kopię ale …
niestety nie każda strona internetowa jest w archive.org
nawet brakuje wiele z końcówką .pl
No tak.
Niestety takie odwiedzanie każdej domeny, strony i zapisanie danych w miarę optymalnie nie jest proste.
W polskim rejestrze mamy koło 2,5 miliona domen (dokładną wartość można sprawdzić na stronie rejestru .pl – dns.pl).
Nie wiem (nie sprawdzałem) ile stron posiada archive.org.
Natomiast kiedyś analizowałem dane (terabajty danych) z archiwum commoncrawl.org (przechowywanym na serwerach amazona s3)
i tam jednak zindeksowanych domen było znacznie mniej niż ilość domen pod którymi może być chociaż jedna strona.
Sam commoncrawl.org też możesz zobaczyć
https://commoncrawl.org/the-data/get-started/
jednak jest to tylko baza danych!
A bez odpowiednich narządzi nic nie zobaczysz.
Dodałem informacje o commoncrawl.org (może pomoże, choć archiwa nie są zbyt bogate).
Bardzo techniczne i wmaga przeszukania wielu archiwów, bo w jednym coś może być, a w drugim nie.
gdyby jeszcze był dostęp do większej liczby stron polskich (niż na archive.org)
a wiele z nich po prostu nie jest zarchiwizowana. albo polska wersaj archiwe.org