La Pillola del Geek

4 febbraio 2007

Fai il backup del tuo blog!

L'importanza e la necessita' di prevenire la perdita accidentale dei propri dati di lavoro e' ormai indiscutibile.
E' impensabile continuare a lavorare con il rischio di non avere un backup di sicurezza salvato da qualche parte.
Anche un blog o un semplice sito web richiede il suo backup, specie se il servizio offerto e' gratuito come quello di blogger (google).
Provate a contattare il servizio di helpdesk di blogger per il ripristino del vostro blog dal backup piu' recente e vedete cosa vi rispondono:
<<il servizio di blogger.com non garantisce sulla perdita dei dati!>>
E come vuoi rispondere ad un servizio che fornisce uno spazio web gratuito?!
Rispondi solo con la prevenzione del backup!
Devi fare il backup del tuo blog!
E quale e' il metodo migliore per fare questo benedetto backup?
Semplice, basta fare una copia (mirror) in locale di tutto il tuo blog. Oggi esistono molti programmi adatti a questo scopo, ma molti di essi o sono pesanti, o sono a pagamento, o sono limitati, o girano solo su un'unica piattaforma... ed e' per questo motivo che vi consiglio quello da me preferito: wget.

Wget è un software per lo scaricamento di file da Internet, e nasce dal progetto GNU. Supporta i protocolli HTTP, HTTPS e FTP.
E' uno strumento non interattivo, utilizzato su linea di comando si adatta perfettamente ad applicazioni script, genericamente automatizzato in esecuzioni programmate tramite crontab, massicciamente utilizzato dai sistemisti unix/linux, non ricorrere necessariamente ad inutili interfacce grafiche.
Wget può seguire i collegamenti nelle pagine HTML e XHTML e creare versioni locali di un sito remoto, ricostruendo interamente la struttura delle directories originali, cosi' da permettere la visione del sito scaricato senza bisogno di collegamento a internet. Questo comportamento è ciò che normalmente si intende per "download ricorsivo". In questo, vengono rispettati i cosiddetti Robots Exclusion Standard (cioè i file /robots.txt).
Progettato per essere affidabile su collegamenti di rete lenti o instabili ed ottimizzato per garantire lo scaricamento dell'interno file anche in caso di errore, tramite meccanismi di wait e di retry. E nel caso il server lo supporti, ricomincerà a scaricare da dove si era interrotto.
Supporta la connessione tramite server proxy, cosi' da poter alleggerire il carico sulla rete, velocizzare il recupero e fornire accesso dietro firewall.
Nato nel 1996, nel periodo in cui il web è diventato famoso, è incluso in Unix e Linux. Scritto in C portabile, può essere installato in tutti i sistemi Posix. Wget e' disponibile anche per Mac OS X, Microsoft Windows e OpenVMS.
Inoltre per tutti quelli che non amano l'interfaccia testuale, sono disponibili anche tools grafici che permettono di usare Wget con mouse e finestre, come ad esempio gwget per GNOME oppure wGetGUI e winwget per Windows.


wGetGUI main window


wGetGUI download window


winwget main window

Seppur l'utilizzo di wget possa sembrare complicato, vi garantisco che non c'e' nulla di piu' semplice, completo e pulito da installare sul vostro PC o server. E poi e' GNU...ovvero... nessuna licenza, nessun costo, GRATIS e senza alcuna preoccupazione di aver installato qualcosa di illegale!

Per fare un esempio pratico, per scaricare questo piccolo blog in locale (sul mio WindowsXPprof di casa) e' stato necessario digitare quanto segue:

wget -rkpl 1 erobots=off -o wget_log.txt -HD "lapillola.blogspot.com,flickr.com,ifastnet,youtube.com,
video.google.com" http://lapillola.blogspot.com

  • -r (ricorsivo)
  • -k (converti i link in file locali)
  • -p (includi tutte le immagini necessarie a visualizzare la pagina html)
  • -l 1 (massimo livello di ricorsione, in questo caso 1)
  • -erobots=off (escludi il file robots.txt)
  • -o (file di log)
  • -H (foreign hosts ricorsivi)
  • -D (lista dei domini accettati)

Per i piu' esigenti ecco la sintassi completa disponibile per la versione di wget su windows:

wget --help
GNU Wget 1.10.2, a non-interactive network retriever.
Usage: wget [OPTION]... [URL]...

Mandatory arguments to long options are mandatory for short options too.

Startup:
-V, --version display the version of Wget and exit.
-h, --help print this help.
-b, --background go to background after startup.
-e, --execute=COMMAND execute a `.wgetrc'-style command.

Logging and input file:
-o, --output-file=FILE log messages to FILE.
-a, --append-output=FILE append messages to FILE.
-d, --debug print lots of debugging information.
-q, --quiet quiet (no output).
-v, --verbose be verbose (this is the default).
-nv, --no-verbose turn off verboseness, without being quiet.
-i, --input-file=FILE download URLs found in FILE.
-F, --force-html treat input file as HTML.
-B, --base=URL prepends URL to relative links in -F -i file.

Download:
-t, --tries=NUMBER set number of retries to NUMBER (0 unlimits).
--retry-connrefused retry even if connection is refused.
-O, --output-document=FILE write documents to FILE.
-nc, --no-clobber skip downloads that would download to
existing files.
-c, --continue resume getting a partially-downloaded file.
--progress=TYPE select progress gauge type.
-N, --timestamping don't re-retrieve files unless newer than
local.
-S, --server-response print server response.
--spider don't download anything.
-T, --timeout=SECONDS set all timeout values to SECONDS.
--dns-timeout=SECS set the DNS lookup timeout to SECS.
--connect-timeout=SECS set the connect timeout to SECS.
--read-timeout=SECS set the read timeout to SECS.
-w, --wait=SECONDS wait SECONDS between retrievals.
--waitretry=SECONDS wait 1..SECONDS between retries of a retrieval

--random-wait wait from 0...2*WAIT secs between retrievals.
-Y, --proxy explicitly turn on proxy.
--no-proxy explicitly turn off proxy.
-Q, --quota=NUMBER set retrieval quota to NUMBER.
--bind-address=ADDRESS bind to ADDRESS (hostname or IP) on local host

--limit-rate=RATE limit download rate to RATE.
--no-dns-cache disable caching DNS lookups.
--restrict-file-names=OS restrict chars in file names to ones OS allows

--user=USER set both ftp and http user to USER.
--password=PASS set both ftp and http password to PASS.

Directories:
-nd, --no-directories don't create directories.
-x, --force-directories force creation of directories.
-nH, --no-host-directories don't create host directories.
--protocol-directories use protocol name in directories.
-P, --directory-prefix=PREFIX save files to PREFIX/...
--cut-dirs=NUMBER ignore NUMBER remote directory components.

HTTP options:
--http-user=USER set http user to USER.
--http-password=PASS set http password to PASS.
--no-cache disallow server-cached data.
-E, --html-extension save HTML documents with `.html' extension.
--ignore-length ignore `Content-Length' header field.
--header=STRING insert STRING among the headers.
--proxy-user=USER set USER as proxy username.
--proxy-password=PASS set PASS as proxy password.
--referer=URL include `Referer: URL' header in HTTP request.
--save-headers save the HTTP headers to file.
-U, --user-agent=AGENT identify as AGENT instead of Wget/VERSION.
--no-http-keep-alive disable HTTP keep-alive (persistent connections)

--no-cookies don't use cookies.
--load-cookies=FILE load cookies from FILE before session.
--save-cookies=FILE save cookies to FILE after session.
--keep-session-cookies load and save session (non-permanent) cookies.
--post-data=STRING use the POST method; send STRING as the data.
--post-file=FILE use the POST method; send contents of FILE.

HTTPS (SSL/TLS) options:
--secure-protocol=PR choose secure protocol, one of auto, SSLv2,
SSLv3, and TLSv1.
--no-check-certificate don't validate the server's certificate.
--certificate=FILE client certificate file.
--certificate-type=TYPE client certificate type, PEM or DER.
--private-key=FILE private key file.
--private-key-type=TYPE private key type, PEM or DER.
--ca-certificate=FILE file with the bundle of CA's.
--ca-directory=DIR directory where hash list of CA's is stored.
--random-file=FILE file with random data for seeding the SSL PRNG.
--egd-file=FILE file naming the EGD socket with random data.

FTP options:
--ftp-user=USER set ftp user to USER.
--ftp-password=PASS set ftp password to PASS.
--no-remove-listing don't remove `.listing' files.
--no-glob turn off FTP file name globbing.
--no-passive-ftp disable the "passive" transfer mode.
--retr-symlinks when recursing, get linked-to files (not dir).
--preserve-permissions preserve remote file permissions.

Recursive download:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
--delete-after delete files locally after downloading them.
-k, --convert-links make links in downloaded HTML point to local files.
-K, --backup-converted before converting file X, back up as X.orig.
-m, --mirror shortcut for -N -r -l inf --no-remove-listing.
-p, --page-requisites get all images, etc. needed to display HTML page.
--strict-comments turn on strict (SGML) handling of HTML comments.

Recursive accept/reject:
-A, --accept=LIST comma-separated list of accepted extensions.
-R, --reject=LIST comma-separated list of rejected extensions.
-D, --domains=LIST comma-separated list of accepted domains.
--exclude-domains=LIST comma-separated list of rejected domains.
--follow-ftp follow FTP links from HTML documents.
--follow-tags=LIST comma-separated list of followed HTML tags.
--ignore-tags=LIST comma-separated list of ignored HTML tags.
-H, --span-hosts go to foreign hosts when recursive.
-L, --relative follow relative links only.
-I, --include-directories=LIST list of allowed directories.
-X, --exclude-directories=LIST list of excluded directories.
-np, --no-parent don't ascend to the parent directory.


Che volete di piu' dalla vita?
Ma poi spiegatemi una cosa, perche' devo utilizzare l'interfaccia grafica se con due righe (da interfaccia testuale) faccio tutto e sicuramente senza crash improvvisi!!
Utilizziamo gli standard, non reinventiamo l'acqua calda, quindi utilizziamo le cose che funzionano, please!

ps. HTTrack e' accettabile, ma preferisco GNU Wget.

GNU Wget per unix/linux
GNU Wget per windows

Etichette: ,

11 Comments:

Blogger emuboy said...

grande,è un paio di giorni che penso a come eseguire il backup del mio blog,mi appresto subito ^_^

04/02/07, 13:00  
Anonymous Anonimo said...

Un suggerimento veramente ok, anche se personalmente gia' conoscevo wget.

I miei complimenti.

Mondolibero.

04/02/07, 22:21  
Anonymous Anonimo said...

Non avevo mai pensato all'evntualità di poter perdere i dati! Grazie..cercherò il modo di fare il backup!

05/02/07, 21:56  
Blogger ZBrando said...

E' già da alcuni mesi che uso wget sotto Windows e mi trovo bene.
Buono il suggerimento di usarlo per fare il backup del blog.

06/02/07, 13:55  
Blogger ZBrando said...

Domanda idiota: e per il restore?

14/02/07, 21:27  
Blogger kontrasto said...

ma in realtà già solo l'idea del backup di un blog è geniale..

19/02/07, 12:44  
Blogger Ivana said...

Ciao Carissimo,
per prima cosa volevo farti i complimenti per il tuo blog, e poi volevo approfittare della tua gentilezza per sapere un po' di tips su blogger.
Da pochi pochissimo tempo ho anch'io il mio blog, ma non ho ancora capito come sia possibile avere sulla pagina principale un'introduzione degli articoli con successivo link "continua" che è diretto sul testo integrale. Ho visto che sull'homepage del tuo blog hai questa funzionalità.
Potresti fare luce su questo mio piccolo dubbio?
Ti ringrazio per l'attenzione e ti auguro una buona giornata :-)

20/05/07, 10:21  
Anonymous Anonimo said...

ciao Ivana,

complimenti per il look da pankettara... hehehe...:) veramente figo, solo che purtroppo in italia se ti vesti in maniera alternativa potresti rischiare persino il posto di lavoro... siamo arretrati :°°°
Per aggiungere i "post espandibili" sul tuo blog basta inserire il seguente codice sul foglio di stile:

<MainOrArchivePage>
span.fullpost {display:none;}
</MainOrArchivePage>

<ItemPage>
span.fullpost {display:inline;}
</ItemPage>

Il foglio di stile si trova di solito nella parte superiore del modello tra i tag <style> e </style>. Se il tuo foglio di stile si trova in un altro file, perche' i tag condizionali funzionino sara' necessario aggiungere queste righe al modello. Assicurati di aver aggiunto i tag <style>.

Aggiungi ora il seguente codice al tuo modello, dopo il tag <$BlogItemBody$>:

<MainOrArchivePage>
<a href="<$BlogItemPermalinkURL$>"> Continua...</a>
</MainOrArchivePage>

Adesso vai in Impostazioni->Formattazione e in fondo troverai il riquadro identificato con "Modello post". Copia/incolla le righe che seguono nel riquadro e clicca su Salva impostazioni.

Scrivi qui una sintesi del tuo post
<span id="fullpost">
Scrivi qui il testo che completa il tuo post (la parte da nascondere)
</span>

Se adesso scrivi un nuovo post ti apparira' chiaramente la collocazione del testo riassuntivo e del testo di completamento del post. Vedrai anche che i post gia' pubblicati si possono modificare, quando e' opportuno, in modo da suddividerli in testo riassuntivo e testo restante. Il "Continua..." cliccabile comparira' solo nel caso di post il cui testo e' stato cosi' suddiviso.

Buona giornata da un ex dark :)

20/05/07, 12:43  
Anonymous Anonimo said...

ciao,

posto il mio indirizzo msn tra i commenti di questo post, anche se non c'entra molto con l'argomento in questione.

francescoservino@hotmail.com

per sommi capi: ho masterizzato mfe-distro per GC, sono riuscito a farlo partire ma non riesco capire come fare per:

far partire la riporduzione di dvd col menù iniziale;

far partire i divx non presenti sullo stesso dvd del distro;

caricare il programma e i file necessari all'esecuzione nell'ARAM o magari sulla memory card.

sto cercando informazioni in rete da diversi giorni, senza concludere nulla.

se potessi darmi dei consigli te ne sarei davvero grato.

08/07/07, 20:04  
Blogger elect said...

Ciao Vincenzo, senti ho letto il tuo commento su un altro blog a proposito del progetto di mettere su un wl-500gP (io ho un Deluxe) openwrt abbinato a amule e un client torrent...

Avevi detto che avresti fatto un how to..

Aspetto con trepidazione :D

Ps: scusami se ho scritto qui, però non ho trovato altro modo per "contattarti" :D

Un saluto
Giuseppe

01/04/08, 12:00  
Anonymous Anonimo said...

davvero?

23/01/12, 17:38  

Posta un commento