Site down

agoago

Site down

Per amor di scienza, per scemenza, forse per megolamania o per altri motivi tutti miei ho fatto un test suicidio, magari mai provato precendemente, almeno su molti domini, in quanto rischioso.

Da lunedi' scorso 9 gennaio ho spento tutti i miei server, di conseguenza circa un 500 - 1000 siti down, tra siti serissimi-storici, vecchi siti di spam e siti di test. Server iis ed apache.

L'avevo gia' fatto una volta, ma solo per un paio di giorni per testare alcune prove di dns e solo per i siti di test.

Vorrei capire come si comportano gli spider dopo non aver potuto accedere per tanti giorni ad un sito, se i motori tendono a modificare le loro serp subito non ricevendo piu' risposta da un sito, o le modificano solo nelle date previste dai loro preprogammati aggiornamenti.

Voglio vedere cosa fa Adsense, dopo 7-8 giorni di fermo tecnico, mi dara' poi le stesse rese?

Voglio capire se subiro' pesanti penalizzazioni, e se si, che tipo di sito sara' stato penalizzato piu' o meno pesantemente, prima o dopo.

Capire poi se le penalizzazioni saranno "recuperate" un domani, nel momento in cui il motore potra' "vedere" ancora online i siti prima riscontrati down.

Per esempio ora so che non si puo' cancellare un sito down tramite il remove-url di G, va ciucco...

Spero di ottenere delle risposte utili.

Ho una mezza idea di cosa potrebbe succedere in caso un motore trovi un sito down per parecchi giorni, e credo (sensazione tutta mia, senza senso logico alcuno) che i benefici superino le penalizzazioni.

Un motore e' molto attento a penalizzare chi cerca di fregarlo, non chi ha problemi, magari un server rotto.

I motori se non possono per un certo periodo valutare un sito potrebbero in seguito dedicargli maggiore attenzione, per esempio rimetterlo per un giorno tra i primi nelle serp, per recuperare il tempo perso e rivalutare il tutto in base a cosa cliccano gli utenti.

O forse potrebbero pensare che qualcosa rispetto prima sia cambiato e rispiderizzarlo del tutto.

Forse lo bannano... fregandosene del problema.

Mah, vedremo, comunque sono ottimista, molto ottimista.
Oltre 9 anni di lavoro puntati su un unico numero.

Nessuno sarebbe cosi' folle o scemo... a meno che non ritenga di conoscere cosi' bene il croupier da illudersi di dove cadra' la pallina.

Di sicuro per ora c'e' solo il croupier msn che mi sta levando, giorno per giorno, le pagine dalle sue serp. Credo che man mano che non le trova le cancelli dal suo db.

Aggiorna in tempo reale, Y e G no.

Buono a sapersi.

Msn legge di tutto, mette nelle serp di tutto.

Se ho un sito di 5000 pagine e Msn mi restituisce 5000 pagine nelle sue serp, cosa faccio?

Controllo i miei file log della settimana.
Quante pagine hanno ricevuto accessi, in quella settimana, da Msn?

1000? ed allora delle altre 4000 che me ne faccio rispetto M?
Posso rimuoverle sperando che le 1000 "buone" siano poi premiate?

Se blocco le 4000 per M con il robots, M capisce il gioco.
Se rispondo a M con un code qualsiasi M capisce il gioco, riceve un code in risposta ed allora sa che il sito e' up.

Dimentichiamoci di M, per non confonderci le idee.
Veniamo al punto.

A seconda di che code riceve un motore, il motore ragiona in una certa maniera.

I seo discutono di come si comportano i motori a seconda dei code ricevuti dal server web.

Se 301 fa cosi', se 302 cosa', se 200 no prob, se 403 allora... ecc ecc

Giustissimo.

Forse potrei rispondere ai motori un code piuttosto che un altro, perche' il server SHOULD RESPONSE, NOT MUST RESPONSE (modificando il codice sorgente del server web stesso), ma cambia poco se al posto di un 404 rispondo con un 200 in quanto il motore sa che ha letto una pagina, ma la pagina di fatto non esiste... forse potrei invertire 301 con 302, tralasciamo... (e poi conta la sequenza dei possibili 99 code prima del teorico ultimo considerato?)

Invece qui si parla di una cosa completamente diversa.
Forse mai discussa in precedenza, o forse si, poco importa, non danno medaglie per queste cose.

Come faccio a far credere ad uno spider, o ad utente, od ad un tipo di browser, o ad un dato refer, ecc ecc che un sito sia down???

Per verificare un down non si deve ricevere un classico code, forse bisogna mandare la richiesta in timeout. Timeout = down = no response code.

Potrei lavorare sui settaggi del router a seconda di che ip fa la richiesta, ma per gli altri parametri?, per dire l'user agent? Mah

Parliamo di timeout, senza nessun tipico code in ritorno. Forse senza code del tutto...

Forse e' possibile per un dominio, ma sara' anche possibile pagina per pagina?

Ma che senso ha che una pagina risulti down se poi il sito a cui appartiene e' up??

Ricordiamoci, down non significa che non esiste piu', ma che non e' raggiungibile in quel momento. Ricevero' un 408, 504 o nulla?
Ci vorrebbe qualche hacker o qualche laureato in gamba perche' lo spieghi.

Torniamo pero' alla domanda di prima: Ma che senso ha che una pagina risulti down se poi il sito a cui appartiene e' up??

Perche' nessun motore controlla-raffronta file/sito. Per loro se un file e' down significa che e' down. Un sito potrtebbe essere diviso tra 10 server, ed uno di questi server potrebbe essere down, una cosa non implica l'altra.

Ricapitolando, posso, e se si, come posso far credere, ad un motore per esempio, che un file (una mia pagina per esempio) sia down mentre in realta' non lo e'?.

Che razza di test o ricerca e', direte?

Colpo di scena.... o un colpo dello scemo, fate voi!

Un motore potrebbe non poter accedere ad una parte di un sito perche' bloccato da robots, perche' bloccato da pass, perche' quella parte non esiste piu', o perche' per lui e' momentaneamente down.

Nel primo caso non si fa scrupoli, ce l'avete con lui.

Nel secondo non fate distinzioni tra lui e gli utenti anonimi, ma non e' che la cosa gli piaccia troppo lo stesso....

Nel terzo siete in torto, richiamare file che non esistono piu', pessimo servizio-input per gli spider e per gli utenti tutti... ma controllate l'error log del vostro sito ogni tanto?

Nel quarto caso? Stara' resettandosi ora il server? Ci sara' il router giu'? Problemi di banda? Chi lo sa... vedro' come comportarmi in questo caso, ragiona il motore.

Trovate una soluzione a questo quesito e potrete nacondere cosa vi pare a chi vi pare senza essere penalizzati, almeno per i primi anni a venire.

Ovvio direte, scontatissimo, il cloaking c'e' da una vita.
Verissimo, ma il vecchio cloaking e' morto.

Non hanno ucciso il cloaking ma tutti gli effetti, uno alla volta, che il cloaking produceva.

Il motore leggeva lo spam, gli utenti le pagine serie.
I motori non erano reinderizzati, gli utenti si.

Non potendo uccidere il cloaking hanno bannato doorway, redirect e via dicendo.

Questo non significa che il cloaking sia morto, ma che sono stati messi al muro i vecchi risultati-figli del cloaking.

Una tecnica perversa produceva risultati perversi. Ora i risultati perversi sono giustamente morti e sepolti.

Prima si usava questa tecnica affinche' un utente vedesse una pagina seria, mentre il motore ne vedava una di comodo.

Prima si usava questa tecnica affinche' un utente vedesse una pagina per brevissimo tempo, tempo 0, mentre il motore la vedava senza redirect.

Comunque la si usasse uno vedeva un qualcosa, l'altro un'altra cosa.
Minimo comune denominatore: vedere qualcosa.

Poi si e' pensato faccio vedere ad uno una cosa e all'altro nulla... per l'altro non ci sara' nulla da vedere, nulla da spiderizzare, nulla da analizzare.

Ma "l'altro", (mica scemo) ha detto: non mi vuoi far piu' accedere? allora mi vuoi fregare... ti penalizzo per principio!

La risposta a tutto questo ad oggi potrebbe essere il far vedere ad uno una cosa, ma all'altro non vietare nulla, non distorcere nulla, non redirigere, semplicemente fargli venire il dubbio se cio' che non riesce a spiderizzare, causa pagina down, sia voluto o causuale.

Se non ti permetto di vedere una cosa e' colpa mia, una mia scelta, MA se non ci riesci per cause indipendenti dalla mia volonta', mi puoi colpevolizzare?

P.S. Posto la questione, sia su giorgiotave che su html, mi perdonino entrambi i titolari dei 2 forum, non e' brama di apparire, ma visto che rischio con questo test (in realta' non me ne frega nulla che i motori eventualmente mi cancellino i siti dalle loro serp, ma il patos rende solidari, tanto vale approfittarne) e che si tratta di un argomento originale, lo riporto ovunque credo ne valga la pena, ed onestamente non e' che in italia conosca molti altri forum frequentati da esperti nel settore.

lowlevel

Il timeout è un ottimo sistema per evitare che il motore ipotizzi una fregatura.

Anche un 503 con aggiunto un Retry-After è una buona soluzione.

Il problema, tuttavia, è che presentando timeout o 503 ai principali motori di ricerca (MSN, Y, G) se ne ottiene solo una estromissione delle pagine dai risultati delle ricerche, in modo repentino su alcuni motori ed in modo graduale su altri.

A questo punto puoi sperare solo che quella parte di pagine del sito che rimane accessibile venga in qualche modo premiata dal motore, ma personalmente non ci scommetterei molto, nel senso che finora non mi è parso di osservare nulla di simile.

Test interessantissimo.

kerouac3001

Mi sento in colpa perché non ho nè una risposta a questo post, né tantomeno ho idee in proposito. Mi sento in colpa perché questo è uno dei test più geniali che abbia mai letto..per 2 motivi:

stai rischiando un casino
ci stai rendendo partecipi

Quindi secondo il mio personalissimo punto di vista o non sei un seo o sei un pazzo

--

Provo comunque a fare domande, visto che di risposte non ne ho.

Perché un motore dovrebbe premiare le pagine che non sono down? Cioè se come dici tu hai 5000 pagine e 1000 di queste sono visitate mentre 4000 non lo sono (nonostante siano indicizzate) perché conviene far credere al motore che queste pagine non esitono?

potrebbe convenire se i motori facessero una sorta di media degli accessi di un sito..ovvero se un sito ha 900 unici al giorno in una sola determinata pagina, mentre ha una media di 10 unici al giorno per ogni pagina, perché il motore dovrebe ritenerlo un problema? Forse è una tecnica antispam? O una tecnica per individuare il livello di qualità di un sito?

P.S. agoago se quando finisci il test hai bisogno di qualche link per velocizzare la reindicizzazione chiedi pure

umor

Up e down sono strettamente correlati al ping.

Io sono un motore di ricerca, non riesco a raggiungere il tuo sito, penso a 2 cose:
1 dns
2 server down

In entrambi i casi qual è la prima cosa che faccio ?
Pingo l'ip!

In questo caso il responso è:
Request timed out.
Request timed out.
Request timed out.
Request timed out.

Allora penso, server down, capita.

Ma se il tuo server mi avesse risposto al ping cosa pensavo ?
Mi sta fregando ?

agoago

Tutti i siti e tutti i server sono stati down per 7 giorni esatti, spaccati.

Adesso sono su, da qualche ora.

kerouac3001 scrive:

"Perché un motore dovrebbe premiare le pagine che non sono down? Cioè se come dici tu hai 5000 pagine e 1000 di queste sono visitate mentre 4000 non lo sono (nonostante siano indicizzate) perché conviene far credere al motore che queste pagine non esitono? "

Perche' se ci basiamo sulla teoria che un motore assegna accessi e risorse in base al valore di un sito, se "elimino" 4000 pagine inutili il motore assegnera' piu' risorse alle 1000 rimanenti.

Le spaiderizzera' magari una volta alla settimana piuttosto che una volta al mese. Se un domani aggiungerai 100 pagine non saranno 100 nuove su 5000 vecchie ma 100 pagine nuove rispetto 1000 vecchie.

Faccio un esempio pratico. Un mio sito aveva circa 300.000 pagine, molte buone, alcune discrete, altre inutili. Ho fatto un programmino che cancellasse tutte le pagine con poco contenuto, non lincate dall'esterno, ed altri filtri di questo genere. L'ho lanciato.

In G, prima di questo ripulisti, avevo 64k pagine in serp. Dopo sono passato a quasi 160k. E le pagine rimaste sul sito dopo il ripulisti erano poco piu' di 200k.

Accessi? Cambiato poco o nulla, ma tempo al tempo, i link interni sono stati poi ovviamente ottimizzati, sono meno dispersivi, aiutano tutti gli spider a trovare prima le pagine, come faccio delle modifiche me le ritrovo dopo un mese in serp, non dopo 4 mesi.... otimizzo per una key e la vedo subito spinta non dopo secoli... stessi accessi ma piu' resa.

In poche parole i seo tendono sempre ad aggiungere contenuti, migliorano magari i vecchi ma davanti un contenuto inutile non hanno mai il coraggio di cancellare la pagina, come se in pratica gli servisse a qualcosa. Non serve a nulla, se per un motore una pagina non fa accessi vuol dire che penalizza le sue risorse e di conseguenza il sito che la contiene. Cancellare subito!

Mi assumo come sempre la responsabilita' di quello che dico, prova per verificare, se non funziona mi sputerai virtualmente in un occhio.

Prendi un tuo sito.
Controlla il log della settimana, magari 2 settimane se non vuoi rischiare troppo.
Segnati tutte le pagine che ricevono accessi, qualsiasi accesso, da chiunque, motore e non
Segnati tutte le pagine che hanno backlink
Segnati tutte le pagine del tuo sito non piu' vecchie di un paio di mesi.
Sottrai all'elenco di tutte le pagine che compongono il tuo sito quelle che ti sei segnato precedentemente.
Cancella o rinomina tutte le pagine "inutili". No robots o altro.

Praticamente "pagine totali" - "pagine con Accessi+pagine con bl+ pagine giovani" = ruovere

Passo dopo e' come nascondere, ad hoc le pagine rimanenti, lavorando motore per motore, da qui il test e la discussione.

"P.S. agoago se quando finisci il test hai bisogno di qualche link per velocizzare la reindicizzazione chiedi pure"

Grazie dell'intento, del aiuto proposto, ma anche se fatto in buonissima fede probabilmente mi uccideresti piuttosto che aiutarmi....

Perche'?

Volevo dedicare una lunga discussione su questo aspetto e lo faro' al piu' presto. Ma dovro' "scriverla" bene, perche' creera' molti malumori, ripensamenti e sara' contestatissima, ma molti wm, soprattutto spammer, capiranno finalmente quale e' uno dei principali motivi del perche' molti loro siti sono bannati o penalizati.

Capiranno perche' tutte le loro tecniche di distribuire perfettamente i link, di nascondere perfettamente i link, di farsi lincare da colleghi da pagine piene di link, anche se in tema, ecc ecc non danno i risultati attesi. ANZI.

Di fatto, in sintesi, l'unico link che conta o contera' per un motore sara' quello cliccato dagli utenti.
Se da A linco B C D E F e poi la pagina C ricevera' il 60% dei click, D il 30%, F il 10%, la pagina B ed E non solo sostanzialmente non saranno considerate come lincate da A ma saranno di fatto penalizzate. Anche A sara' penalizzata, in quanto propone 2 link dannosi.

Pertanto listoni di link a fondo pagina, link nascosti, link poco visibili, link inutili, non serviranno a nulla di nulla, se non a fare rischiare il ban a chi linca e un penalita' a chi li riceve.

Web ripulito, i furbi morti. Altro che tr....

Ma ora e' presto per parlarne.

Appena avro' raccolto le prime analisi di questo test le riporto.

lkv

@agoago said:

Di fatto, in sintesi, l'unico link che conta o contera' per un motore sara' quello cliccato dagli utenti.
E quali strumenti puo' utilizzare un motore per capire il link piu' "cliccati"?
Ora mi viene in mente solo la toolbar, se non ci sono altri metodi e' fuorviante per certi link. Pensiamo ad un sito che mette a disposizione per il download varie toolbar di Google per vari browser. Nessuno con la toolbar clicchera' in un link per quel sito, e Google pensera' che nessuno clicchi quel link, mentre magari e' il link piu' cliccato in assoluto tra i link presenti in quella determinata pagina, solo che a cliccarlo e' chi non ha la toolbar.

kerouac3001

Per rispondere a Lkv linko un thread in cui c'è un post di Low sui pesi dei link

lkv

@kerouac3001 said:

Per rispondere a Lkv linko un thread in cui c'è un post di Low sui [url=http://www.giorgiotave.it/forum/viewtopic.php?t=7013]pesi dei link
Grazie kerouac, e' sempre un piacere leggere i post di LowLevel, pero' non risponde al problema che ho posto, oppure sono io che non capisco.

Capisco che i link abbiano diverso peso, ma poniamo due link dello stesso peso (stessa pertinenza, stessa posizione in bella vista e con tanto di lunga discussione pertinente sul contenuto della pagina a cui porteranno i link), poi a questo aggiungi quanto ho chiesto sopra, in riferimento a quanto detto da agoago, il dubbio mi rimane. A meno che non abbia capito male il post di agoago e lui con

Di fatto, in sintesi, l'unico link che conta o contera' per un motore sara' quello cliccato dagli utenti.
intendesse:
Di fatto, in sintesi, l'unico link che conta o contera' per un motore sara' quello con piu' probabilita' di essere cliccato dagli utenti.
Se e' cosi' mi si toglie il dubbio, se cosi' non e' il dubbio mi resta.

agoago

Lkv intendo esattamente come tu hai ben capito.

Le probabilita' di ricevere un click oggi sono gia' considerate, lo sappiamo, basta pensare al valore che un motore assegna ai link in alto piuttosto che a quelli in fondo pagina.

Oggi ci sono le tb, pensa solo a G e alexa, con volumi impressionanti di dati, ma anche le pagine in cache nei motori, o i proxy delle grosse societa' di network, ed un domani magari sistemi operativi che con la scusa di progetterti tracciano tutto....

Pensa alle societa' che forniscono gratuitamente le statistiche ai siti, e chi piu' ne ha piu' ne metta.

Non serve ad un motore avere sotto mano il 100% di cosa avviene, gli basta il 2% della casistica globale per tarare il tiro in modo pazzesco.

Oggi siamo per ipotesi all' 1% di tracciamento?
Ma fra 6 mesi? Fra 2 anni?

Credi che i sistemi sopra elencati non bastino per raggiungere il 4-5% ?

Probabilmente no, allora vediamo di dare maggior corpo al tutto.

Adsense per dire. Qualsiasi utente che passa da una pagina che richiama il js di G e finisce su una pagina che richiama Adsense (stesso o diverso account) viene catalogato ed analizzato.

Si parla tra tutto di decine di milioni di utenti che si automarcano e di centinaia di milioni di pagine che aggiustano il tiro marcando le mosse anche di chi non usa tb, proxy, ecc ecc

Fra un anno saremo al 2-3%? Lo siamo gia' ora?

lowlevel

@agoago said:

Fra un anno saremo al 2-3%? Lo siamo gia' ora?

Io ritengo che quella percentuale sia già stata superata da almeno un anno, forse più. Non credo di tantissimo, anche perché si tratta già di statistiche quantitativamente sufficienti per fare quello che vogliono fare.

In particolare, Google ha fatto passi consistenti in questa direzione già da molto tempo e si appresta a farne di nuovi nel prossimo futuro.

Sottolineo il monitoring dei proxy perché temo che sia uno dei fattori più ignorati dai SEO.

kerouac3001

non ho capito il monito dei proxy..in cosa consiste?

agoago

LowLevel scrive:

"Io ritengo che quella percentuale sia già stata superata da almeno un anno, forse più. Non credo di tantissimo, anche perché si tratta già di statistiche quantitativamente sufficienti per fare quello che vogliono fare."

Su questo dato non mi sono azzardato a dare nulla per certo.

Di fatto LowLevel ritiene che i motori siano, ad oggi, in grado di basarsi su una casistica quantitativamente (e magari qualitativamente) sufficiente per fare quello che vogliono fare!

Mi sento meno solo, bene, amo essere in buona compagnia.

Questo tuttavia non significa, non avvalora minimamente quanto ho affermato:

"Di fatto, in sintesi, l'unico link che conta o contera' per un motore sara' quello cliccato dagli utenti."

Il fatto che, da oggi e per il futuro prossimo, i leader del web siano in grado di vedere e capire "chi fa cosa", non e' presupposto-sinonimo-sintomo-condizione-induzione che usino queste loro "informazioni" privilegiate per avvantaggiarsene, o nel migliore delle ipotesi, per migliorare i loro servizi.

Battutona... mettetemi una mano sulla testa e ditemi bravissimo!
Non si sul dire che una risata li seppellira'? Allora ridi pagliaccio.

Per quanto riguarda il discorso proxy e' un discorso lungo e serio.

Ma non e' cosa troppo da seo, parlarne in modo approfondito favorirebbe principalmente utenti loschi, meglio che chi li usa per nascondesi si ritenga ancora al sicuro dall'essere rintracciabile.

Per nascondersi oggi bisogna bucare un server altrui cancellando ogni traccia di accesso a quel server, e poi da li' operare con la massima cautela.

Lo si potra' ancora fare per i prossimi anni-decenni sui pc basati su os della microsoft, in quanto la microsoft deve, sempre e comunque, poter permettere, alle agenzie governative americane, di poter accedere liberamente a qualsiasi computer in rete che faccia uso di un os microsoft.

Poi, come un "esterno" trova un baco, loro mettono online una patch, poi quando quasi tutti i buchi "voluti" sono stati scoperti ed incerottati allora la microsoft esce con una nuova versione di os, ovviamente con tutti i buchi precedenti chiusi, ma con altrettanti buchi di accesso nuovi.

Nuovi passaggi-entrate nascosti ovviamente agli utenti, ma riportati fin dal primo giorno di distribuzione, a chi di dovere.

Prove di quanto sopra? Nessuna. Sono solo illazioni, leggende metropolitane, pero' una domanda. Perche' a nessuno di noi e' mai venuto il dubbio che Paperino si droghi o che Tex sia gay??

Quando hai un dubbio non ci sono dubbi.
Per questo nessuno ha mai avuto dubbi su Paperino e Tex.

kerouac3001

@agoago said:

Il fatto che, da oggi e per il futuro prossimo, i leader del web siano in grado di vedere e capire "chi fa cosa", non e' presupposto-sinonimo-sintomo-condizione-induzione che usino queste loro "informazioni" privilegiate per avvantaggiarsene, o nel migliore delle ipotesi, per migliorare i loro servizi.

Battutona... mettetemi una mano sulla testa e ditemi bravissimo!

Bravissimo

A parte gli scherzi..il tuo ragionamento fila.

umor

"Per nascondersi oggi bisogna bucare un server altrui cancellando ogni traccia di accesso a quel server, e poi da li' operare con la massima cautela. "

Si è sempre fatto così! Anzi spesso si passava da più di un server facendo "bouncing".
Però se pensi a tutto quello che c'è in mezzo (provider, router ecc ecc) ti beccano lo stesso..

"Lo si potra' ancora fare per i prossimi anni-decenni sui pc basati su os della microsoft"

Su questo non sono d'accordo ma non approfondisco perchè siamo ot di brutto.

Il problema è che a G basta mettere "get firefox!" in adsense e siamo tutti fregati! Ti porti il cavallo di tr*** in casa!

Ad ogni modo..

Ci sono aggiornamenti su questo test ?