Quando si accorgerà dei DIV nascosti o trasparenti?

arkanefactors

https://www.google.com/webmasters/sitemaps/spamreport?hl=it

lukas

Se un sito è primo su Google, ed ha ottimi contenuti ma un pochino di testo nascosto, non vuol dire che va bannato.
Se tu segui la vita di un sito fatto solo per spammare, ti accorgerai che spesso questi siti vengono effettivamente bannati. Tuttavia io conosco siti creati apposta per spammare, che sono su Google da oltre 3 anni e nessuno li ha mai toccati, ma sono per keyword poco competitive.
E' molto difficile per Google decidere chi bannare e chi no. Tu devi sempre muoverti in modo da fare qualcosa di utile per gli utenti, e vedai che alla lunga verrai premiato.

paocavo

@lukas said:

Tu devi sempre muoverti in modo da fare qualcosa di utile per gli utenti, e vedai che alla lunga verrai premiato.

Infatti è quello che faccio, senza spam e pensando ad ottimi contenuti sono sempre ai primi posti, per le keyword che mi interessano.
Il problema è che chi sta prima di me ha contenuti scarsi ed un sacco di spam...

lowlevel

@paocavo said:

Non è che ci vuole molto ad identificare spamming nei contenuti...

Ti posso assicurare che l'identificazione dello spam è il più complesso e difficile compito che i motori di ricerca devono affrontare.

Vari elementi da prendere in considerazione:

Il concetto di "spam" è soggettivo. Quello che un motore considera spam può non essere considerato spam da un altro motore.
Bisogna decidere cosa fare una volta individuato lo spam? Ignorare i contenuti oggetto di spam? Penalizzarli? Bannare l'intero sito che fa uso di tali tecniche? E in questo caso, che si intende per "sito"? Fino a dove banno?
Che conseguenze può avere il ban di un sito su altri siti? Siamo sicuri che l'influenza nulla sia la cosa giusta? Come gestire quei casi in cui un sito che spamma offre link ad una buona risorsa? Se il sito che spamma viene bannato, la buona risorsa deve perdere il beneficio che derivava da quei link? Quando uno spammer linka una buona risorsa, a prescindere dal motivo per il quale lo fa, non sta comunque fornendo al motore un'indicazione sull'importanza della risorsa?
Le analisi pagina per pagina sono dispendiose e poco convenienti. Lo spam va combattuto principalmente con macro analisi condotte sull'intero corpus, sopratutto sfruttando il grafo dei link.
Le macro analisi beccano "il grosso". Per le analisi sito-per-sito ci sono i controlli manuali e alcuni controlli automatici. I controlli manuali richiedono tempo e non c'è certezza che la loro qualità sia buona.

rinzi

quotando low

aggiungo che DIV con particolari impostazioni per esigenze grafiche potrebbero (se analizzati superficialmente) essere scambiati per DIV a scopo SEO (Spam non siamo noi a giudicarlo .... e viceversa...

non è semplice

paocavo

@LowLevel said:

Ti posso assicurare che l'identificazione dello spam è il più complesso e difficile compito che i motori di ricerca devono affrontare...

Per "spam" intendevo i soli DIV nasconsti o trasparenti penso che con una semplice Regular Expression potrebbe risolvere il problema (...una più una meno...)

@LowLevel said:

Il concetto di "spam" è soggettivo. Quello che un motore considera spam può non essere considerato spam da un altro motore.

Bisogna decidere cosa fare una volta individuato lo spam? Ignorare i contenuti oggetto di spam? Penalizzarli? Bannare l'intero sito che fa uso di tali tecniche? E in questo caso, che si intende per "sito"? Fino a dove banno?

Che conseguenze può avere il ban di un sito su altri siti? Siamo sicuri che l'influenza nulla sia la cosa giusta? Come gestire quei casi in cui un sito che spamma offre link ad una buona risorsa? Se il sito che spamma viene bannato, la buona risorsa deve perdere il beneficio che derivava da quei link? Quando uno spammer linka una buona risorsa, a prescindere dal motivo per il quale lo fa, non sta comunque fornendo al motore un'indicazione sull'importanza della risorsa?

Le analisi pagina per pagina sono dispendiose e poco convenienti. Lo spam va combattuto principalmente con macro analisi condotte sull'intero corpus, sopratutto sfruttando il grafo dei link.

Le macro analisi beccano "il grosso". Per le analisi sito-per-sito ci sono i controlli manuali e alcuni controlli automatici. I controlli manuali richiedono tempo e non c'è certezza che la loro qualità sia buona.

Forse i teorici del concetto di pila ISO/OSI dovrebbere aggiungere un nuovo strato al di sopra dell'Application Layer e studiare nuovi protocolli standard che regolino il significati delle informazioni scambiati da applicazioni client/server via TCP/IP: The Semantic Layer?

[Edit]: Oops, subito dopo aver pensato al Semantic Layer ho fatto una veloce richiesta a Google: http://www-db.stanford.edu/~melnik/rdf/daml-000720.html ...ovviamente ci stanno già lavorando...

PS: Onorato di aver "smosso" Low con la mia "provocazione". Grazie 1000 per le delucidazioni e per avermi fatto comprendere il problema nella giusta scala di riferimento...

arkanefactors

@paocavo said:

Per "spam" intendevo i soli DIV nasconsti o trasparenti penso che con una semplice Regular Expression potrebbe risolvere il problema (...una più una meno...)
Ho paura che non sia così semplice. (Altrimenti l'avrebbero già fatto, non trovi?)
Nel caso degli hidden layer c'è poi un problema di falsi positivi, a proposito del quale quoto Rinzi: un DIV nascosto non è di per sé contrario alle guideline; dipende dall'uso che se ne fa (e questo è molto difficile da individuare con un'analisi automatizzata).

The Semantic Layer?
Dal punto di vista formale [url=http://www.w3.org/2001/sw/]è già tutto pronto. Il grosso problema è che la stragrande maggioranza delle pagine web non utilizza alcun tipo di markup semantico. Ed è estremamente difficile operare un'analisi semantica su informazioni non strutturate. Ecco perché i motori di ricerca come Google sono ancora oggi costretti ad affidarsi in larga parte all'analisi del contenuto e della struttura dei link.

paocavo

...come non detto!

...DIV a scopo SEO (Spam non siamo noi a giudicarlo)
:bho:

grazie per il link sul web semantico ...non si finisce mai d'imparare

lowlevel

Per "spam" intendevo i soli DIV nasconsti o trasparenti penso che con una semplice Regular Expression potrebbe risolvere il problema (...una più una meno...)

Vorrei che la soluzione fosse così semplice.

Mica possiamo penalizzare in automatico tutti quei siti che usano un "display: none" per farci menù e altri contenuti a comparsa.

Un martello non è di per sé buono o cattivo, ma l'uso che se ne fa può esserlo.

Non è la tecnica o lo strumento che vanno penalizzati ma l'intenzione con la quale vengono usati.

E queste analisi vanno ben oltre una regex.

Il grosso problema è che la stragrande maggioranza delle pagine web non utilizza alcun tipo di markup semantico. Ed è estremamente difficile operare un'analisi semantica su informazioni non strutturate. Ecco perché i motori di ricerca come Google sono ancora oggi costretti ad affidarsi in larga parte all'analisi del contenuto e della struttura dei link.

Bellissima frase. Chiara e diretta al punto. L'ho salvata sul mio Google Notebook.

arkanefactors

@LowLevel said:

Bellissima frase. Chiara e diretta al punto. L'ho salvata sul mio Google Notebook.
Ne sono onorato.

Ricambio segnalando, a quanti volessero approfondire, la tua ottima [url=http://www.motoricerca.info/news/news-385.html]intervista a Marco Varone di Expert System.

@paocavo: Il [url=http://www.w3.org/2001/sw/]Semantic Web è un argomento che personalmente trovo estremamente interessante, ma anche molto complesso: pensa che nel 2001/'02 volevo farci sopra la tesi di laurea, poi optai per un "oggetto" più alla mia portata (Google).

Io credo che il successo dell'iniziativa Semantic Web sul medio periodo dipenderà in larga misura dalla possibilità di permettere a sviluppatori, web author e (soprattutto) utenti di annotare facilmente i contenuti web con linguaggi di descrizione semantica come [url=http://www.w3.org/RDF/]RDF (un "piccolo" passo avanti rispetto al [url=http://en.wikipedia.org/wiki/Folksonomy]tagging/folksonomy)... Se ciò si verificherà, i motori di ricerca ne potranno trarre un grande beneficio, sfruttando queste metainformazioni per migliorare la loro capacità di "comprensione" ed elaborazione automatica del significato e delle relazioni (semantiche e logiche) fra le informazioni, e permettere agli utenti di effettuare ricerche infinitamente più complesse/potenti di quelle attualmente possibili (es., "trovami una pizzeria con forno a legna che sia aperta a mezzogiorno giovedì prossimo, e che non disti più di 5 minuti a piedi da questo indirizzo"). E' per questo, ad esempio, che Google cerca di spingerci a usare [url=http://www.google.com/coop]Co-op.