Sommo a quanto detto da paolo (che virtualmente abbraccio) che i motori di ricerca sono ancora particolarmente permalosi e diffidenti.
E' il caso tipico dei testi in dialetto o di particolari e poco conosciuti testi in "slang".
Il wm scrive-riporta un testo in una lingua densa di termini poco noti al motore.
Il motore, sempre attento al rapporto costi benefici, non riconosce quelle nuove-strane parole come un qualcosa che... seppur visto raramente, essendo (quel testo) sito in pagine attendibili (quel testo) poteva essere ritenuto testo si' nuovo, ma un nuovo degno di fiducia.
Mi spiego meglio.
Immaginiamo che un wm faccia migliaia di documenti pieni di parole scritte, una ad una, sorteggiandone le lettere.
Esempio:
"fwetgfegf fqwdfhvcbdgre sgwetwrq efwetwetqqf fefqrqr jytkjitritr jtrur"
Ora un motore spiderizza il testo:
"fwetgfegf fqwdfhvcbdgre sgwetwrq efwetwetqqf fefqrqr jytkjitritr jtrur"
--
Bene, il motore legge questo testo assurdo e lo archivia nei suoi db.
Il motore non sa se un domani ci saranno query contenenti la parlola (per esempio): fqwdfhvcbdgre, e pertanto non sa se nessun o pochi utenti cercheranno la parola (entro breve) qwdfhvcbdgre.
Il motore pertanto archiviera' quel testo come testo inutile o peggio ancora come testo di spam, testo creato artificialmente.
Perche' avviene questo?
Perche' viceversa sarebbe troppo semplice.
Io wm potrei creare documenti formati da parole composte da lettere e numeri random.
Cosi' facendo potrebbe "raccogliere" gli accessi di tutti quegli utenti che sbagliano a scrivere le query.
In una parola, quel wm diventerebbe ricco in breve tempo.
I motori non possono permettere questo tipo di spam, ed allora accettano una loro % massima (per sito, per documento) di testo a loro poco conosciuto.
Come si traduce tutta questa filippica?
Il senso e' che se degli utenti cercano parole nuove ed il motore trova quelle nuove-originali parole dentro un nuovo documento allora non ci sono problemi.
Ma se un motore trova dentro un documento nuove parole che nessuno ha mai cercato ecco che allora che il motore ragiona cosi':
Aspettiamo un po' di tempo....
Ho aspettato un po'... nessuno le ha cercate allora: testo = spam, viceversa (in seguito) le hanno cercate allora: testo = utile.
Eccezioni ce ne sono.
Il parlato differisce dallo scritto.
I testi parlati sono scritti nel web in minor misura dei testi scritti (sembra un gioco di parole, ma il senso e' quello).
Tuttavia i motori si fanno forti, sfruttano (a fini scientifici) di molti corpora universitari in venduta (alla faccia di chi crede che tutte le universita' condividuano le lore risorse gratuitamente), tra questi i corpora di testo parlato.
Pertanto sanno distinguere tra parole non presenti sul web perche' inventate e parole non presenti sul web ma esistenti nello slang di tutti i giorni.
E' un problema tremendo di tutto il web.
Il web e' fonte incredibile di informazione, ma tanto e' potente quanto e' ad escusivo uso e consumo di chi puo' pertemettersene i benefici.
Se vivi in montagna spesso sei tagliato fuori, se sei povero non puoi permetterti il collegamento adsl, se non sei un motore non puoi permetterti i 40.000$ dollari annui che ti danno accesso ad alcuni corpora.
E poi sui quotidiani ogni tanto appare la notizia che qualcuno ha bucato l'universita' di turno.
Gia' bello che l'abbiano bucata e basta, sono dei galantuomini.
A chi pretende di vendermi a 40k$ un pezzo di sapere gli formatterei anche la casa, altro che bucargli i permessi.