• User Newbie

    la subdirectory per i motori non esiste

    Salve a tutti !

    Mi chiamo Michele e questo è il mio primo post su GT .

    Mi scuso anticipatamente per la lunghezza senz?altro eccessiva del mio redatto, ma preferisco fornirvi una dettagliata spiegazione in modo tale che possiate avere un quadro pressoché preciso in merito alla situazione.

    Spero possiate aiutarmi, anche perché da una settimana , tempestato dalle piu? svariate informazioni o tutorials a volte in contraddizione fra loro stessi, comincio a non capirci più niente !

    Premetto di non essere un esperto in gestione di siti web, ma accade una cosa strana , e nella "miniera" d?informazioni dell?internetto non trovo spiegazione o delucidazione alcuna che sia nettamente chiara :

    Ho un sito : www.miosito.com ( classico sito d?esempio :2:

    Il sito è hostato da Aruba.it

    Utilizzo pagine dinamiche php

    Ho anche un account google e di conseguenza fruisco quotidianamente degli "strumenti per i webmaster"

    Ho infine la possibilità di controllare le statistiche di accesso ( inclusi spiders e grabbers )

    Il sito è online tradotto anche in inglese , ho preferito optare per le sottodir anziche? il terzo livello, mi pareva piu? consono , quindi :
    www.miosito.com/english/ ( ovviamente la subdir ha il suo bel index.php )

    Bene, metto online il sito unitamente alla inclusione del sitemap ( strumenti per i webmaster di google ) che include le info sia sulla root ( www.miosito.com/index.php e cosi? via per tutti gli altri files php presenti ) sia sulla directory "english" ( quindi www.miosito.com/english/index.php e cosi? via per tutti gli altri files php presenti )

    Sia chiaro, un solo sitemp.xml che include TUTTI i files e le directory è stato immesso via ftp unicamente sulla root ( [URL="ftp://ftp.miosito.com/"]ftp.miosito.com/ )

    Non faccio uso del file robots.txt anche perche? non ho alcuna esclusione da segnalare ai motori ( e comunque molte informazioni "discrepanti" mirano proprio a diverse "interpretazioni" in merito all?utilizzo di questo file )

    Comunque qualora volessi "privatizzare" una cartella utilizzerei .htaccess e .htpasswd , ma in questo sito non ne ho la necessità .

    Cosa dice Google ? :
    " Utilizza il file robots.txt nel tuo server web. Tale file indica ai crawler le directory delle quali è possibile eseguire la scansione. Assicurati che il file sia aggiornato, in modo da non bloccare involontariamente il crawler Googlebot. Per ulteriori informazioni sulle modalità di controllo dei programmi automatizzati (robot) quando questi visitano il tuo sito, consulta la pagina http://www.robotstxt.org/wc/faq.html. Puoi eseguire un test con il file robots.txt per assicurarti che esso venga utilizzato correttamente insieme allo strumento di analisi robots.txt disponibile negli Strumenti per i webmaster di Google."

    Sembrerebbe anche alquanto facile ed intuitivo :

    basterebbero tre righe per dire al motore : hai il permesso di scansionare tutte le directory ad eccezione della directory "cgi-bin" che invece non va scansionata :

    User-Agent: *
    Allow: /
    Disallow: /cgi-bin

    Io lo farei volentieri, immetterei anche ora un bel robots.txt che permetta la scansione su TUTTE le dir o subdir come "dir" si voglia ( veramente a me basterebbe solo la directory "english" ) ma?. Il terrore mi assale :

    Una marea di siti indica invece il file robots.txt come uno strumento si utile, ma pericolosissimo in caso di errore , in pratica da usare con cautela e SOLO per ESCLUSIONI . ad esempio vedi la pagina http://www.motoricerca.info/robots.phtml:

    in questo sito specifico per esempio si sostiene che :
    " Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.
    Quanto appena specificato è estremamente importante, in quanto molti degli errori che i webmaster spesso inseriscono nei file robots.txt hanno origine dall'errata comprensione di ciò che è possibile fare con essi."
    :nonono::nonono::nonono: mah...

    Insomma leggendo questo redatto mi tocca fare marcia in dietro in quanto io NON VOGLIO assolutamente nascondere NULLA al motore e nel contempo ho paura di escludere inavvertitamente cio? che invece deve essere pubblicato.

    Che fare ?

    Ma torniamo al mio sito :

    Altro che 15 giorni !! dopo soli 4 giorni era bello che indicizzato , ma?
    ? ma solo la root , la parte in inglese è per google INESISTENTE.

    Quotidianamente viene a farmi visita "Googlebot 2.1" dal giorno che ho mandato online il sito unitamente alla spedizione del mio sitemap ,
    Googlebot 2.1 entra, controlla, gironzola anche piu? volte , MA SEMPRE E SOLO nella root ( www.miosito.com/file1.phpwww.miosito.com/file2.php etc etc . )

    Ho pensato allora di mandare ( sempre negli strumenti per i webmaster ) un bel sitemap.xml specifico per la dir "english" e contenuto all?interno della stessa dir , l?ho fatto e nella lista dei siti in gestione , appare un "nuovo" sito :
    www.miosito.com/english/ ( validato e con un sitemap attivo )

    da quel giorno Googlebot 2.1 fa una "toccata e fuga" nella dir "english" entra in un lampo e se ne va ( non controlla neppure i files in essa contenuti )
    non solo , nel riepilogo degli strumenti per i webmaster dopo 20 giorni nella gestione di www.miosito.com/english/ google mi scrive :

    ( TRIANGOLO CON PUNTO ESCLAMATIVO ) Stato indicizzazione:
    Nessuna pagina del tuo sito è al momento inclusa nell'indice di Google

    Un vero paradosso, anche perche? se e? vero che per il motore contanto i links alla tua pagina la parte in Inglese sarebbe dovuta essere indicizzata in modo "primario" visto che decine di motori e directory europee linkano proprio sul mio sito in Inglese.

    Non so piu? che fare o pensare. :arrabbiato:

    Siete la mia ultima spiaggia.

    Vi abbraccio e vi mando i miei piu? sinceri complimenti in merito al lavoro che quotidianamente svolgete ed ai sempre validi consigli che elargite a raffica.

    Michele :ciauz:


  • Super User

    Ciao Michele, benvenuto nel forum 🙂

    Sicuramente è difficile esprimere giudizi senza conoscere il sito di cui stiamo parlando.

    Comunque la sintassi corretta del robots.txt dell'esempio da te fatto è questa:

    User-agent: *
    Disallow: /cgi-bin
    ```Infatti nel robots.txt bisogna solo indicare i "*Disallow*", directory/file da escludere e non gli *"Allow*", directory/file da indicizzare.
    
    Capita che nel caso in cui non vi sia bisogno del robots.txt, ma non si vuol avere nessun errore 404 nei log e nelle statistiche per file non trovato da parte degli spider, venga inserito un robots.txt vuoto oppure con scritto:
    

    User-agent: *
    Disallow:

    
    Ora venendo al problema della cartella in inglese, bisogna considerare che la root ha sempre un trattamento privilegiato. Googlebot infatti parte sempre da lì, per poi via via scendere nei livelli inferiori con il cosiddetto deep crawl.
    Dunque non mi preoccuperei troppo, potrebbe trattarsi semplicemente di un normale ritardo.
    
    Ripeto che però senza vedere il sito è difficile azzardare considerazioni specifiche.
    
    Tuttavia mi chiedo perchè hai mischiato in questo topic il problema del robots.txt con la mancata indicizzazione, forse temi di aver fatto quelche errore proprio in quel file? :)

  • User Newbie

    @claudioweb said:

    Ciao Michele, benvenuto nel forum 🙂

    Sicuramente è difficile esprimere giudizi senza conoscere il sito di cui stiamo parlando.

    ....

    Ora venendo al problema della cartella in inglese, bisogna considerare che la root ha sempre un trattamento privilegiato. Googlebot infatti parte sempre da lì, per poi via via scendere nei livelli inferiori con il cosiddetto deep crawl.
    Dunque non mi preoccuperei troppo, potrebbe trattarsi semplicemente di un normale ritardo.

    ....

    Tuttavia mi chiedo perchè hai mischiato in questo topic il problema del robots.txt con la mancata indicizzazione, forse temi di aver fatto quelche errore proprio in quel file? 🙂

    Grazie innanzituto per l'immediatezza della Risposta !!!

    Si, in linea generale non sapevo bene dove collocare la mia domanda specifica , che titolo dare... etc..
    Il tutto scaturisce infatti da una grande confusione che il connubio "robots - indicizzazione" mi ha procurato ;

    Come dicevo nel post primario, ribadisco che non è mai stata mia intenzione quella di utilizzare il robots.txt poiche' nulla ho da omettere ai motori, anzi..

    Credo sia come dici tu, una questione legata alla "profondità" del sito e probabilemnte mi attende una tempistica abbastanza larga...

    forse avrei dovuto immettere tutto nella root, ma alla fine sari impazzito in una giungla di files php .

    Ne aprofitto per farti una domanda ( sempre sperando NON essere offtopic )
    Se immettiamo per esempio su google la stringa "giorgio tave" troviamo ovviamente il sito omonimo in primis, ma appena sotto il primo risultato leggiamo :
    Forum - www.giorgiotave.it/forum/
    Gif animate : la migliore ... - www.giorgiotave.it/gif_animate/tutto_gif.php
    Guida al posizionamento nei ... - www.giorgiotave.it/.../sommario.php
    Blog - blog.giorgiotave.it/

    Vediamo di fatto che il forum è contenuto dentro una directory
    Vediamo che per il Blog si è invece optato per un "terzo livello"

    Ora,

    Come avete fatto a "dire" a google che si trattava di zone talmente peculiari tanto da riservare nei risultati delle collocazioni specifiche ed aggiuntive ?

    Oppure è google che "ci pensa" da se a riservare delle "zone" separate ?

    Grazie ancora per tuto..

    Se questa ultima mia domanda dovessere essere offtopic, potreste per cortesia indicarmi il percorso appropriato onde poterla collocare appositamente nel forum ?

    Miky :ciauz:


  • Super User

    Ciao Miky,

    è Google che premia autonomamente un sito ad elevato trust per quella parola chiave ricercata, con alcuni link alle sottocartelle.

    Probabilmente, si tratta delle sezioni più autorevoli del sito che godono di elevato trust e traffico di utenza... 🙂


  • User Newbie

    @dechigno said:

    Ciao Miky,

    è Google che premia autonomamente un sito ad elevato trust per quella parola chiave ricercata, con alcuni link alle sottocartelle.

    Probabilmente, si tratta delle sezioni più autorevoli del sito che godono di elevato trust e traffico di utenza... 🙂

    Ciao !
    Lo sospettavo...

    comunque sono sbalordito ! la Vostra prontezza nelle risposte e l'implicita efficacia mi entusiasma parecchio !

    complimentissimi !!!!!!!!
    finalmente un forum di Persone Gentili e Competenti ! ( lo dico dopo aver visionato altre fonti zeppe di "archimedi pitagorici"

    thanks ! :ciauz:


  • Community Manager

    @michele_net said:

    finalmente un forum di Persone Gentili e Competenti ! ( lo dico dopo aver visionato altre fonti zeppe di "archimedi pitagorici"

    Mi hai fatto morire dal ridere Michele (Benvenuto nel Forum GT :2:

    Ti offro la mia esperienza: anche quando non ho nulla da nascondere (poche volte mi capita di non volere pagine indicizzate), uso il robots.txt perchè è uno dei file che viene cercato dagli spider e non mi va di dare una pagina di errore 😄

    Non avere timore e via, mettilo, in forma corretta ovviamente come indicato da Claudio 🙂