• User Attivo

    Che servizio è questo?

    Metto le mani avanti e mi scuso sia per il titolo poco esplicativo (ma non ho saputo inventare di meglio) sia per la domanda (che non so quanto a tema)...ma sono curioso di sapere che cos'è questo servizio e se ha a che fare con i motori di ricerca: [url=http://www.nyud.net/]URL


  • Bannato User

    ...."Planetary-Scale services....?!?

    sembra un host...o qualcosa di simile.... :mmm:


  • User Attivo

    Da un'occhiata veloce sembra un servizio di clustering per applicazioni, una specie di servizio che permette di far girare la tua app su una griglia di calcolatori.

    Info qui:
    http://www.planet-lab.org/php/overview.php

    e qui:
    http://www.planet-lab.org/FAQ/


  • Super User

    nyud.net è un proxy distribuito.

    per maggiori info consultare
    http://codeen.cs.princeton.edu/

    Funziona da tramite alla navigazione dei siti internet, ad esempio
    http://www.google.com.nyud.net:8090/

    Se non esistessero i motori di ricerca, sarebbe un servizio persino utile, se non che se un Vs competitor comincia a linkare invece che il vs sito,
    http://www.vostrosito.com.nyud.net:8090/ tale URL vi sostituisce nelle serp (può capitare ed è già successo)

    Per risolvere ogni eventuale problema, basta bloccare l'accesso al proxy da htaccess (scelta consigliata)

    SetEnvIfNoCase User-Agent "CoralWebPrx" bad_bot
    
    Order Allow,Deny
    Allow from all
    Deny from env=bad_bot
    

    Questo causerà al proxy un errore 403, e dopo 12 ore la pagina eventualmente già in cache dovrebbe essere cancellata.
    L'intestazione di ogni pagina di nyud.net è simile a questa:

    Cache-Control: max-age=300
    Expires: Mar, 20 Jun 2006 10:46:20 GMT
    

    ATTENZIONE:
    Non è nelle mie abitudini prendere meriti che non ho o millantare competenze di cui non dispongo: il mio post è tratto da una comunicazione intercorsa qualche settimana fa con [url=http://www.giorgiotave.it/forum/profile.php?mode=viewprofile&u=2314]ArkaneFactors , che mi ha avvisato dell'esistenza di questo proxy, di quante noie può potenzialmente causare, e come stare tranquilli (il comando nell'htaccess è opera sua).

    Miss you man....

    Cordialmente,
    Stuart


  • Super User

    Ciao Stuart,

    ma per uno che non sa nemmeno cosa sia un htaccess esiste una guida per realizzare tale "prevenzione" ?

    Per capirci, ho un blog su blogspot, finchè si tratta di modificarne il codice... qualche testata sul monitor e la cosa si fa... ma operare su htaccess non saprei nemmeno da dove partire.

    PS Google indicizza quella maletta pagina con estensione di quel proxy.

    PPS il bolg ha si e no 10 giorni.

    Grazie mille.

    Paolo


  • User Attivo

    oltre a quotare la domanda appena posta da i2m4y è possibile sapere quali inconvenienti potrebbe portare una situazione del genere??


  • Super User

    @i2m4y said:

    per uno che non sa nemmeno cosa sia un htaccess esiste una guida per realizzare tale "prevenzione" ?
    Il file .htaccess è un semplice file testuale (ascii) che contiene al suo interno una serie di comandi che vengono interpretati da Apache.

    Per ulteriori informazioni e dettagli questa è una miniguida di facile comprensione:
    http://www.javascriptkit.com/howto/htaccess.shtml

    @i2m4y said:

    Per capirci, ho un blog su blogspot, finchè si tratta di modificarne il codice... qualche testata sul monitor e la cosa si fa... ma operare su htaccess non saprei nemmeno da dove partire.
    Purtroppo blogspot (e in genere tutti i blog hoster) non forniscono accesso all'htaccess 😞

    @i2m4y said:

    PS Google indicizza quella maletta pagina con estensione di quel proxy.
    Eccolo. Ha indicizzato quell'URL.
    Non potendo inibire l'accesso al tuo blog tramite quel proxy, non ti resta che fare in modo di aumentare i backlink al tuo blog, in modo da rendere l'URL del tuo blog più rilevante.

    Mi spiace di non poterti aiutare di più...

    @fello said:

    è possibile sapere quali inconvenienti potrebbe portare una situazione del genere??
    Di fatto viene indicizzato e inserito in serp un altro sito al posto del tuo.
    L'utente finale che clicca sull'url di nyud.net navigherà il tuo sito, ma l'url è diverso.

    Temo che questo rappresenti un ulteriore motivazione ad usare il linkaggio ASSOLUTO nei propri siti internet (e mi duole perchè sono un fissato per i link relativi)...

    Cordialmente,
    Stuart


  • Super User

    Mi permetto di aggiungere all'esaustiva risposta di Stuart anche [url=http://cooletips.de/htaccess/]questo tool che genera in automatico il file (qualora fosse accessibile) 🙂


  • Super User

    Grazie mille,

    ultimissima considerazione/domanda:

    per siti propri, su propri domini, i cui files sono interamente accessibili, ben posizionati e con un 80/100 BL consigliate di apportare comunque modifica a tale file quale "prevenzione" (per ora non è indicizzata la pagina "proxata")???

    Ancora grazie per i chiarimenti.

    Paolo


  • User Attivo

    A me è capitato. Tutto è derivato dai link in Segnalo.com che google segue.

    La pagina viene sostituita completamente nelle SERP.

    Non potendo utilizzare il file htaccess ma avendo a disposizione php ho deciso di *crearmi * un backlink

    <?php
    if &#40;strpos&#40;strtoupper&#40;" " . $HTTP_SERVER_VARS&#91;'HTTP_USER_AGENT'&#93;&#41;, strtoupper&#40;"CoralWebPrx"&#41;&#41; > 0&#41; &#123;
    	 echo "<a href=http://www.miosito.it" . $HTTP_SERVER_VARS&#91;'REQUEST_URI'&#93; . ">http&#58;//www.miosito.it" . $HTTP_SERVER_VARS&#91;'REQUEST_URI'&#93; . "</a>" ;
    	 exit&#40;&#41;;
    	 &#125;
    ?>
    
    

    Questo codice in testa alla pagina.

    In questo modo Google ha rimosso dopo qualche giorno le pagine dall'indice.


  • Super User

    @m4rc0 said:

    A me è capitato. Tutto è derivato dai link in Segnalo.com che google segue.

    La pagina viene sostituita completamente nelle SERP.

    Non potendo utilizzare il file htaccess ma avendo a disposizione php ho deciso di *crearmi * un backlink

    <?php
    if &#40;strpos&#40;strtoupper&#40;" " . $HTTP_SERVER_VARS&#91;'HTTP_USER_AGENT'&#93;&#41;, strtoupper&#40;"CoralWebPrx"&#41;&#41; > 0&#41; &#123;
    	 echo "<a href=http://www.miosito.it" . $HTTP_SERVER_VARS&#91;'REQUEST_URI'&#93; . ">http&#58;//www.miosito.it" . $HTTP_SERVER_VARS&#91;'REQUEST_URI'&#93; . "</a>" ;
    	 exit&#40;&#41;;
    	 &#125;
    ?>
    
    

    Questo codice in testa alla pagina.

    In questo modo Google ha rimosso dopo qualche giorno le pagine dall'indice.

    Non ho avuto modo di testarla, ma quoto la soluzione di m4rc0..ottima..quella di Stuart (Arkane) è già molto buona, ma questa ha il doppio vantaggio di reinserire la propria pagina nei motori e di inserire contemporaneamente una pagina piena di links propri su nyud (ovviamente qualora fosse ben visto dai motori).

    In effetti se la pagina di nyud sostituisce la vostra (nonostante l'età della pagina), significa che è considerata meglio della vostra e un bel link non farà mica male 😄 (in my spam opinion) :lol:


  • Super User

    Vorrei, con il vostro aiuto, venire alla pratica.

    Dato visto e considerato che ad esempio blogspot non da accesso ad htaccess e non è in php.... esiste secondo voi una soluzione specifica ???

    Ad esempio il fine può essere raggiunto inserendo un pezzo di codice nella pagina xyz.blogspot.com ???

    Grazie.

    Paolo


  • Super User

    @i2m4y said:

    Vorrei, con il vostro aiuto, venire alla pratica.

    Dato visto e considerato che ad esempio blogspot non da accesso ad htaccess e non è in php.... esiste secondo voi una soluzione specifica ???

    Ad esempio il fine può essere raggiunto inserendo un pezzo di codice nella pagina xyz.blogspot.com ???

    Grazie.

    Paolo

    non vorrei dire ******** ma non potrebbe funzionare anche col robot? in questo caso il loro sito viene considerato uno spider.

    Aggiungo: io sinceramente ho provato ad aprire una pagina du nyud ma non mi si carica..per esempio www.giorgiotave.it.nyud.net:8090


  • Super User

    Ciao kerouac3001,

    con il robot.txt ????

    Non penso di avere accesso a quel file su blogspot.com.

    Posso solo accedere al codice della pagina del blog... nulla più.

    Segnalarlo a Google come sito copiato ?????

    Ps il tuo link a me si apre normalmente.

    Grazie.

    Paolo


  • Super User

    @i2m4y said:

    Ciao kerouac3001,

    con il robot.txt ????

    Non penso di avere accesso a quel file su blogspot.com.

    Posso solo accedere al codice della pagina del blog... nulla più.

    Segnalarlo a Google come sito copiato ?????

    Ps il tuo link a me si apre normalmente.

    Grazie.

    Paolo

    dubito che ci siano altre soluzioni 😞


  • User Attivo

    Come modificare il file robots.txt per inibire l'accesso a quello spider?


  • User Attivo

    Purtroppo se non hai il controllo lato server non puoi impedire che la pagina venga scaricata.
    Io la pagina l'ho segnalata a Google ma credo che l'uscita dall'indice sia dovuta al codice php che ho messo dopo.
    Tentar non nuoce.
    Bisognerebbe far bannare il sito nuyd.net questa sì che sarebbe la soluzione.

    Facciamo una petizione?
    😉

    Di fatto è spam perchè duplica i contenuti, non capisco come ancora sia negli indici dei motori di ricerca
    http://www.google.it/search?hl=it&q=site%3Anyud.net&btnG=Cerca&meta=


  • Super User

    Fatta oggi segnalazione di spam a Google!

    :ciauz:


  • Super User

    @Stuart said:

    [url=http://www.giorgiotave.it/forum/profile.php?mode=viewprofile&u=2314]ArkaneFactors , che mi ha avvisato dell'esistenza di questo proxy, di quante noie può potenzialmente causare, e come stare tranquilli (il comando nell'htaccess è opera sua).
    Alcune precisazioni: ho suggerito un banning dello user-agent trattandosi di un proxy distribuito (peer-to-peer) che non rispetta robots.txt, ma perlomeno ha il buongusto di usare sempre lo stesso U-A ("CoralWebPrx", appunto).

    Confermo che ho avuto alcune pagine di un sito "spodestate" nelle SERP di Google dalle loro copie cache (stessi URL, con ".nyud.net:8090" appeso al dominio nell'URL, es. "www.example.com.nyud.net:8090/etc/etc.html").

    E' successo, presumibilmente, che qualcuno, da qualche parte, per qualche motivo, ha messo un link alla copia cache della home page del mio sito su nyud.net, e Googlebot l'ha crawlata e indicizzata. Inoltre, poiché il proxy riscrive tutti i collegamenti appendendo ".nyud.net:8090" al dominio, Googlebot ha seguito quei collegamenti e indicizzato le copie cache di quelle pagine.

    Risultato: nell'indice di Google ci sono ancora adesso alcune decine di pagine del mio sito cachate da nyud.net e archiviate da Google due settimane fa...

    Mi consola parzialmente il fatto di non essere il solo ad avere questo problema: vedi http://www.google.com/search?q=site%3Anyud.net%3A8090

    La mia opinione è che il problema non sia imputabile a nyud.net (loro forniscono un servizio utile), ma a Google, che a mio avviso non dovrebbe indicizzare le pagine cachate da un proxy, per di più distribuito e P2P (!).

    Adesso succede che quando CoralWebPrx prova a fare un fetch delle pagine del mio sito si becca un 403 (Forbidden), perciò il problema dovrebbe risolversi al prossimo accesso di Googlebot a miosito.nyud.net:8090 (il che, tuttavia, non è detto accada in tempi brevi).

    Nel frattempo provo a segnalare la cosa a Google e sento cosa mi dicono.

    Miss you man....
    Dai, non dire così, che poi sembra che mi sia successo qualcosa di brutto... (AF tocca ferro) 😄


  • User Attivo

    E' successo, presumibilmente, che qualcuno, da qualche parte, per qualche motivo, ha messo un link alla copia cache della home page del mio sito su nyud.net, e Googlebot l'ha crawlata e indicizzata. Inoltre, poiché il proxy riscrive tutti i collegamenti appendendo ".nyud.net:8090" al dominio, Googlebot ha seguito quei collegamenti e indicizzato le copie cache di quelle pagine.

    A me è capitato con questo
    http://segnalo.alice.it/