- Home
- Categorie
- Digital Marketing
- Consigli su Penalizzazioni e Test SEO
- Creiamo un motore di ricerca con relativo spider
-
scusa ho visto il tuo postsolo ora..mi fai capire meglio? Puoi fare, invece, uno script che prendendo come input una serp di google e un dominio, mi dica se il dominio è presente tra i risultati della serp? (senza complicarti la vita..deve semplicemente dirmi se in quella serpc'è un link a una qualsiasi pagina di quel dominio)
fallo con un POST (anche se poi mi servirà senza post)..se puoi infine passarmi il codice, cercherò l'equivalente in php
-
@kerouac3001 said:
scusa ho visto il tuo postsolo ora..mi fai capire meglio? Puoi fare, invece, uno script che prendendo come input una serp di google e un dominio, mi dica se il dominio è presente tra i risultati della serp? (senza complicarti la vita..deve semplicemente dirmi se in quella serpc'è un link a una qualsiasi pagina di quel dominio)
fallo con un POST (anche se poi mi servirà senza post)..se puoi infine passarmi il codice, cercherò l'equivalente in php
vi vuole poco, se domani ho tempo lo faccio.
non so' se in PHP c'è un oggetto simile
cmq credimi serve a poco, molto poco.
dicamo che c'è di meglio
-
cioè? proponi
-
@kerouac3001 said:
cioè? proponi
generare pagine di cloaking in base al termine ricercato prendendo informazioni da google news e msn.
il sito risultarà sempre aggiornato e non si incorre in duplicazioni che potrebbero essere penalizzanti.
-scusami ma oggi è una giornata di fuoco in ufficio-
-
amico io uso il cloaking in abbondanza e sapientemente ghghgh .. ti faccio un esempio di una mia pagina che uso per HotelClub (sono affiliato al loro sito):
se entra uno spider gli passo la descrizione dell'hotel + un testo random di circa 1000 parole (anche il numero di parole è random) che sono in larga parte personalizzate rispetto al tipo di hotel, alla zona, alla nazione eccetera + una buona dose di link a pagine interne ed esterne.
se un utente arriva da motore di ricerca, analiozzo la query e in 3 secondi gli fornisco l'hotel + adatto alle sue esigenze, nella lingua + vicina alla sua. La pagina gliela fornisco in un iFrame, in modo che se vuole mettere il sito tra i preferiti, mette il mio e non quello del sito a cui sono affiliato.
se un utente non arriva da motore di ricerca allora gli fornisco una pagina con l'iframe che punta alla "home" o ad un hotel..dipende dalla pagina che cerca.
Tramite questo meccanismo sono primo con molte key importanti e i miei visitatori trovano esattamente quello che stavano cercando
l'aggiornamento delle pagine è continuo, ma questo è uno svantaggio anche se è contemporaneamente un vantaggio..L'aggiornamento è una buona cosa, ma se oggi la mia pagina è prima per una key, domani può essere ultima..quindi usando l'idea del "refresh" dei contenuti solo finchè non mi piazzo in vetta, ottengo migliori risultati
non ho capito solo una cosa:
"generare pagine di cloaking in base al termine ricercato prendendo informazioni da google news e msn. "
io per creare le mie pagine mi baso dulle adwords, ma lo faccio "a mano"..o meglio ho creato database di keywords tematici, dai quali le pagine prelevano casualmente alcune key
-
@kerouac3001 said:
scusa ho visto il tuo postsolo ora..mi fai capire meglio? Puoi fare, invece, uno script che prendendo come input una serp di google e un dominio, mi dica se il dominio è presente tra i risultati della serp? (senza complicarti la vita..deve semplicemente dirmi se in quella serpc'è un link a una qualsiasi pagina di quel dominio)
fallo con un POST (anche se poi mi servirà senza post)..se puoi infine passarmi il codice, cercherò l'equivalente in php
io questo l'ho già fatto per 20 motori di ricerca
-
l'hai fatto con la stessa tecnica di pregopapà? mi fai vedere il codice? se hai msn e mi passi l'email ci sentiamo in privato (che è + veloce)
-
no l'ho fatto in php.. è stata dura ma riesco a ricavare un sacco di cose.... msn...vai
-
risolto grazie a nwox a breve creerò tutto il sistema..vi terrò aggiornati..cmq ora potrei pure fare uno spider in puro php non ci vuole una mazza
-
vedo allora che anche in php è fattibile
-
sisi per ora ho fatto una cosa grezzissima..semplicemente cerca una key e stabilisce se il link è presente nelle prime 100 posizioni..trova esattamente qual'è la posizione e se questa è superiore a un certo valore allora crea una pagina casuale e la salva in memoria..altrimenti se è inferiore richiama la pagina salvata
molto semplice
per ora sto facendo un'altro test sulla mia door della race, ma se il test che sto facendo (quello degli accapo) da buoni risultati, allora cancellerò la pagina del test e testerò questo script. tanto non gareggio per vincere
-
@kerouac3001 said:
sisi per ora ho fatto una cosa grezzissima..semplicemente cerca una key e stabilisce se il link è presente nelle prime 100 posizioni..trova esattamente qual'è la posizione e se questa è superiore a un certo valore allora crea una pagina casuale e la salva in memoria..altrimenti se è inferiore richiama la pagina salvata
molto semplice
per ora sto facendo un'altro test sulla mia door della race, ma se il test che sto facendo (quello degli accapo) da buoni risultati, allora cancellerò la pagina del test e testerò questo script. tanto non gareggio per vincere
ma è ammesso anche utilizzare php? in gara?
-
io utilizzo php e l'ho detto però finora non ho usato script..ho semplicemente usato codice html con estensione php
-
ma lo vogliamo costruire questo motore o no?
-
il problema sta nello spider..dato che lo voglio fare totalmente in php, lo spider può venire azionato solo se un utente accede ad una determinata pagina..quindi si potrebbe azionare quando un utente fa un ricerca, ma per non appesantire troppo il caricamento della pagina si dovrebbe spiderizzare al massimo 2 pagine per volta..quando ho un pò di voglia, butto giù la base del motore..ovvero un semplice raccoglitore di cache e catalogatore di links.
il procedimento è molto semplice. abbiamo bisogno di queste pagine:
spider.php ----> contiene lo script che aziona lo spider
links.php ----> contiene la lista degli url dei links trovati nelle pagine visitate e non ancora visitati
cache_nuove/ ----> contiene tutte le cache [il nome di ogni cache sarà: urldellapagina.php]Dopo di che..fatta la base si procederà alla creazione di uno script che analizzi le cache nuove, le cataloghi , attribuendo un punteggio ad ogni sito, e infine le sposti nella cartella cache/..io preferirei non usare mysql se possibile..è troppo lento..quindi proporrei dei database testuali in comma separated..anche se il mysql è + facile da gestire
in sostanza questa è la base..lo spider deve occuparsi solo del prelievo delle cache, poi l'analisi delle cache prelevate sarà effettuata da un altro script..bisognerà trovare delle regole idonee
-
se proprio vi volete imbattere in questa avventura vi consiglio l'utilizzo di Java non solo per lo sviluppo dello spider ma dell'intero Motore, le performance e le possibilità di sviluppo saranno migliori
ci avevo fatto un pensierino, ma il tempo è tiranno....
-
no..voglio solo php lo spider giàl'ho fatto..adesso devo fare uno script che analizzi le cache nuove e le valuti..voglio subito creare 2 cartelle una contenente i links in uscita da ogni sito e l'altra i Bls di ogni sito..così quando lo spider visiterà una pagina vedrà se questa pagina è già stata visitata, quali erano i suoi links in uscita e se troverà delle differenze andrà a modificare i bls delle pagine linkate..così i Bls saranno aggiornati costantemente.
L'unico difetto dello script è questo:
dato che in media una pagina web contiene 10 link, per ogni pagina visitata ci saranno 10 nuove pagine da visitare. Ma questo non è esattamente un difetto dello script..è un problema che non si può aggirare..quindi devo prepararmi ad un incremento esponenziale delle risorse.
la ricerca all'interno delle cache sarà molto semplice..tramite delle regole per ogni parola verrà abinata una lista di url di pagine contenenti quella parola e ad ogni url verrà attribuito un valore che verrà utilizzato per il posizionamento..infine per ogni pagina
Come avviene la ricerca di una key composta? se cerco key1 key2 estraggo dalle 2 liste le pagine uguali (se in 2 liste di key diverse ci sono 2 url uguali allora questi 2 url conterranno entrambe le key..è piuttosto ovvio)..infine mi invento una formula per sommare i valori delle pagine trovate (valore della pagina per key1 + valore della pagina per key2) e ho quindi i valori delle pagine per la key composta non mi resta che estrarre i primi 1000 valori e fornirli a 10 a dieci o al massimo a 100 a 100 come google
il problema + difficile da risolvere è come eseguire velocemente la ricerca per una key del tipo: "key1 key2 key3..keyn"..come faccio a spiegare allo script che voglio ke mi trovi tutte le pagine uguali in n liste di key diverse e che queste contengano esattamente "key1 key2 key3..keyn"?