Creiamo un motore di ricerca con relativo spider

shade

No, io ho utilizzato lo script di cui ho messo il link per il download, poi l'ho personalizzato.

Albino

giorgiotave

Ciao shade benvenuto e grazie per la segnalazione.

Mi hai dato una bella idea per GT.it

Userò uno script, faccio indicizzare tutte le pagine di Gt.it e lo metto come motore interno ed esterno

Grazie

pregopapa

scusate la lunghezza

il problema non è lo spider o il db, il problema è la ricerca, ho studiato a fondo la questione tempo fà è in realtà la funzione spider e db è moolto semplice.

spider:archivia le pagine separando il codice dal testuale, segue i link presenti nelle pagine e registra la loro URL

db composto da 3 campi:id,codice,testo.

in questo modo quando si effettua la ricerca si potrà confrontare il codice con i vari ALT e title e il testo.
inoltre questo sistema renderebbe anche fattibile la ricerca con le "".

ovviamente questo è solo una base, xchè per esempio si potrebbero prevedere campi aggiuntivi come: peso della pagina, data di scansione, data di creazione del domino, link out, link in etc etc.

ma come dicevo il problema è la ricerca.
Creare un algoritmo che sia in grado di produrre una SERP in base a vari fattori presenti nel db non è facile.

si potrebbero applicare dei coefficienti che sommati tra loro diano l'attendibilità, ma in questo modo un buon SEO nel giro di poche settimane troverebbe le giuste dosi per portare milioni di pagine ai primi posti, quindi come ovviare a questo?

registrare tutte le ricerche fatte dagli utenti e per associazione ridefinere le key costantemente es. (totti, gol di totti, gol di totti ai mondiali 2006) tutte e 3 le key presentano totti, quindi se io cerco "totti" favorirei le pagine che in quel momento ospitano i contenuti riferiti al "gol di totti mondiale 2006" e se non presente ai "gol di totti" questo perchè sono le correlate più cercate.(sandbox suggestion)
creare toolbar, dove poter registrare il tempo di permaneza degli utenti su un sito, tracciare i link ai quali clicca etc etc...

ma in questo modo dovro' chiamare il motore google.

kerouac3001

sto leggendo il codice dello spider ci ha fornito shade.

A me piacerebbe capire solo come fa in php a salvare il codice delle pagine.

se riesco a capirlo ho un'idea brillante su come poi sfruttarlo ^____^

invece di perdere tempo con un motore farei volentieri una cosa di questo tipo

creo un codice che generi una pagina random da posizionare con una key prestabilita...appena verifico che google sta accedendo nuovamente alla pagina analizzo i primi 10 risultati della serp che mi interessa e se la mia pagina è presente alllora gliela fornisco senza modifiche, altrimenti ne genero casualmente una nuova

posizionamento automatico ^_______^ ovviamente si possono inserire tanti altri giochetti utili e probabilmente mi direte "perchè non usi le api di google"..la risposta è semplice:"mi rifiuto di impararle"

shade

Ciao a tutti,
poichè utilizzo il motore di ricerca che vi ho postato, posso fornirvi qualche dettaglio in più:
questo script non si limita alla memorizzazione dei TAG, ma anche dei testi presenti nelle pagine salvando ogni singola parola come archivio KEY, ciò permette poi di ritrovare ogni singolo testo o frazione di testo che le contenga.
Sempre da config si può decidere il grado di importanza che si vuole abbiano i contenuti delle pagine e se i testi vanno memorizzati per intero in appositi file o parzialmente nelle apposite tabelle.
I risultati, nelle pagine sono ordinati secondo criteri d'importanza simili agli altri motori di ricerca, nella versione da me personalizzata ho eliminato, ma è presente anche un sistema di RANK, in parte ad ogni risultato visualizza graficamente il valore assegnato.
La scansione dei siti risulta abbastanza veloce, mediamente viene letta una pagina in circa 6 secondi, avanzando per livelli, il livello di profondità di scansione dei siti può essere preimpostato nel config, ma si può intervenire in modo differente per ogni singolo sito in fase di lavoro.
Così com'è lo script si può installare in modo semplice e veloce, consiglio perciò di farlo per poterlo studiare a fondo sia dal lato utente che dal lato admin (molto interessante).

kerouac3001

se riuscite a capire come ***** fa a leggere il codice delle pagine e memorizzarne i dati, ditemelo...è tutta la mattina che provo a capirlo, ma non ci riesco

shade

Ti complico ulteriormente la vita:
oltre ai file standard del web, è in grado di leggere anche i contenuti di .DOC .PDF ect...
http://www.phpdig.net/navigation.php?action=demo
resto dell'idea che l'unico modo per studiarlo è installarlo

shade

A proposito, dimenticavo:
legge anche i robot.txt e si comporta di conseguenza.

pregopapa

@kerouac3001 said:

se riuscite a capire come ***** fa a leggere il codice delle pagine e memorizzarne i dati, ditemelo...è tutta la mattina che provo a capirlo, ma non ci riesco

mica di fà con il codice scripting

uno spider puo' essere fatto in Visual Basic o in c++

io ne ho fatti a tonnellate in Visual basic

kerouac3001

ehm quello era scontato..ma non me ne faccio nulla di farlo in vb6

inoltre lo spider fornito da shade è in php (a meno ke non faccia richiesta ad uno spider remoto..ma ne dubito)

se riesco a trovare un modo di leggere le pagine remote in php (senza che i wrappers siano abilitati) allora posso tranquillamente creare il mio script..sto studiando le google api, maper funzionare necessitano di un passaggio via POST e io non posso fornirgielo (devo fare in modo che sia automatico)

cmq NULLA è impossibile..al massimo è difficile ke IO ci riesca^____^

pregopapa

@kerouac3001 said:

ehm quello era scontato..ma non me ne faccio nulla di farlo in vb6

inoltre lo spider fornito da shade è in php (a meno ke non faccia richiesta ad uno spider remoto..ma ne dubito)

se riesco a trovare un modo di leggere le pagine remote in php (senza che i wrappers siano abilitati) allora posso tranquillamente creare il mio script..sto studiando le google api, maper funzionare necessitano di un passaggio via POST e io non posso fornirgielo (devo fare in modo che sia automatico)

cmq NULLA è impossibile..al massimo è difficile ke IO ci riesca^____^

in VB si creano dei componeti COM che posso essere interfacciati con pagine web.
inoltre anche in VB semplice si puo' interagire col web, lo spider funziona su un PC collegato ad internet anche la connessione ad un DB remoto.

kerouac3001

purtoppo non conosco VB così bene..uso vb6 + che altroper creare programmi a scopo matemnatico..il massimo che ho fatto è stato un programma per automatizzare un manual surf ^_____^

se tu riesci a far interagire php con VB allora dimmelo..perchè si tratta di questo:

lo spider arriva suuna pagina php---> lo riconosco e se è google allora leggo la pagina della serp che mi interessa e ne ricavo la mia posizione (questo si può fare in VB? )----> passo di nuovo il dato della mia posizione al php e fornisco allo spider pagine diverse a seconda della mia posizione

questo è l'algoritmo in generale..se tu mi dici che io posso fare interaggire php e VB esattamente nel modo che mi serve, allora mi metto a studiare VB

pregopapa

@kerouac3001 said:

purtoppo non conosco VB così bene..uso vb6 + che altroper creare programmi a scopo matemnatico..il massimo che ho fatto è stato un programma per automatizzare un manual surf ^_____^

se tu riesci a far interagire php con VB allora dimmelo..perchè si tratta di questo:

lo spider arriva suuna pagina php---> lo riconosco e se è google allora leggo la pagina della serp che mi interessa e ne ricavo la mia posizione (questo si può fare in VB? )----> passo di nuovo il dato della mia posizione al php e fornisco allo spider pagine diverse a seconda della mia posizione

questo è l'algoritmo in generale..se tu mi dici che io posso fare interaggire php e VB esattamente nel modo che mi serve, allora mi metto a studiare VB
non conosco il PHP, io lavoro in ASP e quello che dici si puo' fare anche solo in ASP con l'xmlhttp...

se hai aspetti qualche minuto preparo una pagina e te la faccio vedere on-line.

pregopapa

ecco fatto, l'ho preparato in pochi minuti quindi un po' grezzo:
http://www.swfitalia.com/seo/xml.asp

kerouac3001

scusa ho visto il tuo postsolo ora..mi fai capire meglio? Puoi fare, invece, uno script che prendendo come input una serp di google e un dominio, mi dica se il dominio è presente tra i risultati della serp? (senza complicarti la vita..deve semplicemente dirmi se in quella serpc'è un link a una qualsiasi pagina di quel dominio)

fallo con un POST (anche se poi mi servirà senza post)..se puoi infine passarmi il codice, cercherò l'equivalente in php

pregopapa

@kerouac3001 said:

scusa ho visto il tuo postsolo ora..mi fai capire meglio? Puoi fare, invece, uno script che prendendo come input una serp di google e un dominio, mi dica se il dominio è presente tra i risultati della serp? (senza complicarti la vita..deve semplicemente dirmi se in quella serpc'è un link a una qualsiasi pagina di quel dominio)

fallo con un POST (anche se poi mi servirà senza post)..se puoi infine passarmi il codice, cercherò l'equivalente in php

vi vuole poco, se domani ho tempo lo faccio.

non so' se in PHP c'è un oggetto simile

cmq credimi serve a poco, molto poco.

dicamo che c'è di meglio

kerouac3001

cioè? proponi

pregopapa

@kerouac3001 said:

cioè? proponi

generare pagine di cloaking in base al termine ricercato prendendo informazioni da google news e msn.

il sito risultarà sempre aggiornato e non si incorre in duplicazioni che potrebbero essere penalizzanti.

-scusami ma oggi è una giornata di fuoco in ufficio-

kerouac3001

amico io uso il cloaking in abbondanza e sapientemente ghghgh .. ti faccio un esempio di una mia pagina che uso per HotelClub (sono affiliato al loro sito):

se entra uno spider gli passo la descrizione dell'hotel + un testo random di circa 1000 parole (anche il numero di parole è random) che sono in larga parte personalizzate rispetto al tipo di hotel, alla zona, alla nazione eccetera + una buona dose di link a pagine interne ed esterne.

se un utente arriva da motore di ricerca, analiozzo la query e in 3 secondi gli fornisco l'hotel + adatto alle sue esigenze, nella lingua + vicina alla sua. La pagina gliela fornisco in un iFrame, in modo che se vuole mettere il sito tra i preferiti, mette il mio e non quello del sito a cui sono affiliato.

se un utente non arriva da motore di ricerca allora gli fornisco una pagina con l'iframe che punta alla "home" o ad un hotel..dipende dalla pagina che cerca.

Tramite questo meccanismo sono primo con molte key importanti e i miei visitatori trovano esattamente quello che stavano cercando

l'aggiornamento delle pagine è continuo, ma questo è uno svantaggio anche se è contemporaneamente un vantaggio..L'aggiornamento è una buona cosa, ma se oggi la mia pagina è prima per una key, domani può essere ultima..quindi usando l'idea del "refresh" dei contenuti solo finchè non mi piazzo in vetta, ottengo migliori risultati

non ho capito solo una cosa:

"generare pagine di cloaking in base al termine ricercato prendendo informazioni da google news e msn. "

io per creare le mie pagine mi baso dulle adwords, ma lo faccio "a mano"..o meglio ho creato database di keywords tematici, dai quali le pagine prelevano casualmente alcune key

nwox

@kerouac3001 said:

scusa ho visto il tuo postsolo ora..mi fai capire meglio? Puoi fare, invece, uno script che prendendo come input una serp di google e un dominio, mi dica se il dominio è presente tra i risultati della serp? (senza complicarti la vita..deve semplicemente dirmi se in quella serpc'è un link a una qualsiasi pagina di quel dominio)

fallo con un POST (anche se poi mi servirà senza post)..se puoi infine passarmi il codice, cercherò l'equivalente in php
io questo l'ho già fatto per 20 motori di ricerca