- Home
- Categorie
- Digital Marketing
- Consigli su Penalizzazioni e Test SEO
- Markov chain [lavoriamoci assieme]
-
@LowLevel said:
@paolo said:
Oppure copia e incolla
Se si copia dal Web, è una pessima idea.
Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.
d'accordo d'accordo, però esiste qualche documento che Google non conosce ancora? Tieni conto che ci sono dei siti che riproducono letteralmente intere opere letterarie, qualche mese ho trovato la Divina Commedia intera in un sito web...
cmq, se devo scrivermi il testo scopiazzando o "ocrando ( () )", alla fine a cosa servono le markov chain se non mi risparmiano ore di lavoro?
-
Se si copia dal Web, è una pessima idea.
Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.Perchè ?
Allora tu dici giustamente che usando il vocabolario di un'altro documento il filtro antiduplicazione parte.. giustamente..Ma se uso il vocabolario di 200 pagine web ?
Se ne accorge ancora ?
-
@LowLevel said:
Se si copia dal Web, è una pessima idea.
Se si usa lo stesso vocabolario di un documento che Google già conosce, è facile essere riconosciuti.
forse sei un pò troppo pessimista, se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole, però se un concorrente ha messo il sito prima di te, Google ti banna?
oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi? Sono tutti bannati ecceto il più antico?
:bho:
-
Decisamente interessante questa implementazione.
Tempo fa avevo studiato una cosa simile basata su testi semicasuali in inglese ma i risultati erano decisamente di qualita' inferiore. Era basata quasi del tutto sulla ricorrenza nella lingua inglese di successioni predefinite di soggetto, verbo, complementi secondo una logica piuttosto lineare. Avevo un vocabolario di soggetti, verbi e complementi che veniva mischiato in modo semirandom e generava dei testi abbastanza "apparentemente corretti"Avevo poi applicato una semplice funzione che linkasse a tutte le parole chiave che mi interessavano i siti che intendevo promuovere.
Per esempio a "cane e gatto" linkava sempre www.sitodigattiecani.ext, a "pesce fritto" www.pescesaltatoinpadellaelatrimisteri.ext e cosi' via associando sempre ad un termine o ad una coppia di termini un link univoco
Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?
-
@uMoR said:
Ma se uso il vocabolario di 200 pagine web ?
Se ne accorge ancora ?No. Mi riferivo alla copia di un singolo documento.
E' meglio copiare da 10 brevi documenti diversi che da un documento lungo.
se devi promuovere lacci per scarpe, non hai 25000 parole a disposizione, alla fine il tutto si riduce a qualche decina di parole
Non sono d'accordo. Con un po' di originalità si possono fare cose eccellenti.
In particolar modo, se l'obiettivo è solo quello di creare un testo di partenza, dal quale tirar fuori decine di doorway, ci si può sbizzarrire parecchio, sempre rimanendo in tema.
oppure facciamo l'esempio di una biografia di Verdi, quanti siti ci sono con la biografia di Verdi?
Che usano lo stesso identico vocabolario? Presumo nessuno.
Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?
Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.
Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.
-
@LowLevel said:
Pensate che quest'ultima sia una tecnica troppo sfacciatamente riconoscibile o puo' mimetizzarsi bene se si utilizza abbastanza testo e i link sono molti e quindi "diluiti" magari su piu' spazi web anziche' su uno solo?
Dipende dalla costruzione delle frasi. Esistono algoritmi per il calcolo della similarità linguistica che analizzano i testi in cerca di forme negative e interrogative, frequenti nel linguaggio naturale ma non in quello promozionale o creato con algoritmi banali.
Se le frasi vengono costruite mimando bene il linguaggio naturale, diventano praticamente irriconoscibili da una frase genuina.
Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio? Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante
-
parlando di OCR e di reperire testi nella rete, ho trovato questo programmino
[URL=http://www.solidpdf.com/download.htm/]Solid PDF to WORD converter
l'ho provato e funziona divinamente, è in trial per 15 giorni
-
@d0main said:
Quindi utilizzando la tecnica qui descritta e soprattutto l'algoritmo qui indicato le possibilita' che non vengano mai rilevate sono abbastanza grandi o sbaglio?
Ci sono centinaia di fattori da prendere inconsiderazione, per creare un algoritmo in grado di creare testo "simil-naturale".
I criteri che evidenziavo io sono solo alcuni tra i tanti.
Se a tutto questo si abbinasse una qualche forma di link reciproco a catena tra le varie pagine generate si avrebbe uno strumento decisamente interessante
...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.
I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.
parlando di OCR e di reperire testi nella rete, ho trovato questo programmino
Non è un OCR. E' solo un convertitore di file PDF->Word.
-
@LowLevel said:
...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.
I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.
ingenuamente anch'io avevo proposto una cosa simile, ma allora come linkare 50 pagine in modo poco evidente... ?
-
@LowLevel said:
parlando di OCR e di reperire testi nella rete, ho trovato questo programmino
Non è un OCR. E' solo un convertitore di file PDF->Word.
Si si, lo so che non è un OCR, fino qui ci arrivo anch'io, però può servire per gli stessi scopi, soprattutto per chi non ha uno scanner
-
@Nic0 said:
@LowLevel said:
...e più facile da beccare. Gli interlink con keyword tra pagine dello stesso sito sono una delle cose più evidenti che esistano.
I link vanno creati con crtierio e prendendo diverse accortezze, altrimenti diventa palese che le pagine (a prescindere da come siano state create) sono solo doorway che cercano di spingersi a vicenda.
ingenuamente anch'io avevo proposto una cosa simile, ma allora come linkare 50 pagine in modo poco evidente... ?
Istintivamente andrei a linkare le pagine tra di loro con un semplice link "prosegui" ma temo sia troppo visibile. Non andrei a usare link con parole chiave ma userei qualcosa di standard tipo "Prosegui" proprio per evitare di insospettire troppo i motori.
Qualcuno ha esperienze in merito?Andare a linkare tra di loro le pagine tra server diversi in modo random non e' troppo complesso. L'unica mia perplessita' e' lo schema di costruzione dei nomi pagina. Credete che possa accorgere di grosse quantita' di nomi pagina uguali su server diversi e possa in qualche modo penalizzarli?
-
Una piccola curiosita' sullo script php che kerouac ha creato, se inserisco due parole chiave che non esistono o non sono affiancate all'interno dei testi che ho scelto, cosa succede esattamente?
Un qualche testo lo genera ugualmente, quindi non riesco a capire da dove parte e con quale logica.
Forse e' una domanda stupida, ma questo script mi pare veramente bello e ben fatto e mi sto divertendo parecchio ad aggiungerci piccoli dettagli per sperimentare un po'
MODIFICATO: come non detto, se non trova la parola ovviamente non funziona. Sono fuso io
-
Low citava di aver creato un programma che sostituiva ad ogni parola un numero, e poi da li faceva tutti i ragionamento..
Come gestivi i numeri stessi ? (inteso se per esempio nel testo trovi un numero)
-
scusate ma i siti da dove si poteva scaricare lo script sono down.
qualcuno può inviarmelo?
napalmv#hotmail#com
grazie mille
-
per ora è tutto down perchè mi sto trasferendo in tedeschia
Purtroppo il vecchio servizio di hosting non mi ha messo i dns al nuovo server e dunque sono down da 5 giorni.
ora vedo di inviartelo.
P.S. aggiungo che ho portato avanti un discorso con un mio amico musicista per utilizzare le markov chain in un progetto musicale. A quanto pare questa tecnica è stata usata da xenakis per creare la sua musica.
Da un punto di vista matematico trovo tutto ciò molto affascinante.Appena mi compro il pc nuovo mi metto a creare un programmetto per fare musica di questo tipo.
-
kerouac3001,
ho provato solo domenica il tuo script e ti faccio i complimenti...
ciao
-
@kerouac3001 said:
per ora è tutto down perchè mi sto trasferendo in tedeschia
Purtroppo il vecchio servizio di hosting non mi ha messo i dns al nuovo server e dunque sono down da 5 giorni.
ora vedo di inviartelo.
P.S. aggiungo che ho portato avanti un discorso con un mio amico musicista per utilizzare le markov chain in un progetto musicale. A quanto pare questa tecnica è stata usata da xenakis per creare la sua musica.
Da un punto di vista matematico trovo tutto ciò molto affascinante.Appena mi compro il pc nuovo mi metto a creare un programmetto per fare musica di questo tipo.
grazie mille per lo script
anche i tool usano metodi matematici
come anche i mesuggah
-
Ho letto con attenzione tutto il thread.
****kerouac3001 ****è possibile avere lo script?
Grazie
chakilda_1§hotmail§com
-
Ciao a tutti!
Ma quindi è possibile implementarlo e averlo come programma?