- Home
- Categorie
- Coding e Sistemistica
- PHP
- estrarre keywords de stringa
-
estrarre keywords de stringa
Ciao a tutti,
volevo un consiglio su come estrarre, se possibile, delle probabili keywords da un titolo, considerando che il titolo spesso contiene anche articoli e/o parole che potrebbere fuorviare dal contenuto del testo.Grazie,
-
@Defly said:
Ciao a tutti,
volevo un consiglio su come estrarre, se possibile, delle probabili keywords da un titolo, considerando che il titolo spesso contiene anche articoli e/o parole che potrebbere fuorviare dal contenuto del testo.Grazie,
CiaoLa tua necessità è quella di ricercare una substringa in una stringa, giusto?
A questo scopo è utile l'utilizzo dell'Espressioni Regolari o delle funzioni di manipolazione delle stringhe.
Ecco:
http://it.php.net/manual/it/ref.strings.php
http://it.php.net/manual/it/ref.regex.php
http://it.php.net/manual/it/ref.pcre.php
-
@ico1989 said:
Ciao
La tua necessità è quella di ricercare una substringa in una stringa, giusto?
A questo scopo è utile l'utilizzo dell'Espressioni Regolari o delle funzioni di manipolazione delle stringhe.
Ecco:
http://it.php.net/manual/it/ref.strings.php
http://it.php.net/manual/it/ref.regex.php
http://it.php.net/manual/it/ref.pcre.phpehm... più o meno.
Il problema principale è capire se è possibile estrarle da una stringa contenente ad esempio:
"tutte le novità sulle assicurazioni auto"
In questo caso le keywords potrebbero essere auto ed assicurazioni, ma con quale criterio potrei selezionarle?Eliminando ad esempio tutte le parole con meno di 4 caratteri, ma non sarebbe molto sicuro, ci sarebberò sempre aggettivi e via dicendo che non avrebbero senso con il contenuto, specie poi se il testo fosse in inglese....
Qualche idea?
-
@Defly said:
Qualche idea?
Per le parole con meno di 3 non penso sia un problema ma quelle di 3 non le puoi eliminare perchè ce ne sono anche in italiano.... età, ora, era...
La soluzione ottimale sarebbe avere un vocabolario(in xml ce ne sono di già fatti e a gratis su internet) e confrontare le parole della frase, togliendo spazi e punteggiature varie, col dizionario scartando gli articoli preposizioni ecc..
Ma per fare una cosa del genere non basta:
@Defly said:"tutte le novità sulle assicurazioni auto"
In questo caso le keywords potrebbero essere auto ed assicurazioni, ma con quale criterio potrei selezionarle?Perchè col metodo che ti ho detto prenderesti anche novità......
:bho:
-
Quindi l'unica soluzione sarebbe, salvare le keywords, a mano, in un array, o db ed estrarle secondo una specifica categoria....
ma anche in quel caso non sarebbe preciso.
Perchè metti che si tratti di auto, estraendo tutte le keywords relative ad auto, ci sarebbero dentro anche parole come autolavaggio, autorimessa, che non è detto centrino in pieno il significato del contenuto della pagina.
Forse mi sto creando troppi problemi...
-
Ma per caso vuoi fare un motore di ricerca tipo quello di google ????
Se ce la fai da solo sei un mito !!!
-
@lockit said:
Ma per caso vuoi fare un motore di ricerca tipo quello di google ????
Se ce la fai da solo sei un mito !!!
No,
semplicemente volevo estrarre delle parole chiave attinenti al
contenuto della pagine web, e volevo generarle automaticamente....
-
@Defly said:
No,
semplicemente volevo estrarre delle parole chiave attinenti al
contenuto della pagine web, e volevo generarle automaticamente....Non capisco quel semplicemente...... questo lavoro è in parte quello che fanno i motori di ricerca come google, solo che google le chiavi non le crea, ma controlla "solo" la coerenza col contenuto e mette in ordine in base ai suoi critreri le pagine trovate...
Dovresti creare un codice che in base alla frequenza delle parole nel testo e in determinati tag(per es. <img alt="Chiavi interessanti">) determini le migliori parole chiave per quella pagina.... non mi sembra molto semplice...
Comunque di certo non è impossibile
in bocca al lupo
-
@lockit said:
Dovresti creare un codice che in base alla frequenza delle parole nel testo e in determinati tag(per es. <img alt="Chiavi interessanti">) determini le migliori parole chiave per quella pagina.... non mi sembra molto semplice...
Comunque di certo non è impossibile
in bocca al lupo
L'idea non è male...
il Contenuto è già presente nel db, si tratterebbe di fare un conteggio, come dici tu, per vedere quale parola risulta essere più presente, ma credo sia un po' dispersivo in quanto a tempo e sempre poco preciso, perche pensa alle congiunzioni, agli articoli...(anche questi si ripeteranno tante volte generando key errate).:bho:
-
@Defly said:
pensa alle congiunzioni, agli articoli...(anche questi si ripeteranno tante volte generando key errate).
Naturalmente il metodo della frequenza è successivo a quello del dizionario per eliminare articoli congiunzioni e quant'altro...
Per quello di dico che è un lavoraccio, ma fattibile... e una soluzione perfetta penso che non esista.
-
hai ragione....
devo decidere se mettermi sotto, o salvare sul db delle key e richiamarle nella pagina in base alla categoria...forse questa seconda ipotesi è la migliore...
:bho:ci penserò stanotte...
grazie.
-
@Defly said:
o salvare sul db delle key e richiamarle nella pagina in base alla categoria...
Questo ti eviterebbe una grossa mole di lavoro!!
Mi sembra un ottima idea
-
lockit te ne intendi di .htaccess ed apache su unix?
-
No ho provato a installarlo Apache ma dopo che sono sclerato 1 pomeriggio per capire che dovevo installare anche php mi sono accorto che potevo installarlo su IIS e così ho fatto per comodità.
Già mi sto imparando php se ci aggiungo pure la configurazione apache impazzisco...
Comunque prova a dirmi che un po di cose le avevo viste per configurare apache mentre non capivo perchè non funzionava php ... ()
-
il problema è l'htaccess, non riesco a capire se apache lo riesce a leggere o meno.
sto cercando di metterlo in locale perchè on line funziona, ma sul mi mac no e sto impazzendo...
ho letto tutte le guide possibili ed immaginabili, ma nulla...