Ciao ragazzi,
Ho raccolto circa 1800 stringhe di testi in un db e ora devo proseguire con alcune analisi linguistiche.
Per esempio devo contare le parole di ogni stringa e poi fare la media. Per fare questo io ho deciso di "normalizzare" i testi raccolti. Spiego: volevo contare le parole utilizzando la funzione explode basandomi sugli spazi di una stringa(ho visto che esisteva una funzione apposita ma non mi prende i numeri che spesso ci sono). Per utilizzare questa cosa, devo inoltre togliere la punteggiatura, i famosi cuoricini(che spesso comapiono su facebook) etc in modo che ogni stringa sia disposta in questo modo: parola parola parola parola (ovvero uno spazio tra una parola e l'altra senza punteggiatura). Ora io avevo trovato una funzione che eliminava la punteggiatura ma essendoci tra le stringhe anche url non me le riconosceva e le spaccava, inoltre essendoci anche emoticon del dipo i due punti mi venivano tolti e rimaneva solo la D. Ora il mio problema è: eliminare dalle stringhe la punteggiatura, le emoticon, lasciare inalterate le url presenti nella stringa. tutto ciò in modo da avere struttura della stringa uguale a: parola parola parola
Come posso fare??