Inicio > Historias > Blogfactor: Un Esbozo

Blogfactor: Un Esbozo

En algún sitio comenté que se podría hacer un análisis factorial de las palabras que aparecen en las bitácoras para ordenar sus contenidos semánticamente. Ahora he decidido ponerme un poco más a la tarea, haciéndolo de las maneras más "manuales" existentes. Algernon me está echando una mano, y si alguien quiere apuntarse, bienvenido sea. Los primeros resultados los publicaré la semana que viene.


¿Qué carajos?

El resultado final es una clasificación de las historias de una bitácora (o de un grupo de bitácoras) en función de en qué medida saturan sus palabras (variables) en distintos factores (grupos de variables que correlacionan en gran medida entre sí y poco con otros factores). Así, los factores no tendrían entidad previa al análisis, pero podrían ser tipo: "ciencia" (Ciencia15 debería saturar alto en esta), "política" (Prestige igual satura en esta), "tecnología" (¿Atalaya, Reflexiones e Irreflexiones, Cuaderno de Bitácora?)... las historias tendrían un valor asignado en cada una de las medidas.

A esto se llegaría organizando una matriz en la cual las filas son casos (las historias) y las columnas son variables (las palabras). Las casillas serían la frecuencia de aparición de cierta palabra en cierta historia. Este tipo de estructura sería procesable con cualquier paquete estadístico tipo SPSS (que es el que tengo más a mano), aunque se podría automatizar.

Supongo que en general el tema será similar al filtrado de Spam empleando análisis bayesiano que se comenta en esta historia de Yogur Griego.

¿Qué tal?

2003-03-09 | Ctugha | 2 Comentarios | Enlázame | Imprímeme

Referencias (TrackBacks)

URL de trackback de esta historia http://jkaranka.blogalia.com//trackbacks/5957

Comentarios

1
De: JJ Fecha: 2003-03-09 17:18

Mantennos informados. Un par de consejos:
*Para bajarte las historias sin farfolla usa el interfaz blogger, así te bajas solo el texto, sin necesidad de bajarte la página.
*Ten cuidadín con el método de codificación que usas para cada historia. TFIDF sería quizás conveniente.
*Échale un vistazo a LSA (Latent Semantic Indexing), para ver si lo puedes usar.
*No uses categorías de antemano: una vez que tengas los factores, usa algún algoritmo de clustering para descubrir cuáles son las categorías que se forman
Si necesitas que te eche una mano, no tienes más que decirlo. De hecho, llevo años queriendo hacer una cosa así con barrapunto.



2
De: Ctugha Fecha: 2003-03-09 20:50

Yo soy mucho más basto, JJ. Recuerda que de programar ni papa :D Estoy cavilando si hay alguna manera de usar macros de word o cosas por el estilo para hacer las matrices y similar. De momento tengo ya un listado de todas las palabras de las 30 historias gracias a un programa que se encontró Algernon por ahí. Espero no tener que meterlas a mano en su correspondiente casilla...
Una vez terminado podré hacerles casi cualquier análisis estadístico, eso sí. Si funciona, se podría convertir en un programa (automatizar todo el proceso).



Nombre
Correo-e
URL
Dirección IP: 54.198.44.165 (9c254d96e3)
Comentario
¿Cuánto es: diez mil + uno?






Todas las Historias


Translate me!


Archivos

<Noviembre 2018
Lu Ma Mi Ju Vi Sa Do
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    
             

Documentos

  • Chorradas de internet
  • Planeta Encantado
  • Python: pruebas, cosas y demás.
  • Relatos
  • Material del juego de rol de los teletubbies.



  • Blogalia

    Blogalia








    Busca en El Asiento




    Bitácoras

    Desbarradas de Akin
    Blog de Beor
    La Biblioteca de Babel
    El Rincón de Canopus
    Ciencia 15
    Copensar
    La Cosa Húmeda
    Hazte Escuchar
    hipocondría demagógica
    JCantero
    Magonia
    diario del osito
    Por la Boca Muere el Pez
    El Paleofreak
    Segfault
    Tirando Líneas
    El Triunfo de Clío
    Una cuestión personal



    Cybergurús

    Epaminondas
    fernand0
    JJMerelo
    Joma
    Jordi
    mini-d
    mur0



    Laboratorios Virtuales

    Laboratorio Virtual de Psicología
    PsychExperiments



    Webs

    Homo Webensis
    Magufomedia
    ARP-SAPC

    Comportamental br> Neurociencias para niños
    Psicoteca







    Listed on BlogShares

    Creative Commons License



    This work is licensed under a Creative Commons License. 2003 Ctugha