political_posts_analysis: A Jupyter Notebook repository from mcmarkstein

Political social media posts

Este dataset fue obtenido en la página Kaggle Consiste en 5000 publicaciones/posteos de las redes sociales (facebook y twitter) de políticos estadounidenses (senadores y representantes del congreso). Los mensajes fueron clasificados según: audiencia (nacional o local), sesgo (neutral/bipartisan, o biased/partisan) y por el objetivo de los mismos (ataque, apoyo, personal, etc).

El dataset original cuenta con estas columnas:

_unit_id : un id único para cada mensaje
golden: siempre FALSE (falso) → La columna fue eliminada
_unit_state: siempre "finalized" (finalizado) → La columna fue eliminada
_trusted_judgments: la cantidad de personas que juzgaron el mensaje; un número entero entre 1 y 3
_last_judgment_at: cuando fue reoclectado el último “juicio”
audience: público al que fue dirigido; nacional o circunscripto
audience:confidence: una medida de confianza en el juicio de la audiencia; un número entre 0,5 y 1 → columna eliminada
bias: el sesgo que se presenta como neutral o partidario
bias:confidence: una medida de confianza en el juicio de sesgo; un valor entre 0,5 y 1 → columna eliminada
message: el objetivo del mensaje:
- attack: el mensaje ataca a otro político
- constituency: el mensaje habla de la circunscripción del político
- information: n mensaje informativo sobre las novedades del gobierno o de los Estados Unidos en general
- media: un mensaje sobre la interacción con los medios de comunicación
- Mobilization: mensaje destinado a movilizar a los partidarios.
- other: una categoría que engloba los mensajes que no encajan en las otras categorías.
- personal: un mensaje personal, que suele expresar simpatía, apoyo y/o condolencias, u otras opiniones personales
- policy: un mensaje sobre políticas
- support: un mensaje de apoyo político
message:confidence: una medida de confianza en el juicio del mensaje; un valor entre 0,5 y 1 → columna eliminada
orig_golden: siempre vacío; presumiblemente si alguna parte del mensaje estaba en el estándar de oro → columna eliminada
audience_gold: siempre vacío; presumiblemente si la respuesta de la audiencia estaba en el patrón oro → columna eliminada
bias_gold: siempre vacío; presumiblemente, si la respuesta de sesgo estaba en el patrón oro → columna eliminada
bioid: un id único para el político
embed: código HTML para incrustar este mensaje → columna eliminada
id: id único del mensaje DENTRO del sitio de medios sociales del que se extrajo
label: una frase de la forma "De: nombre apellido (cargo del estado)"
message_gold: siempre en blanco; presumiblemente si la respuesta del mensaje estaba en el estándar de oro → columna eliminada
source: donde se publicó el mensaje,"facebook" o "twitter"
text: el texto del mensaje

Como fue indicado, varias columnas no fueron seleccionadas (eliminadas), ya que estaban relacionadas al proceso de construcción del dataset que no tiene relevancia ahora, siendo que no todas las filas están vacías o todas tienen el mismo valor.

El objetivo es poder establecer las relaciones entre las variables y ver la influencia que tienen sobre el tipo de publicación. Se buscará poder predecir el tipo/intención de la publicación. En el futuro, estaría bueno poder aplicar lo que se logre, automatizarlo y poder detectar de que tipo de posteo se trata, y si se puede utilizar para Argentina mejor (aunque es cierto que hay elementos que dependen mucho del contexto político y social)

Por lo tanto, nuestra variable dependiente es "message", y el resto las independientes (luego se elegirán las más adecuadas)

Para ellos se crearán variables tomando las ya existentes, y las palabras dentro de los textos.

Como hipótesis inicial, se cree que para cada una de las diferentes intenciones de los mensajes, se utilizan diferentes palabras claves, además el sesgo (bias) va a influir, ya que si es partidario será más de ataque y si es neutral más de apoyo, por ejemplo.

mcmarkstein/political_posts_analysis