La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático

4.7/5
Resumen:

Resumen El presente trabajo realiza una aplicación de extracción y visualización de datos de Twitter de los líderes del partido político colombiano el Centro democrático usando el lenguaje de procesamiento...

Tabla de contenidos

Resumen

El presente trabajo realiza una aplicación de extracción y visualización de datos de Twitter de los líderes del partido político colombiano el Centro democrático usando el lenguaje de procesamiento natural de Google para analizar el fenómeno del discurso de odio en línea y su relación con la violencia de los primeros días del Paro nacional colombiano del 2021. Se concluye que, aunque el NLP de Google es una poderosa herramienta con mucha promesa, no logra captar ciertos contextos de significado que pueden usar algunos discursos extremistas, evidenciando la necesidad de mejorar esta herramienta para el análisis del discurso del odio.

Palabras clave: Twitter, NLP, análisis de sentimientos, discursos de odio, paro nacional

Abstract

The present work is an exercise in the extraction and visualization of data from Twitter of the leaders of the Colombian political party known as the Centro democrático using Google’s natural language processing to analyze the phenomenon of online hate speech and its relationship with the violence that took place during the first days of the Colombian national strike of 2021. The result is that although Google’s NLP is a powerful tool with a lot of potential, it fails to capture certain contexts of meaning that some extremist discourses may use, illustrating the need to improve this tool for the analysis of hate speech.

Keywords: Twitter, NLP, emotion analysis, hate speech, national strike

Preliminares

Dedicado a todos los manifestantes; a los que perdieron sus ojos y a los que cayeron mientras alzaban su voz por una Colombia más justa. 

1. Introducción

El problema del discurso del odio en el ciberespacio es un ejemplo bastante ilustrativo de la importancia del diálogo y cooperación interdisciplinaria para pensar fenómenos sociales complejos en la actualidad y que tienen su correlato en línea. En ese sentido, este estudio usa el lenguaje de procesamiento natural de Google para poder recopilar, visualizar y analizar el discurso de odio en línea generado por el Centro democrático durante los primeros días del Paro nacional colombiano. Durante estas tumultuosas marchas se puede apreciar el comportamiento discursivo de varios actores políticos en sus cuentas de Twitter, ofreciendo una perfecta oportunidad para aplicar dicha herramienta.

En los discursos políticos se pueden ver formas muy específicas de entender la realidad y de pensar problemáticas de distintas índoles. Los partidos políticos interactúan con sus electores por medio del discurso. Este provee toda una serie de lógicas y enmarcaciones afectivas que se usan con distintos fines propagandísticos, electorales, y diplomáticos. Se podría afirmar, recordando la importante teorización Foucaldiana en torno al poder, que los discursos revelan toda una mentalidad de gobernanza. Por esta razón se hace relevante analizar el discurso del odio en su manifestación política en las redes sociales.

Pero ¿qué se entiende con discurso de odio? Este es la articulación en el lenguaje de prejuicios y emociones negativas enfocadas a un grupo de personas por razones políticas, religiosas o culturales. Por ejemplo, cuando un político escribe mensajes racistas en su cuenta de Twitter con el fin de satanizar a un grupo marginal frente a sus seguidores, se puede afirmar la configuración de un discurso de odio en sus Tweets. Marianne Díaz Hernández ofrece una elocuente visión de lo que es un discurso de odio;

Desde una perspectiva legislativa, la noción de discurso de odio contiene dos elementos clave que permiten aproximarse a una definición: en primera instancia la incitación al daño, sea en forma de violencia, hostilidad o discriminación; en segunda instancia, la situación de la víctima como parte de un determinado grupo social o demográfico, que amerita una protección especial (2020, 5).

La presencia de discursos del odio en la política colombiana es un hecho bastante conocido y que se relaciona con la configuración del imaginario político del enemigo interno. Si se tiene en cuenta como se dijo anteriormente, que detrás del discurso existe toda una cosmovisión con su respectiva forma de gobernar, los discursos del odio pueden develar prácticas de gobernanza basadas en la injusticia, los prejuicios y la discriminación. Es así como en el marco del paro nacional 2021 en Colombia se puede ver como los diversos actores políticos han puesto en manifiesto sus posturas a favor o en contra de las peticiones que los ciudadanos en las calles se han volcado a exigir, y es en los medios sociales también en donde los actores políticos han manifestado sus posturas. Si bien el derecho a la libre expresión es un derecho fundamental, podemos reconocer que en las palabras que algunos de estos actores publican, no hay un discurso conciliador y de diálogo sobre las peticiones de los manifestantes, sino que es un discurso de desinformación y represión.

Por esta razón, se hace necesario encontrar para las humanidades digitales herramientas tecnológicas como el Procesamiento del lenguaje natural (abreviado NLP) para recopilar y analizar el comportamiento discursivo del partido gobernante en torno a las marchas con el fin de entender los matices de su discurso del odio y su significado político. Como se verá detenidamente más adelante, estas herramientas son útiles por la escala de recopilación de datos que permiten y la posibilidad de visualización que ofrecen.

En ese orden de ideas, este estudio pretende determinar la pertinencia de estas herramientas para entender los discursos del odio en línea y como se pueden contrarrestar con el fin de promover el diálogo, la información veraz y la democracia. Este estudio hace uso de las herramientas tecnológicas de más alto nivel como lo son el algoritmo de NPL de Google llamado BERT, el cual ha sido entrenado con el paso de los años para detectar la semántica usada por los usuarios en el lenguaje y el uso que dan en libros, la web, el buscador Google, entre otros. Así, el algoritmo nos ayudará a ver con mayor precisión los patrones discursivos de los políticos del centro democrático y su forma de entender el paro y su relación con el electorado. Este estudia también hará uso de herramientas de scrapeo de redes sociales, específicamente Twitter como un dataset de análisis básico en el marco de tiempo contemplado desde el 1 de abril de 2021 hasta el 30 de julio de 2021, más allá de lo que puedan publicar en otras redes y otros momentos de su carrera política.

De esta forma, en el primer apartado se contextualiza al lector sobre la situación política colombiana durante el paro nacional y se realizan algunas aclaraciones puntuales sobre el odio y sus discursos. En el segundo apartado se abordan las cuestiones técnicas de NLP y de la extracción del dataset desde Twitter. Finalmente se visualizan los datos y se analiza su pertinencia para pensar los discursos del odio dentro del contexto del Paro nacional, explorando oportunidades de mejora para las humanidades digitales y sus respectivas dificultades.

2. Capítulo I

2.1 Incitación al odio en las redes sociales y la democracia 

La expresión de discursos que incitan al odio en el ciberespacio es un fenómeno que crecientemente llama la atención y adquiere mayor relevancia, especialmente debido a la pandemia de Covid-19 que ha generado que más personas pasen el tiempo en línea debido a las cuarentenas. Otro fenómeno relacionado es la polarización del electorado en distintas zonas geográficas, como se vio en las elecciones estadounidenses del 2020 y en el Perú durante el 2021. Permitir el libre flujo de narrativas racistas, bélicas, prejuiciadas o intolerantes no es una opción real en un mundo donde la influencia de las redes sociales es crucial para la política. Censurar las ideas y las expresiones de opiniones tampoco es una opción viable si se desea promover la democracia ya que esta depende de la libre expresión y flujo de ideas. Lo que se necesita es mayor deliberación racional y bien informada, dimensión del problema que las herramientas de procesamiento del lenguaje natural pueden ayudar a mejorar.

Los discursos del odio pueden ser sistemáticamente promovidos por grupos sociales y políticos, con el fin de hacer una campaña de desprestigio hacia algún grupo específico, por ejemplo, la oposición política, como ya ha sido visto en Colombia; investigadores de la Universidad de los Andes analizaron la forma como los políticos del Centro democrático se coordinan a través de WhatsApp para realizar publicaciones simultáneas y temáticas en Twitter enfocadas en demonizar a sus opositores (cerosetenta.uniandes.edu.co 2020).

Estas dinámicas en línea pueden influir en la violencia que ocurre en la realidad; por ejemplo, los investigadores académicos Karsten Müller & Carlo Schwarz exploraron la correlación entre el uso incrementado de Facebook y las instancias de crímenes de odio contra refugiados en Alemania; “[…] encontramos que, durante los períodos de gran prominencia de los refugiados en las redes sociales de derecha, los delitos de odio contra los refugiados aumentan en áreas con un mayor uso de Facebook” (2017, 3), fenómeno estrechamente ligado con la práctica de filtrar a los usuarios en grupos de interés común, estimulando la propagación de discursos extremos en el ciberespacio. Estas burbujas responden a las prácticas económicas de estas compañías de social media que buscan perfilar a sus clientes para expandir sus usuarios. Marianne Díaz Hernández explica;

Esto trae como consecuencia que las políticas de contenido de estas plataformas no se vean guiadas por las normas legales respecto a la validez o no del contenido en cuestión, sino por fuerzas de mercado que se ven determinadas por el deseo de mantener una masa crítica de usuarios suficientemente alta (18 2020).

Existe un ávido debate en torno a la forma como se debe afrontar esta problemática. Este estudio parte de la creencia que la mejor manera de solucionar este problema es de aplicar una mínima censura y promover el debate racional en línea, a partir de comunidades interculturales y heterogéneas. Posturas que apuntan hacia intervenciones policiales y de censura no son recomendables; “(…), la normativa sobre delitos de odio corre el claro riesgo de convertirse en una herramienta de persecución política, tal como ya ha sucedido en los casos previamente expuestos” (19 2020). La censura no solo se considera un arma de doble filo para la democracia, sino que no contribuye realmente a la solución del problema del odio en línea. Marianne Díaz Hernández sintetiza la problemática magistralmente;

Al reconocer que el discurso de odio –tanto online como offline– es la expresión de conflictos y tensiones entre diferentes grupos sociales, reconocemos también la complejidad de las dinámicas que esto supone en el contexto latinoamericano, donde la tecnología a menudo replica instancias de poder y desigualdad preexistentes, y la violencia es un problema que discurre –en ocasiones subyacente, pero con frecuencia de un modo mucho más explícito– en la mayoría de las interacciones sociales donde ese poder y esa desigualdad entran en juego (2020, 7).

Es decir que en la medida que las dinámicas socioeconómicas generan odio dentro de la sociedad, cualquier intento de eliminar y censurar el ciberespacio tendrá poco éxito. Sin embargo, para contrarrestar este problema se considera que se debe hacer uso de herramientas tecnológicas para recopilación y análisis de datos con el fin de poder entender para poder luchar en contra de los discursos del odio. En ese sentido se entiende que las técnicas de Procesamiento del lenguaje natural pueden servir para analizar el discurso de odio en línea. El propósito final, no obstante, es la prevención del odio y por lo tanto la visualización de datos puede ser muy útil en esta tarea porque apunta a la cultura visual prevalente en esta época y tiene la capacidad de captar un mensaje con gran rapidez y efecto. Este es el propósito final de este estudio; poder ofrecer recursos didácticos que ayuden a este fin.

2.2 Discursos del odio en la política colombiana actual

Como se mencionó anteriormente en la introducción, los discursos del odio se enfocan en la construcción de un “otro” que debe ser satanizado y consecuentemente perseguido a través de la retórica y la violencia. Los discursos de odio le dan voz a los prejuicios e ignorancias de las personas. Como es natural, existe toda una dimensión política de esta discursividad del odio.

El ejemplo típico para ilustrar los peligros de los discursos de odio y su instrumentalización en la política es el régimen Nazi en la Alemania de la primera mitad del siglo XX, parte de la asunción al poder de este grupo político antisocial se debió a su maquinaria propagandística que dio voz al antisemitismo e infundió ideas fantásticas e irreales sobre un grupo étnico específico, culminando en la tragedia del Holocausto. Sin embargo, el discurso de odio nazi no solo afectó a los judíos, sino que también ayudó a legitimar formas antidemocráticas de gobernanza caracterizadas por la corrupción, la impunidad y la acumulación del poder. Esta cuestión de gobernanza es relevante precisamente porque ilumina la relación entre corrupción estatal y discursos del odio, cuyos efectos pueden afectar a todos.

Es posible pensar un correlato de esta naturaleza en la Colombia contemporánea. A través de la configuración del imaginario político del enemigo interno se ha promovido un discurso de odio que apunta a satanizar a grupos sociales específicos; campesinos e indígenas, comunidades afrodescendientes, guerrilleros o estudiantes de universidades públicas. El discurso del odio tiene bases históricas en Colombia que se relacionan con las dinámicas antagónicas y malsanas que se han visto entre partidos políticos y distintos estratos sociales, empeorado por la sociopatía que implica un conflicto armado dilatado por décadas. Durante el mandato de Alvaro Uribe y su doctrina de la seguridad nacional se pudo ver en acción la retórica del odio, como menciona el académico Carlos Rincón Oñate;

La Doctrina de Seguridad Nacional se definió desde el plano militar y se convirtió en la línea de acción de los ejércitos […] e hizo de la figura del enemigo interno un concepto, una pieza clave en la guerra irregular […] luego del paso de los años estarían en la base del tratamiento contrainsurgente que se les da a muchas situaciones sociales que han hecho del prójimo alguien en quien desconfiar (253).

Así, se establece una visión paranoica de la población civil donde cualquier persona puede ser un insurgente y por ende un objetivo político-militar válido. La oposición es entonces deshumanizada y estigmatizada como fin estratégico que hace parte de una retórica del miedo que legitima la doctrina de seguridad democrática; Colombia es asediada por monstruos irracionales y el gobierno con sus instituciones militares viene a ser la única manera de salvar a la patria. Carlos Alberto Rincon sintetiza esta situación muy elocuentemente; Esta es quizás la característica más importante sobre la cual descansa una política de odio tan decidida como la que analizamos, la construcción del enemigo interno, en donde generar zozobra, acrecentar la sensación de inseguridad, construir falsas noticias, además de otras estrategias, se ha convertido en la ruta más expedita para consolidar unos lazos que masifiquen, que demanden seguridad, protección, y que logren su propósito de construir un enemigo que, siendo el prójimo ahora es presentado como la fuente extraña del mal (261).

El discurso del odio es difícil de esconder. El profesor Raul Botero Torres concluye su estudio sobre el odio en Colombia mostrando cómo el ex-presidente Uribe trata de justificar la violencia y la preponderancia de ideales militares por encima de los principios democráticos y de derechos humanos a través de un discurso discriminatorio y unidimensional donde solo ellos son dueños de la razón, promoviendo una mentalidad de ellos contra nosotros y de ganar-perder; “Su discurso siempre se ha orientado a fortalecer un imaginario colectivo del odio y del miedo […] Nosotros somos los buenos, los otros son los malos y, además, están equivocados” (262). Similarmente, los profesores Carlos Rincon y Juan Federico Pino, en su estudio sobre el comportamiento de políticos del Centro democrático en Twitter, observaron una marcada tendencia agresiva de estos políticos hacia sus opositores, caracterizada por el escándalo y la infamia; “Los análisis en este estudio sugieren que los congresistas, más que enfocarse en ellos mismos o en sus temas particulares, utilizan las redes sociales para dirigir su uso a la identificación y el ataque de antagonistas del partido” (907).

Estos son discursos del odio porque niegan la alteridad y buscan vilificar a grupos sociales con fines políticos y medios típicos de gobiernos fascistas. No se encuentra en ellos espacios para el diálogo o el reconocimiento del otro sino una visión en blanco y negro de la sociedad colombiana. Los otros son simples criminales o delincuentes que son un peligro, una amenaza para la sociedad. Raul Botero Torres menciona al respecto; “Si reconocemos la importancia radical de la otredad, entonces tendremos que reconocer que en Colombia lo que se impone es la mirada de Narciso en el espejo” (262). Carlos Rincon y Juan Federico Pino consideran muy pertinentemente que esta visión del otro es uno de los principales obstáculos para la resolución del Conflicto armado, ya que en la idea del enemigo interno se encarna el mal como tal y por ende la necesidad de su expulsión u ostracismo; “Siendo tan próximo, ese otro que auxilia, es también ese otro en el que está puesto lo abyecto y peligroso, fuente del dolor, es decir, aquel que debería estar más lejos de nosotros […]” (257). Su similitud con discursos extremos de genocidio y limpieza social es bastante conspicua.

El contexto de las marchas del Paro nacional da lugar para analizar la configuración de este imaginario político aplicado a los protestantes, entendiéndolos como vándalos y criminales. En un reciente discurso, el presidente de Colombia y miembro del Centro democrático preguntó, por ejemplo; “¿Cómo así que quemar un bus no es un acto criminal?, ¿Cómo así que bloquearles a las personas el acceso a la salud no es un acto criminal?” (Suesca). Esta forma de plantear la discusión alrededor de los protestantes revela una estrategia retórica que busca criminalizar la protesta social y vincular a los manifestantes con delincuentes, restando mérito a sus demandas y dibujando una versión de los hechos que no corresponde con la realidad; quemar un bus en una protesta no necesariamente hace que una persona sea criminal, aunque el acto sea ilegal y destructivo. De la misma manera que usar sustancias ilegales no hace que los consumidores sean delincuentes.

Paralelamente a este discurso que busca desmeritar a los manifestantes y criminalizarlos, el líder de este partido político, Alvaro Uribe, hace uso de Twitter para promover la violencia como solución de conflictos, figura retórica típica del discurso del odio, por esta razón Twitter borró el siguiente comentario del ex-presidente; «Apoyemos el derecho de soldados y policías de utilizar sus armas para defender su integridad y para defender a las personas y bienes de la acción criminal y el terrorismo vandálico» (Valencia). Así se ve cómo se construye una apología de la violencia hacia los manifestantes decorado como defensa propia.

Por estas razones se hace relevante estudiar los discursos del odio en la actualidad colombiana. Sin embargo, este ejercicio se debe hacer cada vez más enfocado en su expresión dentro del ciberespacio debido a la creciente influencia que tienen las redes sociales en la esfera política. Para ser más precisos, hoy en día las redes sociales son claves para la propaganda política y la difusión de desinformación, siendo espacios virtuales políticos donde el discurso del odio puede adquirir mayor difusión a manos de políticos sin escrúpulos; es necesario tomar una mirada más detenida a esta cuestión. 

2.3 La estigmatización y criminalización de la protesta y las redes sociales

Los discursos del odio dentro de este contexto son un fenómeno estrechamente relacionado con la estigmatización y consecuente criminalización de la protesta social. Las redes sociales como Twitter son un espacio donde se puede apreciar las dinámicas antagónicas entre aquellos que ven en la protesta una oportunidad para mejorar la sociedad y aquellos que ven el Paro nacional como un fenómeno de desorden y anarquismo que pone en peligro la propiedad privada y el estatus quo. La estigmatización de la protesta social se hace no solo legal y jurídicamente sino también a través de discursos de odio. Paralelamente es importante resaltar que la protesta social cumple una función clave en la democracia ya que permite la participación ciudadana y les da voz a grupos de personas marginadas. Edison Lanza, Relator Especial para la Libertad de Expresión de la CIDH, explica que esta;

(…) tiene como una de sus funciones canalizar y amplificar las demandas, aspiraciones y reclamos de grupos de la población, entre ellos, los sectores que por su situación de exclusión o vulnerabilidad no acceden con facilidad a los medios de comunicación y a las institucionales de mediación tradicionales (2019, 1).

El Paro nacional colombiano del 2021 es un conjunto de protestas que empezaron en abril y se dilataron durante todo el año con distintos niveles de intensidad y participación ciudadana. Las marchas han sido motivadas por múltiples malestares sociales relacionados con la crisis económica causada por la pandemia del Covid 19, la obstaculización de la implementación del acuerdo de paz por parte del gobierno, los intentos de este último por realizar reformas tributarias y al sistema de salud, entre muchos otros factores que son el motor de un conflicto social que ha cobrado la vida de muchas personas y ha afectado a la economía del país.

Como se ha visto en distintos contextos y regiones en Latinoamérica, la protesta social ha sido gestionada por parte del gobierno con el uso excesivo de la fuerza, es decir, con violencia, en lugar del diálogo y la razón. Esta forma de gestionar las marchas masivas es característica de los Estados modernos latinoamericanos. Según Edison Lanza;

La región, lejos de presentar un panorama de consenso en cuanto a la protección de las manifestaciones y protestas, ha sido escenario — y sigue siéndolo — de acciones de represión, dispersión y limitación del ejercicio de estos derechos en el espacio público, producto de una concepción arraigada que considera a la movilización ciudadana como una forma de alteración del orden público o como una amenaza a la estabilidad de las instituciones democráticas (2019, 1).

La violencia del Estado colombiano es especialmente perturbante porque ha recurrido a estrategias propias de regímenes antidemocráticos como la tortura, la desaparición forzada, la violencia sexual y las ejecuciones extrajudiciales. Según el informe Cifras de la violencia en el marco del Paro Nacional del 2021 de Indepaz y Temblores Ong; 

Desde el 28 de abril hasta el 28 de junio de 2021, se han desarrollado un gran número de manifestaciones y protestas en el marco del paro nacional. Dichas expresiones han sido objeto del uso excesivo de la violencia por parte de la fuerza pública, lo que ha conllevado a que se cometan homicidios, lesiones oculares, agresiones sexuales, desapariciones forzadas, detenciones arbitrarias y diversidad de ataques físicos y verbales hacia quienes salen a las calles (2021, p. 2).

Esta misma fuente nos dice que en ese mismo periodo de tiempo hubo 44 homicidios, 83 víctimas de lesiones oculares, 28 víctimas de violencia sexual, 1,832 detenciones arbitrarias y 1,469 casos de agresión física relacionados con las instituciones gubernamentales (Ibid., p.3). En ese marco, el gobierno ha buscado legitimar sus prácticas, cuestionables desde el punto de vista de los derechos humanos, a través de un discurso político que pretende criminalizar a las personas que marchan y estigmatizar en general la protesta social. Esta dinámica de criminalización también hace eco en la forma como se gobierna la protesta en Latinoamérica. La política de estigmatización se plasma de distintas formas, según Edison Lanza;

(…) el conjunto de tipos penales aplicados para criminalizar presenta similitudes en los diferentes países de la región. Entre las figuras más habituales, se destacan: la obstrucción de vías públicas; la resistencia a la autoridad y los delitos de ultrajes y desacato; la perturbación a la paz pública o al orden público; la apología al delito; los daños al patrimonio público o privado; el sabotaje; la usurpación e invasión de inmueble; la asociación criminal e instigación a delinquir; la inducción a la rebelión; la sedición y el tumulto; el motín; la extorsión o la coacción agravada e, incluso, los tipos penales de terrorismo (2019, 66).

La criminalización de la protesta es una forma de discriminar y de persecución política. Cuando se habla de criminalización, se entiende todo un conjunto de prácticas legales, jurídicas y de castigo que se usa en contra de los marchantes sistémicamente y partir del abuso del poder; “La criminalización de la protesta social consiste en el uso del poder punitivo del Estado para disuadir, castigar o impedir el ejercicio del derecho a la protesta y en algunos casos, de la participación social y política en forma más amplia, mediante el uso arbitrario, desproporcional o reiterado de la justicia penal” (Ibid., 64). Este tipo de persecución política hace libres interpretaciones de la ley y la constitución con el fin de acoplar la gestión de las instituciones públicas a la persecución e intimidación de los ciudadanos. Edison Lanza menciona al respecto;

(…) la criminalización del derecho a la protesta muchas veces es el resultado de la aplicación de tipos penales que por su vaguedad o ambigüedad resultan violatorios del principio de legalidad y de los estándares interamericanos. En otros casos se penalizan directamente conductas propias de una protesta social, como sucede con las sanciones penales por falta de autorización o el desacato (Ibid., 66).

De esta forma se ve como un Estado puede determinar a su gusto y favor qué formas de protesta y desobediencia civil protege y cuales convierte en delito para favorecerse. En muchos casos inclusive, se puede hacer una lectura de los códigos penales, leyes y códigos de policía tan libres que los manifestantes pueden ser acusados y procesados como terroristas. Eduardo Bertoni explica;

En otras palabras, el problema es que existen muchos delitos que se utilizan, o que podrían ser utilizados, para reprimir la protesta social. Muchos de estos tipos penales, a su vez, son de dudosa compatibilidad con el sistema interamericano de derecho humanos: algunos son imprecisos, o no protegen bienes jurídicos relevantes o concretos, o tienen un ámbito de prohibición demasiado amplio. A esto hay que agregarle la propia naturaleza del sistema penal, que no opera ante todos los casos, sino que es selectivo (2010, II).

Asimismo, estos vacíos legales o lecturas arbitrarias de la ley nutren el discurso de estigmatización que se usa para intimidar a líderes sociales y legitimar acusaciones infundadas de crimen. Se podría afirmar que estos son casos de difamación que preceden a acciones judiciales muy reales. Edison Lanza explica;

En muchas ocasiones, el inicio de procesos penales arbitrarios en contra de defensoras y defensores de derechos humanos es precedido o acompañado por declaraciones estigmatizantes realizadas por funcionarios públicos, que pueden incluir acusaciones de delitos graves, sin que existan decisiones judiciales o evidencias que así lo determinen (2019, 77).

Este tipo de modus operandis se aplica también en las redes sociales que amplifican sus mensajes de desinformación y de odio. Así, el discurso de la criminalización, que es un tipo de discurso del odio, se puede apreciar en los Tweets del Centro democrático. El portal de noticias, Infobae, menciona, muchos meses antes del Paro del 2021, por ejemplo;

En contra de las propuestas, por lo menos las de Fecode, se pronunció el senador Carlos Felipe Mejía, del Centro Democrático, quien calificó como “paro sinvergüenza” la movilización de los maestros y asegurando que son los padres quienes deberían realizar un paro contra la Federación (…) (2020).

En junio del 2021, la cuenta oficial en Twitter del Centro democrático menciona, referenciando un artículo de la revista Semana; “El 28 de mayo, en Bogotá, manifestantes “robaron un bus de Transmilenio» obligaron al conductor a desviar la ruta, poniendo en riesgo la vida de los pasajeros y del conductor.” Estos comentarios son problemáticos porque asocian con naturalidad al encapuchado o criminal mimetizado en la marcha con el manifestante real; es evidente que un ladrón no participa realmente de la marcha, de la misma forma que un vendedor ambulante no necesariamente está manifestando si acompaña la marcha con fines simplemente de lucro. Lo mismo aplica para el ladrón en la marcha. Sin embargo, el discurso de la criminalización invita a pensar que lo son llamándolos “manifestantes.” Otros podrían argumentar que la efusión de la multitud los lleva a cometer crímenes oportunistas, pero eso sólo probaría que no son criminales ya que es el momento caótico y violento que los lleva a participar en la orgia del vandalismo colectivo, no personas dedicadas al crimen.

Es pertinente por estas razones, analizar los Tweets de los principales líderes del Centro democrático en el periodo que transcurre entre el 28 de abril de 2021, día en que inicia el paro nacional de ese año, y día en el que se despliega toda una campaña de estigmatización de la protesta social con un discurso del odio muy característico. Así se verá cómo las personas que salen a la calle a exigir sus derechos son llamados vándalos, terroristas, o simplemente estigmatizados por su condición social. La NLP ayudará a visualizar todo este despliegue de discursos del odio en línea.

3. Capítulo II

3.1 ¿Qué es el Procesamiento del Lenguaje Natural (NLP)?

El procesamiento del lenguaje natural, con las siglas NLP, del inglés, Natural Language Processing, es un campo de las ciencias de la computación, de la inteligencia artificial y de la lingüística, que estudia las interacciones entre las computadoras y el lenguaje humano. El NLP tiene como objetivo hacer que los ordenadores entiendan o interpreten el lenguaje natural para que puedan realizar diversas actividades similares a las humanas como la traducción de voz o incluso responder a preguntas sencillas. El NLP se ocupa de cómo las máquinas entienden el mundo y el lenguaje de los seres humanos y lo que les rodea. Como mencionan Hobson Lane, Cole Howard y Hannes Max Hapke en su libro introductorio a este campo de la computación;

Lo interesante del proceso es que es difícil. Máquinas con la habilidad de procesar algo natural no son naturales (…) Cuando el software puede procesar lenguajes que no están diseñados para que las máquinas los entiendan, parece algo mágico, algo que pensamos que era una capacidad exclusivamente humana (2019, 5).

Este tipo de tecnología se encuentra aplicada de diversas formas en la sociedad actual, por ejemplo, cuando se ingresa a un Chat con un bot para hacer una orden en línea o cuando escogemos opciones en un call center. En este apartado se profundizará en los conceptos básicos de esta tecnología para explicar la forma como se utilizará como herramienta de recolección y visualización de datos.

3.2 ¿Cómo funcionan los NLP?

Para lograr que un sistema computacional logre entender el lenguaje humano es necesario fragmentar los textos para procesar su contenido de forma organizada y estructurada. Este proceso fundamental de NLP se conoce como Tokenización y recuerda a la forma como se aprenden los lenguajes cuando se es niño, es decir, de lo básico a lo complejo. Los Tokens son el fundamento de los NLP. Aravind Pai menciona al respecto en su guía sobre los NLP; “Simplemente puesto, no podemos trabajar con datos textuales si no hacemos Tokenización (…) y esta es la cosa intrigante de la Tokenización – no es solo sobre fragmentar el texto. La Tokenización juega un rol crucial al trabajar con datos de texto” (2020).

Básicamente se programa un algoritmo para que lea cada frase de un texto. El programador aplica una regla gramatical y el algoritmo cambia cada palabra por un Token, este Token representa el significado de la palabra y también cualquier relación gramatical asociada. Cada vez que se utiliza una palabra clave, el programa busca en la base de datos el mismo token, y si encuentra el mismo token, no traduce la palabra, sino que busca de nuevo hasta encontrar una coincidencia.

Después, se vuelven a buscar en los tokens las palabras que se han omitido durante el análisis. También se buscan los significados que coinciden con los tokens. Si este procedimiento de concordancia tiene éxito, el resultado es una sola palabra que contiene todos los tokens requeridos. El software almacena esta palabra en la memoria y realiza las siguientes búsquedas utilizando esta palabra almacenada. El Procesamiento del Lenguaje Natural no es más que un conjunto de algoritmos que permiten a un ordenador reconocer patrones en datos de texto.

La técnica de tokenización es implementada por un programador que decide un formato de frase y luego implementa una técnica de tokenización que produce los tokens adecuados. A continuación, los tokens se concatenan para formar una única entidad. El Procesamiento del Lenguaje Natural utiliza un vocabulario muy amplio que se organiza cuidadosamente en un marco, que consiste en una gramática de construcción de frases y una técnica de tokenización. Con la ayuda de un tokenizador, podemos transformar grandes cantidades de datos de texto no organizados de una forma significativa. El tokenizador de palabras es una parte muy importante de la NLP ya que es la manera en que se estructura un texto de manera numérica y matemática generando una matriz (G. Pablo and Marcos 2012).

Un tokenizador de expresiones regulares es una herramienta de NLP que extrae información de una frase, identificando las partes de la oración asociadas a tokens específicos. El tokenizador de expresiones regulares extrae palabras de una cadena de textos y frases, encadenadas en varios contextos. Se puede pensar en cada token como una expresión regular: un conjunto de posibles tokens asociados a un contexto concreto.

Algunos expertos del NLP hablan que uno de los objetivos de la lingüística moderna es comprender todas las estructuras de expresiones regulares disponibles, ya que permite “crear un lenguaje que no está sujeto a reglas gramaticales”. Por supuesto, muchos expertos no están de acuerdo con esta afirmación. La expresión regular y la tokenización de palabras son sólo dos de los muchos métodos diferentes que utilizan los lingüistas para analizar la estructura de las frases de un documento. Estos diferentes métodos se combinan con matrices que muestran las probabilidades de los diferentes tipos de tokenización.

Por otra parte, los procesos de NLP que hacen uso del machine learning básicamente usan dos tipos de entrenamientos, de aprendizaje supervisado y no supervisado. El aprendizaje supervisado implica un modelo único que recibe entradas, como un anuncio, y produce una reacción de valor en base a ese entrenamiento. Esta respuesta puede ser una etiqueta, una respuesta basada en reglas o una combinación de ambas. El aprendizaje no supervisado no requiere modelos de aprendizaje supervisado; en su lugar, utiliza una serie de procesos basados en reglas y características que realizan análisis de sentimientos en el lenguaje natural.

Cuando se utilizan herramientas de NLP para el análisis de redes sociales, es importante recordar que estas herramientas están diseñadas para apoyar determinadas funciones empresariales. En particular, un analista de NLP tendría que entender cómo preparar adecuadamente una línea de análisis utilizando las herramientas disponibles para NLP, y luego utilizar eficazmente la información obtenida para apoyar las decisiones de negocio. Los pasos para lograr este objetivo incluyen el entrenamiento de la red sobre cómo identificar palabras y frases clave, así como el significado asociado en relación con los datos proporcionados a través del material de origen. Esto se verá en detalle en el siguiente apartado.

3.3 La utilidad e importancia del NLP

Aunque esta tecnología no es muy conocida por el público en general, su aplicación se puede ver en distintos ámbitos. Entre los usos más comunes del NLP se encuentran el análisis de sentimientos, la minería de textos, la predicción de comportamiento de usuarios, y la búsqueda de información entre muchos otros (Lane et al 2019 8).

En el caso de la política la NLP se puede usar para recopilar información importante para las campañas electorales, por ejemplo, según la revista de economía Forbes, la campaña electoral de Barack Obama usó los datos de opinión efectivamente para gestionar una campaña electoral exitosa en el 2012 (Wertz 2018). En ese sentido se ve que los sentimientos expresados en línea “(…) valen su peso en oro si sabes cómo navegar a través de los datos y los usas para tu ventaja” (Ibid.,).

En el análisis de sentimientos, un algoritmo de NLP analiza en base a unos modelos potentes y previamente entrenados a través de redes neuronales y de aprendizaje profundo en los que ya se han analizado las tendencias entre positivo y negativo, aunque esto no quiere decir que lo negativo automáticamente sea equivalente a un discurso de odio. Lo que sí se puede determinar es el tipo de sentimiento y la intensidad de la emoción que se está expresando.

Así, en el mundo empresarial, el análisis de sentimientos es una forma de obtener una visión más rica de las motivaciones de los clientes. A las empresas les interesa identificar la diferencia entre las emociones positivas y negativas que conducen a la satisfacción del cliente. Otra aplicación del análisis de sentimientos es la identificación de la fidelidad de los clientes. Se utiliza para determinar si las palabras o frases positivas o negativas conducen a una mayor fidelidad (Jose 2017). La ventaja del análisis de sentimientos radica, sin embargo, en la posibilidad de entender la calidad de los datos, no simplemente en su recolección. Es decir, las métricas tradicionales se enfocan en la cantidad, como el número de visitas, clicks, comentarios, veces compartidas etc. El análisis de sentimientos va más allá de demografías simples enfocándose hacia la calidad de las interacciones entre el público y tu marca” (Wertz 2018). Esta dimensión de la cuestión permite entender con mayor veracidad a los usuarios y lo que piensan.

El análisis de sentimientos es una de las tecnologías más prometedoras para el mundo empresarial y de las comunicaciones. Las empresas de computación en la nube y de redes sociales, están creando potentes plataformas de análisis que les permita entender a sus clientes e involucrarnos en una conversación atractiva. Para conseguirlo, los responsables de marketing no tienen que recurrir a los canales de publicidad tradicionales, sino que pueden “comprar” una audiencia específica a través de la participación en los medios sociales. De este modo, no necesitan gastar fondos adicionales en campañas de pago, sino que simplemente pueden animar a los consumidores a expresar sus opiniones a través de las redes sociales. Las empresas también pueden aprovechar este mercado utilizando estos programas para analizar y descifrar el sentimiento de los consumidores sobre sus productos o servicios. Mediante el uso de herramientas y tecnologías de código abierto, estos investigadores son capaces de aprovechar una gran experiencia y conocimiento sobre cómo analizar e interpretar con éxito las respuestas de sus consumidores.

Otra forma en que las empresas pueden aprovechar estas herramientas para NLP, es en el poder del léxico de sentimientos y otros aspectos de la cadena de procesamiento del lenguaje natural. En el pasado, a los profesionales del marketing les resultaba difícil discernir el sentimiento de los clientes a partir de los datos generales de navegación por Internet. Sin embargo, los avances en la tecnología de NLP permiten ahora a los profesionales del marketing entrenar previamente un léxico de sentimientos para capturar el lenguaje utilizado en las conversaciones en línea. Esto se hace mediante un proceso denominado extracción, que consiste en identificar las fuentes de información textual existentes sobre el producto y el servicio en cuestión, se puede recopilar información adicional de los sitios web asociados. Una vez que el léxico se ha entrenado adecuadamente, puede aprovecharse para proporcionar a los profesionales del marketing información en tiempo real sobre los pensamientos y sentimientos reales de sus consumidores.

Los profesionales del marketing llevan tiempo utilizando herramientas de NLP, pero no ha sido hasta hace poco que han aprovechado el potencial de los Tweets para ofrecer información sobre el comportamiento de los consumidores. Twitter, la mayor plataforma de medios sociales actualmente en funcionamiento, ofrece a los profesionales del marketing una oportunidad única para obtener información rápida y valiosa sobre las numerosas preguntas que se hacen los compradores al adquirir productos. Al utilizar Twitter, los profesionales del marketing pueden utilizar la etiqueta #hashtag para extraer términos clave y palabras clave relacionadas con el artículo en cuestión. Por ejemplo, si un consumidor busca un par de zapatos en Twitter, la etiqueta #Loszapatos se convierten en un excelente recurso para saber más sobre la persona que busca, como por ejemplo qué tipo de zapatos está buscando. Tras encontrar las palabras clave adecuadas, los Tweets pueden segmentarse para obtener aún más información sobre lo que buscan los consumidores.

Los responsables de marketing no pueden pasar por alto el poder de la NLP y las diversas aplicaciones que la componen. Aunque al principio pueda parecer algo abstracto, aprovechar el poder de la NLP y sus algoritmos afines proporcionará grandes beneficios de marketing a largo plazo. Al comprender las dos caras de la moneda, los profesionales del marketing pueden controlar mejor su imagen de marca y aprovechar al máximo su potencial como punto de venta. Sin embargo, hay que tener en cuenta que muchas grandes marcas ya hacen uso de la tecnología de NLP y de aprendizaje profundo para comprender mejor y dirigirse a su público. Un ejemplo es Google, como se explicará pronto. La conclusión es que el uso de herramientas de NLP y aprendizaje profundo probablemente se hará cada vez más popular en el futuro, lo que permitirá a los vendedores y a las empresas aprovechar los beneficios de la utilización de esta tecnología sin obstaculizar su eficacia.

3.4 El contexto como factor diferenciador de Google NLP

Esta investigación hace uso del servicio de Google Natural Language AI. Las técnicas de NLP de Google han avanzado con el paso del tiempo, pero hoy día uno de sus más importantes frutos es BERT, por su acrónimo en inglés que es Bidirectional Encoder Representation from Transformers, y traduce Representaciones de Codificador Bidireccional de Transformadores. BERT se puede entender cómo “(…) una red neuronal de código abierto que ha sido entrenada para procesar el lenguaje natural” (BBC, 2019). La creación de NLPs que usen un diseño de redes neuronales permite mejorar el desempeño del programa y es una de las maneras más estimulantes para pensar la programación actualmente. Uno de los beneficios es que es un sistema en constante mejora, que aprende y corrige errores. Por esta razón, de acuerdo a la BBC, para Google, BERT es “la mayor actualización del buscador en años recientes” (2019). Como concluyen Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutanova en su investigación sobre BERT; “BERT es el primer modelo de representación auto-ajustable que logra un desempeño último en una secuencia de tareas de nivel de oración y de nivel de token, superando muchas arquitecturas basadas en tareas específicas” (2019).

Una dimensión clave de la eficiencia de esta red neuronal de código abierto es que funciona a partir de contextos, permitiéndole encontrar el sentido de las frases sin ignorar el entorno de lenguaje en donde están. Como explica la BBC “(…) lo que hace distinto a BERT de lo que actualmente ofrece Google es que procesa las palabras en el contexto de una oración, en lugar de palabra por palabra” (2019). Básicamente BERT funciona de acuerdo a su acrónimo, haciéndolo bastante eficaz como NLP:

Bidireccional porque analiza el texto en ambas direcciones, tanto de derecha a izquierda y viceversa, así como por partes de la oración. Así se garantiza que el análisis de la oración envuelva un sentido gramatical dependiendo del contexto en el que está escrita. Como explica Rani Horev del sitio popular towardsdatascience.com;

Esto contrasta con esfuerzos anteriores que miraban una secuencia de texto o de izquierda a derecha o combinaban izquierda-a-derecha y derecha-a-izquierda en el entrenamiento (…) un modelo de lenguaje que es entrenado bidireccionalmente puede tener un sentido más profundo del contexto y flujo del lenguaje (…) (2018).

Los transformadores son modelos de aprendizaje automático que prestan atención a que el texto de entrada tenga coherencia, a que sus conectores sean adecuados y que el sentido se de después de contrastar con múltiples sinónimos y adjetivos, todo esto relacionado con una posible respuesta al texto de entrada mostrando coherencia como el texto de salida. Esto garantiza que el análisis del texto tenga relación desde su origen hasta el resultado expuesto.

Si se considera la frase “tengo que ir al banco porque estoy muy cansado”, el algoritmo debe ser capaz de reconocer que, en la sintaxis y la gramática de la oración, no se está haciendo referencia a la oficina bancaria sino a la silla del parque en la que uno se puede sentar. Esto es posible gracias a la comprensión pre entrenada con la que el algoritmo de BERT ya ha entendido que el banco del parque y el cansancio son palabras que están muy próximas por su relación gramatical, conectores y otro tipo de test que relacionan una posible respuesta que tiene sentido con la oración de entrada.

En los casos que algunas de las palabras del texto tengan varias acepciones como en el caso de “banco”, el algoritmo asigna un puntaje a esa palabra, puntaje que se relaciona de acuerdo con su posición dentro de toda la oración, ya sea que el transformador la esté interpretando de izquierda a derecha o viceversa en relación con otra palabra y/o con la palabra siguiente. Debido a esta particular atención que BERT le brinda al contexto, que tanto mejora la calidad de los resultados de las búsquedas, se considera que es una herramienta esencial para analizar los sentimientos de odio en los Tweets del Centro democrático. Para procesar el lenguaje natural político no se puede ignorar el contexto y las connotaciones que puede tener hasta el más sencillo Tweet en esa popular red social.

3.5 Análisis de sentimientos

La también llamada minería de opinión es una técnica innovadora de análisis de textos que aplica el procesamiento del lenguaje natural y la lingüística computacional para identificar y analizar los sentimientos u opiniones de los usuarios expresadas en textos en línea. De esta forma se puede estudiar el punto de vista de muchas personas sistemáticamente. Mohsen Farhadloo y Erik Rolland explican;

En el análisis de opinión, o minería de opinión (…) la meta es descubrir la opinión de las personas expresadas en el lenguaje escrito (textos). Con sentimiento se entiende “lo que uno siente sobre algo”, “experiencia personal, el sentir propio”, “una actitud frente a algo”, o “una opinión” (2016, p. 2).

Así se puede clasificar los datos en términos positivos, negativos y neutros en un texto en una escala determinada, generalmente de 0 a 1, en donde 0 o menos es un sentimiento claramente negativo y 1 o más es claramente positivo. Esto permite, por ejemplo, que empresas de comercio electrónico entiendan mejor los deseos de sus clientes y averigüen lo que prefieren y lo que no les gusta, para poder crear servicios y productos que satisfagan plenamente sus necesidades e incrementen las ganancias. Esencialmente, le ayuda a entender lo que impulsa las emociones de sus clientes y sus decisiones. Si una empresa establece mejores relaciones con sus clientes, podrá crear una base de consumidores más sólida y productos con mayor nivel de satisfacción en el consumo. Sin embargo, el análisis de sentimientos también tiene diversas aplicaciones por fuera del mundo empresarial;

Las organizaciones están cada vez más enfocadas en entender cómo sus actividades de creación de valor son percibidas por sus clientes. La opinión de sus clientes mueve la imagen de la organización y su demanda por productos y servicios. Para organizaciones gubernamentales o sin ánimo de lucro, mejor servir a las necesidades de los clientes ayuda a generar apoyo político y de impuestos, mientras que en organizaciones con ánimo de lucro el mejoramiento del entendimiento de las motivaciones de los clientes ayuda a la entidad a mejorar ingresos y competir en los mercados (Ibid., p.2).

¿Por qué la extracción de opiniones es una parte importante de la NLP? Es importante para la NLP porque permite a los investigadores estudiar el proceso de toma de decisiones del ser humano, incluyendo tipos de patrones que son recurrentes en la actividad digital; qué nos hace enfadar, entristecer, alegrar o motivar. Esto, a su vez, crea mejores oportunidades para que todo el mundo -comerciantes, clientes y otras empresas, se involucren en interacciones más significativas. En resumen, ayuda a pensar fuera de unos marcos establecidos cuando se toman importantes decisiones.

El análisis de sentimientos es el proceso de revisar las declaraciones escritas de un usuario y determinar qué declaraciones reflejan los verdaderos sentimientos del cliente. En resumen, el análisis de sentimientos consiste en analizar lo que la gente dice, cómo lo dice y cómo se reflejan esos sentimientos por escrito. A veces el objetivo es descubrir una verdad oculta. Por ejemplo, si un cliente se queja de su jefe, un profesional de la NLP en tiempo real podría revisar los correos electrónicos y las notas del cliente sobre el jefe y observar indicios sutiles sobre problemas emocionales que el jefe puede estar tratando de ocultar.

Este tipo de análisis funciona de manera concisa de la siguiente forma, tal y como se ha aplicado en este estudio;

Paso 1. Se divide el texto en fragmentos básicos llamados tokens, los tokens pueden ser palabras, caracteres o signos de puntuación. En este punto es importante resaltar que a este proceso que se le llama tokenización, de base tiene 3 tipos: tokenización delimitada por espacios entre palabras, tokenización delimitada por caracteres para evaluar la raíz de la palabra y tokenización delimitada por signos de puntuación o etiquetas.

EntidadesFigura 1: Prueba de API de Google NLP

Del texto base, en este caso un escandaloso Tweet del líder del Centro democrático, Alvaro Uribe, se clasifican los términos claves.

Paso 2. De manera posterior se contrastan esos tokens con corpus lingüísticos, ya sean especializados o generales, para identificar la relación de los tokens con sentidos en los cuales puedan estar relacionados con temas específicos de uno u otro corpus lingüístico. Si se retorna al primer Tweet al que se ha hecho referencia, una tokenización extraída del sitio web de Google NLP nos muestra la relación que tiene cada una de las palabras con temas específicos.

TweetFigura 2: Análisis lingüístico de una oración con la API de Google NLP

Paso 3. Se les asignan puntajes a las palabras en relación con la escala preestablecida. Esta puntuación permite visualizar patrones en los usos de términos y significados.

SentimientosFigura 3: Clasificación de palabras en relación con las emociones que invocan.

3.6 Extracción de datos para análisis en Twitter

Existen muchas maneras de extraer datos para el análisis con algoritmos, en este caso el enfoque será en la sección de datos de los mensajes cortos o Tweets que los líderes del Centro democrático han dejado como registro de sus discursos del odio en el periodo del Paro nacional del 2021.

Los datos se pueden extraer de manera manual, en un ejercicio de copiar cada uno de los Tweets de acuerdo a una fecha inicial hasta el Tweet de la fecha final. Pero este es un proceso dispendioso y en el que el tiempo es un factor importante, ya que toma mucho tiempo dado al volumen de información de cada una de las figuras políticas indicadas. En algunos casos estos personajes pueden Twittear hasta 30 veces al día, haciendo que la tarea sea aún más difícil.

Por otra parte, los datos se pueden extraer con las herramientas que la misma red social ofrece. Para ello Twitter en su versión para desarrolladores proporciona el acceso a su interfaz de programación de aplicaciones. Con estas reglas y claves de acceso, se puede solicitar de la base de datos la información que se requiere para este análisis. Otra manera de extraer los datos, se hace posible con una técnica llamada “data scraping o scrapeo”. Según la conocida página web sobre tecnología, Geeksforgeeks; 

El scrapeo es un método automático para obtener grandes cantidades de páginas web. La mayoría de estos datos obtenidos carecen de estructura en formato HTML entonces son convertidos en datos estructurados en un Excel o base de datos para que puedan ser usados en varias aplicaciones (2001).

Esto se puede realizar con lenguajes de programación como Python, JavaScript, Go, entre otros, pero como una de las intenciones de esta investigación es que las personas que la lean sean capaces de replicar fácilmente este ejercicio, se hará uso de métodos llamados “no code” para lograr los mismos resultados sin tener mayores conocimientos en lenguajes de programación. En este caso, se hará uso de la herramienta Phantombuster, la cual se especializa en este tipo de recopilación de datos, ofreciendo al usuario final una interfaz amigable y finalmente dando un dataset en forma de tabla, en un archivo .csv, que permitirá hacer el proceso de análisis con el algoritmo de NLP de Google. Se optó por Phantombuster por su conocida efectividad que le ha merecido hasta premios, por ejemplo, la página web BAMF le ofreció el premio de “(…) «Mejor software de crecimiento de hacking del 2018.» Fundada por Guillaume Boiret, este software ha tomado la industria de crecimiento de hacking por sorpresa” (Golden, 2018).

3.7 Construcción de un dataset para el análisis con Google NLP

La extracción y construcción de nuestro dataset lo haremos con la herramienta de automatización web sin código como integromat.com, zapier.com o phantombuster.com, estas son plataformas que nos permite extraer información de diversas webs de redes sociales de manera alternativa a las recomendadas por las propias webs de redes sociales. En este caso se debe extraer la información de esta manera, debido a que las restricciones de acceso a la información propias con la API de Twitter restringen el acceso a publicaciones realizadas en un marco de tiempo de 3 meses inmediatamente al día de hoy. Esto restringe el acceso de información a meses o años anteriores al rango del día actual, y aunque esta información sigue siendo pública, dificulta el análisis de periodos específicos requeridos para este análisis.

En el siguiente laboratorio se encuentran los pasos específicos para realizar la tarea con Phantombuster https://gist.github.com/arthurocrates/3ea5ddc0333f137ff257fdb9e3a0e416

3.7.1 Limpieza del dataset

El archivo results.csv contiene datos que no son relevantes para hacer el análisis como fecha, usuario, ID del Tweet, link, etc. Entonces tenemos que dejar solo los campos que nos interesan para procesar, que en este caso son es el texto que se publicó como mensaje.

Para lograr unos datos más legibles y efectivos vamos a limpiar el archivo con un editor de hoja de cálculo como Excel. Allí vamos a localizar las filas que contengan datos nulos, que tal vez fue una publicación que era una imagen sin texto o publicaciones que solo contengan un enlace hacia otro sitio.

Aunque el servicio de NLP de Google es capaz de detectar automáticamente estos tipos de datos no relevantes, por un ejercicio de buena práctica, es mejor ayudarle un poco para que los resultados sean mucho más legibles y exactos. El archivo final deberá contener en una fila un Tweet con contenido relevante para el análisis.

4. Capítulo III

4.1 Visualización de datos y análisis de resultados

De acuerdo a los datos recopilados se puede afirmar que el Centro democrático hace uso del lenguaje del odio escondido dentro de un discurso sobre unas políticas del bienestar general.

Vamos a intentar dilucidar el discurso de odio al contrastar las dos variables que nos da la herramienta de NLP. Esta técnica de análisis de sentimientos califica cada uno de los tweets de los personajes más relevantes en valoraciones que vienen en magnitudes de -0, 0 y 1 o, en otras palabras, negativo, neutral y positivo. Además, también el algoritmo le asigna una puntuación a la magnitud, la fuerza, con la que se ha emitido ese sentimiento, porque podemos entender que, dependiendo de las situaciones, podemos exteriorizar sentimientos con más o menos fuerza.

En este análisis se ha graficado los resultados de tal manera que podamos ver cómo los personajes interactuaron emitiendo una variedad de sentimientos y sus respectivas magnitudes que amplifican o neutralizan su discurso.

Primero podemos ver una nube de palabras de cada uno de los personajes, esto nos da una vista rápida de cuáles son las palabras más usadas en su discurso, posteriormente encontramos la graficación del cruce de tipo de sentimiento positivo en color verde, los sentimientos neutrales en amarillo y los sentimientos negativos en rojo. Así mismo podemos contrastar la magnitud con la que fueron emitidos en contraste a su tipo.

Básicamente es la misma técnica de marketing que se usa para retroalimentación y retoma de usuarios inconformes con el servicio de grandes empresas como Amazon. Así identifican cómo mejorar su experiencia de usuario frente a sus productos.

Entonces, de acuerdo a los comunicados públicos del Centro democrático y los comentarios de sus miembros se entiende que los principales líderes de este partido político de extrema derecha son el expresidente Alvaro Uribe Velez, el ex-candidato presidencial Óscar Iván Zuluaga, el actual presidente de Colombia Ivan Duque Marquez, la vicepresidenta Marta Lucía Ramírez y la senadora María Fernanda Cabal. Estas figuras aglomeran la mayor cantidad de seguidores en redes sociales de este partido y disfrutan de bastante influencia mediática.

A continuación, veremos las gráficas de los datos extraídos de cada uno de los personajes y con esto pasaremos a realizar el análisis. Los datos gráficos se han dejado en el repositorio para su mejor visualización en el siguiente enlace:

https://gist.github.com/arthurocrates/e684c567c15c45798e487a79e02b25d1

Personaje 1: @AlfredoRamosM

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 306Figura 4: Nube de palabras Alfredo ramosLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 307Figura 5: Gráfico de columnas Alfredo Ramos
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 308Figura 6: Gráfico de pilas Alfredo RamosLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 309Figura 7: Gráfico de cuadrícula Alfredo Ramos

.

Personaje 2: @AlvaroUribeVel 

Document sentiment score: 0.10000000149011612 Document sentiment magnitude: 347.8999938964844

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 310Figura 8: Nube de palabras Alvaro UribeLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 311Figura 9: Gráfico de columnas Alvaro Uribe
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 312Figura 10: Gráfico de pilas Alvaro UribeLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 313Figura 11: Gráfico de cuadrícula Alvaro Uribe


Personaje 3: @IvanDuque

Document sentiment score: 0.30000001192092896 Document sentiment magnitude: 474.5

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 314Figura 12: Nube de palabras Ivan DuqueLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 315Figura 13: Gráfico de columnas Ivan Duque
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 316Figura 14: Gráfico de pilas Ivan Duque La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 317Figura 15: Gráfico de cuadrícula Ivan Duque

Personaje 4: @JOSEOBDULIO 

Document sentiment score: 0.10000000149011612 Document sentiment magnitude: 82.30000305175781

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 318Figura 16: Nube de palabras José Obdulio GaviriaLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 319Figura 17: Gráfico de columnas José Obdulio Gaviria
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 320Figura 18: Gráfico de pilas José Obdulio GaviriaLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 321Figura 19:  Gráfico de cuadrícula José Obdulio Gaviria

Personaje 5: @MariaFdaCabal 

Document sentiment score: 0.10000000149011612 Document sentiment magnitude: 714.7000122070312

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 322Figura 20: Nube de palabras Maria Fernanda Cabal La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 323Figura 21: Gráfico de columnas Maria Fernanda Cabal
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 324Figura 22: Gráfico de pilas Maria Fernanda CabalLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 325Figura 23: Gráfico de cuadrícula Maria Fernanda Cabal 

Personaje 6: @OIZuluaga 

Document sentiment score: 0.30000001192092896 Document sentiment magnitude: 46.20000076293945

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 326Figura 24: Nube de palabras Óscar Iván ZuluagaLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 327Figura 25: Gráfico de columnas Óscar Iván Zuluaga
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 328Figura 26: Gráfico de pilas Óscar Iván ZuluagaLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 329Figura 27: Gráfico de cuadrícula Óscar Iván Zuluaga

Personaje 7: @PachoSantosC 

Document sentiment score: 0.30000001192092896 Document sentiment magnitude: 106.5

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 330Figura 28: Nube de palabras Pacho SantosLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 331Figura 29: Gráfico de columnas Pacho Santos
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 332Figura 30: Gráfico de pilas Pacho Santos La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 333Figura 31: Gráfico de cuadrícula Pacho Santos

Personaje 8: @mluciaramirez 

Document sentiment score: 0.30000001192092896 Document sentiment magnitude: 672.0999755859375

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 334Figura 32: Nube de palabras Marta Lucia RamirezLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 335Figura 33: Gráfico de columnas Marta Lucia Ramirez
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 336Figura 34: Gráfico de pilas Marta Lucia RamirezLa relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 337Figura 35: Gráfico de cuadrícula Marta Lucia Ramirez

4.2 Los datos obtenidos y su relevancia para la detección del discurso del odio 

Los datos recopilados de los Tweets realizados por las principales figuras del Centro democrático durante el Paro nacional en el intervalo de tiempo estudiado (28 de abril hasta el 28 de julio del 2021), visualizados con SandDance, ilustra muy bien el límite actual de la tecnología del NLP para detectar y entender la complejidad del lenguaje del odio en sus manifestaciones políticas en el ciberespacio. Para poder eficazmente detectar el lenguaje del odio en el discurso del odio tendría que procesar discursos complejos, ambiguos e irónicos.

Así, se puede afirmar que este tipo de herramientas para detectar el lenguaje del odio en línea son útiles para al menos poder dejar en evidencia discursos conspicuos por la perfidia que promueven. Sin embargo, frente a discursos del odio más sutiles como el del Centro democrático, los datos obtenidos no muestran correctamente el hate speech utilizado. Miremos los resultados; a una simple vista, el lenguaje que usó el partido de derecha fue relativamente positivo con pocas instancias obvias de discriminación, racismo o incitación a la violencia. Por ejemplo, frente a un accidente de helicóptero que sufrió la fuerza pública, Ivan Duque menciona;  

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 338
Figura 36: Tweet # 1 

La herramienta le dio un puntaje positivo de 0.200000003, color verde oscuro, es decir, el mensaje evoca emociones positivas, un cálculo muy pertinente porque el presidente expresa empatía frente al dolor de las familias afectadas  y los dignifica. Hasta aquí el desempeño del algoritmo es muy bueno. Sin embargo, en ocasiones el programa califica inadecuadamente los Tweets que invocan emociones positivas, pero se clasifican como negativas. Por ejemplo, la vicepresidenta Marta Lucia Ramirez publica el siguiente mensaje;

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 339Figura 37: Tweet# 2 

Aunque esta figura política expresa sus sentimientos de tristeza de forma empática y sin discriminar a las víctimas por su orientación política o papel en las protestas, el puntaje de sentimiento obtenido es de -0.5, con una magnitud de 0.5, color rojo, como si estuviera expresando ideas agresivas y odiosas, cuando estaba siendo empática. Análogamente, el ex-senador Álvaro Uribe publica el Tweet #3 que expresa desánimo frente a la destrucción de una estatua colonial, del conquistador español Sebastián Belalcázar, y el algoritmo lo califica como positivo, dándole un puntaje de 0.300000012, color verde claro. Esta lectura es incorrecta porque Uribe no está apoyando a los manifestantes, más bien está criticando lo ocurrido, evocando emociones que desaprueban lo ocurrido. Aunque el Tweet no evoca directamente el discurso del odio, si expresa frustración, sentimiento negativo. El error del sistema puede ser inducido por la redacción ligera y general que usa el ex-presidente en este mensaje corto.

Lo mismo ocurre con el Tweet # 4, dónde esta misma figura política expresa mucho más directamente su frustración frente a los ataques a la policía, mencionando que esta situación es insoportable y sugiriendo que las marchas están acabando con el sistema político colombiano. El algoritmo calificó este comunicado con 0.300000012, es decir, un mensaje levemente positivo, color verde claro. Este puntaje es ambiguo particularmente porque el ex-mandatario recomienda reforzar la policía, implicando una solución al Paro a través de la fuerza y disuasión. Para el algoritmo el mensaje fue positivo de cualquier forma. Otro ejemplo se puede ver en el Tweet # 5. El presidente equipara brevemente a la protesta social con el vandalismo, efectivamente criminalizando, bajo esa lógica, la protesta social. La respuesta al malestar general de la población fue de criminalizar su expresión en las calles. La puntuación de 0.100000001, levemente positivo, no le hace justicia a este comunicado desde esa dimensión discursiva, que es específica de la narrativa del odio con su relato de la criminalización del manifestante, que legitima el despliegue violento de la fuerza pública subsiguiente. El discurso del odio siempre evoca aspectos negativos de la alteridad. Un caso similar ocurre con el Tweet # 6, de la senadora Maria Fernanda Cabal con una puntuación de 0.200000003, inexplicablemente positivo a pesar de ser abiertamente discriminatoria con las personas de diferentes ideologías. 

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 340Figura 38: Tweet # 3 La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 341Figura 39: Tweet# 4 
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 342Figura 40: Tweet # 5La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 343Figura 41: Tweet  # 6

Por otra parte, frente a publicaciones claramente negativas y ejemplares del discurso del odio que maneja este partido político, el algoritmo es eficaz en su clasificación. Miremos el siguiente Tweet;

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 344Figura 42: Tweet # 7 

La calificación del sentimiento es de -0.200000003, con una magnitud de 0.200000003, color rojo. Esta puntuación es veraz porque cuando la vicepresidenta culpabiliza a la oposición por los desmanes del Paro nacional se ve claramente su estrategia de exteriorizar la responsabilidad por lo que está pasando, aplicando juegos de echar la culpa y de estigmatizar a la alteridad. Esta es una estrategia típica de la narrativa del discurso del odio, sin importar orientaciones ideológicas. Es el mismo caso del Tweet # 8, del ex-presidente Alvaro Uribe, que comparte un artículo que vincula la violencia en Colombia con el régimen de Nicolas Maduro en Venezuela. El mensaje del líder del Centro democrático obtiene una puntuación de -0.400000006 con una magnitud de 0.400000006, color rojo.

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 345Figura 43: Tweet # 8

Son estos Tweets los que fundamentan nuestra caracterización del discurso político de este partido de derecha como hate speech. Analicemos otros comunicados para ver esta cuestión más de fondo. En tónica con la demonización del contrincante que se ha mencionado en Tweets anteriores, y que es parte del discurso del odio, en el Tweet # 9 se puede ver un lenguaje agresivo donde Uribe representa a un rival político como deshonesto con bastante vehemencia. El rival aquí no es un ente racional con el que podemos diferir respetuosamente, sino más bien personas engañosas que no ameritan que se les tenga en cuenta. Este Tweet tiene una puntuación negativa de -0.400000006, con una magnitud de 0.400000006. Similarmente, en el Tweet # 10 vemos como la senadora Maria Fernanda Cabal estigmatiza a las comunidades indígenas como ¨vividores¨ y adicionalmente los criminaliza como ¨terroristas. ¨ La publicación tiene una calificación de -0.400000006, con una magnitud de 0.400000006 y ocurre en paralelo con la satanización de otros rivales políticos por otros miembros del Centro democrático. En el Tweet # 11, el líder de este partido continúa construyendo la identidad de los manifestantes como criminales, culpabilizando a las marchas y bloqueos por el fallecimiento de una infanta. 

En esta narrativa, los bloqueos son ilegales porque perjudican directamente la salud de inocentes, figura evocada por la niña que lamentablemente murió durante un bloqueo. Los discursos del odio se caracterizan por la promoción de sentimientos negativos a partir de hechos sociales que causan mucho trauma, y este Tweet es un buen ejemplo para ilustrar cómo este discurso instrumentaliza a los infantes para mover las emociones más fuertes de las personas, en este caso direccionando sentimientos de rechazo y dolor hacia los manifestantes, como se puede ver en la puntuación de -0.300000012, con una magnitud de 0.300000012 (esta misma lógica aplica para el Tweet # 16 de la vicepresidenta, -0.200000003, con magnitud de 0.200000003). 

Esta lógica de la culpabilizarían de los manifestantes también ocurre en relación con la destrucción de la propiedad privada y pública (Tweet # 12, puntuación -0.300000012, magnitud 0.300000012). En este discurso del odio, la violencia no es un problema colectivo cuya responsabilidad también recae en el Estado y la fuerza pública, sino más bien se explica a partir de la alteridad política (Tweet  # 13, puntuación de -0.300000012, con magnitud de 0.300000012). 

En los Tweets del presidente Duque (#14, puntuación de -0.200000003 y #16, puntuación de -0.400000006) se profundiza en el discurso del odio al equiparar las marchas con las acciones armadas de grupos ilegales como el ELN o las disidencias de las FARC y continuando estigmatizando la oposición política, haciendo ver que los marchantes están en liga con estos grupos insurgentes.

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 346Figura 44: Tweet # 9La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 347Figura 45: Tweet # 10
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 348Figura 46: Tweet # 11La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 349Figura 47: Tweet # 12
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 350Figura 48:Tweet # 13La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 351Figura 49: Tweet # 14
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 352Figura 50: Tweet # 15La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 353Figura 51: Tweet # 16

De esta forma, en la narrativa del odio, el Centro democrático construye las protestas como acciones de extremistas irracionales que deben ser controladas. El ex-embajador de Colombia en EEUU, por ejemplo, hace la analogía del Paro nacional con la insurrección del 6 de enero ocurrida en Washington (Tweet # 17). Sin embargo, a este mensaje el algoritmo le da una puntuación positiva de 0.1000000015. Maria Fernanda Cabal hace eco con esta narrativa en el Tweet # 18, donde describe el Paro nacional como un intento de toma del Estado por parte de narcotraficantes.  

Finalmente, el discurso del odio de este partido político termina de articularse en algunos mensajes burlones y condescendientes, tratando de deslegitimar el Paro nacional como si fuera hecho por jóvenes confundidos que no entienden las consecuencias de sus actos, engañados por la oposición e instigando a la violencia. Hablamos del Tweet # 20, donde Uribe describe las acciones de un manifestante como un ¨juego peligroso¨ (con puntuación de -0.600000024, magnitud de 0.600000024). En otro Tweet (# 19, puntuación de -0.200000003 , con magnitud de 0.200000003) de Maria Fernanda Cabal, la senadora se burla del símbolo de la bandera invertida promovida por los manifestantes, explicando que, si se quiere enderezar al país, es necesario empezar por enderezar la bandera. En el Tweet 21 (puntuación de -0.3000000119 con magnitud de 0.3000000119) esta misma senadora instiga a la violencia, evocando emociones negativas y exigiendo el despliegue del ejército para controlar la situación. En el Tweet 22 (con puntuación positiva de 0.100000001), Alvaro Uribe parece insinuar que los ciudadanos deben auto-protegerse y unirse a la lucha policial, comentario perturbador que hace eco en la noción de paramilitarismo que ha sido tan popular en el país en los contextos derechistas.

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 354Figura 52: Tweet # 17La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 355Figura 53: Tweet # 18
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 356Figura 54: Tweet # 19La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 357Figura 55: Tweet # 20
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 358Figura 56: Tweet # 21La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 359Figura 57: Tweet # 22

Los anteriores Tweets son una ilustración clara de la articulación del discurso del odio en el Centro democrático y como en la mayoría de los casos el algoritmo detecta los negativos sentimientos y su relación con la narrativa del odio. Sin embargo, existen varias ambigüedades en el discurso del odio que no logra captar. En varias instancias, el discurso del odio es demasiado sutil para el algoritmo. Miremos, por ejemplo, el Tweet 23 de Oscar Zuluaga, donde esta figura política le hace una oda a la bandera de la nación y el algoritmo le asigna un puntaje positivo de 0.400000006. Efectivamente, el comunicado no utiliza lenguaje soez o vocabulario que evoque emociones negativas. Mirando más detenidamente, la publicación si muestra una tensión clara al ser una respuesta antagónica de los manifestantes que han invertido la bandera colombiana como parte de la iconografía de la protesta. Dado el contexto del momento y las connotaciones de este símbolo patrio, una calificación más acertada del comunicado hubiera clasificado el mensaje como negativo, al antagonizar a los manifestantes. 

Otra parte problemática del desempeño del algoritmo es que no es muy útil para discernir entre sentimientos genuinos de tristeza y el discurso del odio. Por ejemplo, en el Tweet 24 de Uribe, el puntaje negativo de -0.5 es correcto, pero no tiene que ver con el discurso del odio, ya que Uribe solo lamenta el sufrimiento de la fuerza pública. Lo mismo ocurre con el Tweet 26 de Iván Duque, con puntuación negativa de -0.400000006, con una magnitud de 0.400000006.

En el Tweet 25 de Alvaro Uribe, con puntuación positiva de 0.699999988, el algoritmo obvia por completo la connotación del mensaje que insinúa que el Paro nacional y su destrucción de la propiedad privada lleva al paramilitarismo, un comentario que se puede entender como hate speech al culpabilizar a los protestantes y sugerir que la única forma de protección frente a ellos es el auto-cuidado por sus propios medios.

Un último ejemplo de la ineficacia del algoritmo es el Tweet 27 de Maria Fernanda Cabal, con puntuación positiva de 0.200000003, en un comunicado donde la senadora ignora las consecuencias ambientales de la fumigación aérea para los campesinos colombianos aparte de segregar a la población binariamente entre ¨colombianos de bien¨ y narcotraficantes, insinuando que los campesinos son narcotraficantes porque cultivan coca. Esta es una estigmatización típica del lenguaje del odio que el algoritmo no es capaz de identificar adecuadamente.

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 360Figura 58: Tweet # 23La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 361Figura 59: Tweet # 24
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 362Figura 60: Tweet # 25La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 363Figura 61: Tweet # 26
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 364Figura 62: Tweet # 27

Asimismo, aunque se ha demostrado la presencia del discurso del odio en este partido político, como se ha expuesto arriba, la visualización de los datos no refleja este hecho adecuadamente. Se ve poca presencia del lenguaje del odio como un patrón común de las figuras políticas estudiadas, la mayoría de sus Tweets aparecen en verde, dando una falsa impresión de que no hay discurso del odio. Esta situación solo se puede ver analizando cada Tweet en su especificidad. 

Sin embargo, las nubes de palabras si ayudan a visualizar la presencia del discurso del odio, mostrando que las palabras relacionadas con el patriotismo (patria, Colombia, país), la seguridad nacional (autoridad, seguridad, policía), el miedo y la estigmatización (violencia, vandalismo, terrorismo) si hacen parte del vocabulario diario de estos políticos (ver también figuras 63 y 64 para visualizar el conteo de palabras en general y en el caso particular de Maria Fernanda Cabal con el termino de terrorismo).

La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 365Figura 63: Palabras relacionadas con terrorismo en Maria Fernanda Cabal, captura tomada de VoyantTools.
La relevancia de Google NLP para la detección del discurso de odio en los Tweets sobre el Paro nacional colombiano del 2021 por parte del Centro Democrático 366Figura 64: Palabras más frecuentes en los Tweets del Centro democrático, captura tomada de VoyantTools.

Así, se entiende que la tecnología actual de NLP no tiene un rendimiento adecuado para detectar el lenguaje de odio en Twitter, debido a la sutileza del discurso del odio y la complejidad de la comunicación humana. La herramienta puede captar instancias obvias de odio, pero todavía presenta varios errores en sus clasificaciones. La sutileza del lenguaje del odio es un problema central en esta cuestión. Dentro del discurso del odio, el lenguaje del Centro democrático se puede clasificar como hate speech en un nivel mediano de acuerdo a los datos recopilados, implicando una presencia significativa pero discreta del lenguaje del odio. 

Queda en manifiesto entonces los límites de la detección del lenguaje del odio por los NLP, que aún se ven limitados por su propia capacidad de entender las sutilezas semánticas de la comunicación humana y la complejidad misma del discurso del odio y sus usos políticos. Aunque sutil, su influencia puede ser bastante grave al legitimar emociones y acciones de odio.

Así es claro que el Centro democrático hace uso de un sutil pero implícito discurso del odio durante el violento paro nacional del 2021. Con los Tweets analizados previamente, las figuras representativas de este partido político justifican y promueven actos de violencia extrema como desapariciones y ataques a manifestantes desarmados, bajo un discurso sutil de odio que busca legitimar prácticas obvias de violación de derechos humanos y violencia política. A través de estas prácticas lingüísticas, dicho partido evidencia explícitamente la presencia del discurso del odio en su programa político.

4.3 Conclusiones

Este estudio buscó determinar la relevancia del algoritmo que usa Google NLP para la identificación del discurso político del odio en línea. La detección de hate speech en el ciberespacio es una cuestión de mucha actualidad y relevancia para el diseño de políticas públicas que buscan prevenir el posicionamiento de este tipo de discurso en la sociedad. Paralelamente se ve el actual desarrollo de estos discursos del odio en el plano de la política mundial contemporánea por parte de partidos extremistas de distintas orientaciones ideológicas, situación que representa un riesgo para las democracias ya que el discurso del odio legitima prácticas de gobernanza antidemocráticas como la persecución política, la desinformación y la discriminación. 

En este orden de ideas, este estudio limitó esta indagación a Twitter y se escogió como objeto de estudio el comportamiento comunicativo del partido político colombiano el Centro democrático en el contexto de la violencia del Paro nacional del 2021, en el rango de tiempo del 28 de abril hasta el 28 de Julio. Esta organización política es de gran influencia nacional y ha sido conocida por su discurso fuerte y antagónico frente a temas como el narcotráfico, el proceso de paz, la inclusión de la izquierda en la participación política del país y la protesta social. Siguiendo a académicos como Carlos Rincón Oñate, Raul Botero Torres y Juan Federico Pino que han analizado el discurso del odio en Colombia y su relación con el partido político anteriormente mencionado, se entiende que esta organización política ha evidenciado un uso complejo del discurso del odio que hace necesario y pertinente continuar estudiando sus redes sociales. Así, se consideró relevante mirar como los Tweets de odio de este partido político se relacionan con la violencia real que ocurrió durante las protestas del paro, donde las redes sociales y la guerra informática tuvieron tanta trascendencia.

Usando el software Phantombuster se recopilaron todas las publicaciones en Twitter de las principales figuras del Centro democrático, según su rol en el partido y su influencia en las redes, tales como; Alvaro Uribe, Ivan Duque, Marta Lucia Ramirez, Oscar Zuluaga, Maria Fernanda Cabal y Pacho Santos. Con esta información se usó Google NLP para determinar la naturaleza del contenido en relación con el discurso del odio, usando una escala de positivo, neutral y negativo que tomaba en cuenta la magnitud de la emoción evocada por el Tweet, es decir, la fuerza con la que se expresó. Finalmente, estos datos clasificados se importaron al software de visualización de datos llamada SandDance, donde se hicieron distintas gráficas que ilustran los resultados del scrapeo.

Los datos recopilados logran identificar la presencia leve de un discurso del odio en los Tweets realizados en las fechas estudiadas, como muestran las gráficas. Analizando los datos manualmente, se puede apreciar que Google NLP logra identificar muchas instancias de discurso del odio y además clasifica correctamente los Tweets con la escala de sentimiento y magnitud aplicada. Sin embargo, en este escrutinio individual de los datos también se aprecia que el algoritmo comete varios desaciertos en la puntuación que asigna; en ocasiones clasifica como positivo algo negativo y viceversa. En otras instancias logra detectar el discurso del odio, pero su intensidad es incorrecta. Otras veces identifica el sentimiento negativo, pero este no es una instancia de discurso de odio. En los mensajes propios del discurso del odio, específicamente, existen ambigüedades, contextos culturales y la complejidad propia del lenguaje humano que dificulta el desempeño de Google NLP. 

En ese sentido se puede apreciar los límites de la tecnología actual para la detección de odio en el ciberespacio. La herramienta no logra procesar bien contenido irónico, ambiguo o descontextualizado. Asimismo, resulta difícil diferenciar instancias del discurso del odio de instancias de emociones negativas distintas con esta tecnología. 

En ese orden de ideas se concluye que Google NLP es muy útil para identificar y clasificar contenido sencillo con un rango de asertividad alto más no libre de error. Puede ser una herramienta muy útil para recopilar datos rápidamente y clasificarlos, para ser verificados minuciosamente por un usuario humano. En ese sentido, Google NLP es un software con mucho futuro y promesa que en la actualidad no es suficiente para la tarea de identificación del discurso del odio. Asimismo, se concluye respecto a la recopilación de datos que se puede crear una escala más apropiada para clasificar los sentimientos evocados que la que se usó en esta investigación, siendo más fácil para la visualización de datos en gráficas con SandDance.

4.4 Objetivos cumplidos

  • Fue posible utilizar Google NLP para detectar y clasificar instancias simples de discurso del odio en los Tweets del Centro democrático en el contexto del Paro nacional, pero su desempeño es medianamente aceptable debido a varios casos de errores en la interpretación de los datos.
  • Se logra visualizar con gráficas los datos recopilados usando SandDance, pero estas no logran ilustrar totalmente el contenido de odio en los Tweets, por errores en la interpretación de datos de Google NLP.
  • Se logra evaluar el desempeño de Google NLP identificando sus límites actuales relacionados con sus errores clasificando el contenido de los Tweets. Lo cual demuestra que le queda mucho trabajo por delante si se quiere llegar finalmente a dar resultados automatizados realmente confiables.
  • Se logra explorar los posibles usos de Google NLP para temas no relacionados con el marketing digital, identificando debilidades que marcan el derrotero para su mejora.

4.5 Trabajo futuro

Se considera pertinente desarrollar otras investigaciones que permitan explorar y reconocer la causa de los errores en la interpretación de datos de Google NLP. Asimismo, es relevante mirar otras escalas numéricas para la clasificación de los datos, con el fin de que sean más fáciles de entender para los usuarios promedio. Asimismo, se pueden enfocar otros estudios en la diferenciación entre emociones negativas expresadas en los Tweets e instancias claras del discurso del odio. Por otra parte, estudios similares se pueden llevar a cabo para contrastar el discurso del Centro democrático con otros partidos y otros actores importantes de la política nacional e internacional. También resultaría pertinente replicar este estudio del discurso del odio en este partido político en contextos y momentos diferentes de la política colombiana, con el fin de poder contrastar e identificar la evolución y dinamismo del discurso del odio en esta organización política.

Picture of @Arthurocrates

@Arthurocrates

Magíster en Humanidades Digitales de la Universidad de la Rioja y Profesional en Filosofía y Letras de la Universidad de la Salle en Bogotá, Colombia.Minimalista, Esperantista, Antifa, Hegeliano, Kantiano, Kripkeano

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Textos Recientes

Categorías

Curso Gratis Certificado

Recibe textos en tu correo 😊