¿Cómo analizar datos de redes sociales?

Recientemente fue publicado un estudio de Movilizatorio en el cual se analizan diferentes conversaciones en torno a temas específicos para evaluar la polarización. Si bien celebro que haya nuevos actores en el campo y me parece fantástico que el análisis de redes se vuelva parte importante del debate público, considero que debemos someter al más alto escrutinio un informe con los sellos de calidad que ostenta y demandar de la naciente (asumo) ONG un estándar de calidad muy alto. En mi opinión, el informe no cumple con esos estándares, se limita a una estadística descriptiva en la cual se enuncia "force atlas 2" como una metodología (es un algoritmo para visualización, muy útil, pero no es una metodología). El informe cuenta con un modelo simple pero eficiente para definir polarización: el % de contactos que tengan lugar entre grupos o al interior de grupos. Define unos umbrales sin una justificación muy detallada (puede que sí la haya pero no está en el documento al que yo tuve acceso), y con esa métrica, sin comparar contra otras medidas de polarización, modelos mucho más elaborados (no por eso más acertados) llega a unas conclusiones bastante interesantes (como cualquier estudio empírico, con una larga lista de limitaciones que quizás falta enunciar más claramente).

No quiero sonar, tampoco, como el viejo quejumbroso que a surgido en mí durante la pandemia (quizás desde antes, la pandemia solo lo hizo evidente). Como dije, me gusta la idea de que haya actores no académicos en el análisis de redes y que fundaciones tan importantes le dediquen parte de sus recursos a estudiar el tema de las redes. Yo, personalmente, considero que la crisis de información es un reto tan grande para la humanidad como la crisis climática (y no lo digo a la ligera, lo he pensado bastante), y entre más actores, mucho mejor para todos. Necesitamos un Green Peace, un Nature Conservation Society, o equivalente, para la crisis de información. Necesitamos una convención mundial tipo Río, Johanesburgo, París, para solucionar la crisis de la información. Pero mientras eso sucede, solo nos queda la acción colectiva de la sociedad civil.

Para ver otros estudios sobre redes sociales y temas políticos de Colombia o por colombianos, recomiendo seguir a:

Nicolás Velázquez, ojear su historial de publicaciones donde se destacan algunos artículos con modelos de la física para entender fenómenos sociales sobre vacunación y desinformación en redes, la ecología del odio online (publicados en ¡Nature!).

Andrés Lombana, también ver sus publicaciones desde una perspectiva más cualitativa y enfocada, por su interés persona, en desarrollar habilidades de tecnología en los jóvenes.

Desde las ONGs y la sociedad civil, recomiendo mucho ver el trabajo de Cristina Vélez de Linterna.

Sin duda se me quedarán muchos nombres por fuera de esta lista, estos son apenas algunos colegas con quienes he trabajado (o intentado por lo menos), y cuyo trabajo me parece que pone en perspectiva el de Movilizatorio.

Por ello he decidido hacer un taller para enseñar a usar algunas herramientas para el análisis de redes y que cualquier persona con un poco de tiempo y paciencia para configurar algunos ajustes en su computador, pueda realizar informes comparables con el de Movilizatorio o con lo que yo mismo publico con frecuencia. La idea es que entre más informes, más personas escudriñando las redes para encontrar diferentes temáticas, pues va a ser más fácil identificar esas amenazas que vivimos por cuenta de la acción colectiva perjuiciosa en redes sociales.

Este texto, básicamente, un compendio de links y tutoriales para instalar y usar 2 herramientas gratuitas para el análisis de redes. No se necesita experiencia en programación. Es probable que las instrucciones no cubran casos de uso (en ciertos sistemas operativos, o errores), pero realmente son cosas que se pueden solucionar en su gran mayoría muy fácilmente, con una búsqueda en Google.

El proceso consiste en 2 fases, Instalación, y Uso, de 2 herramientas: DMI-TCAT (captura) y Gephy (visualización). Es posible usar solamente Gephy aunque de una manera mucho más limitada.

Intentaré hacer unos talleres periódicos para ayudar a quien necesite instalar o analizar este tipo de información.

INSTALACIÓN

CREDENCIALES DE TWITTER (puede demorar ~3 días en recibir las credenciales)

Antes de empezar deben solicitar credenciales de Twitter. Para ello, ayuda dar todos los detalles que puedan, personales y de la motivación que tienen para hacer este análisis. Pueden poner un link a este tutorial y a mis páginas de investigación (quizás eso ayude un poco aunque no tengo idea), diciendo que van a tomar un taller abierto para "Network Data Literacy to Fight Missinformation". Entre más detalles den sobre ustedes mismos, los propósitos que tienen, y la empresa donde trabajan o estudian, más fácil le queda a Twitter saber que ustedes no son una bodega rusa.

Es frecuente que Twitter responda con algunas preguntas en los próximos días antes de activar la cuenta y darles credenciales, es necesario estar pendiente del mail que llega a spam. En ocasiones esta comunicación puede tener varias interacciones donde Twitter solicita aún más información, por ello es conveniente dar toda la información posible (links a la página del trabajo, universidad, personal, etc.).

DMI-TCAT

TCAT

Esta es la mejor herramienta que he encontrado, es una especie de front-end para manejar las bases de datos de tweets de una manera profesional. Hay que seguir los pasos para instalarlo, requiere una máquina virtual Ubuntu 18.04 (no puede ser otra y debe ser recién instalada). Se puede instalar en un servidor (ideal) o en una máquina virtual que corra en un computador personal. Instalar en una máquina local tiene limitaciones: seguir los tweets de las protestas, por ejemplo, puede involucrar más de un millón de trinos al día, esto rápidamente colapsa una máquina virtual local. Sin embargo, puede ser más que suficiente para un usuario que no quiera tener que lidiar con armar un servidor online.

AWS

Para quienes quieran instalarlo en una máquina virtual en AWS, acá hay un tutorial.

WINDOWS
Instalar Virtual Box

Instalar una máquina virtual de Ubuntu 18.04 : acá hay un video tutorial de cómo instalar una máquina virtual Ubuntu (el video muestra una 20.04 pero no funciona para DMI-TCAT) en Windows.

Abrir una terminal en la máquina virtual UBUNTO y pasar al punto: COPIAR Y PEGAR ESTOS COMANDOS

MAC

Para instalarlo en un Mac, deben instalar primero Multipass (es la manera más fácil que he encontrado).

luego, pueden dar Manzana(command) + espacio y escriben "Terminal", espichan enter. Esto despliega una terminal de su Mac. En ella deben copiar y pegar este texto (editando según la capacidad de su propia máquina):

multipass launch 18.04 -n palmira -c 3 -d 20G -m 8G

Esto inicializará una máquina llamada "palmira" con ubuntu 18.04 (los otros no funcionan) con 3 cores, 20Gb de disco y 8Gb de memoria. Yo uso un iMac con alta capacidad, esto puede ser demasiado para ciertos computadores, por ejemplo un Macbook Air. Sugiero usar 1 core y 5Gb de disco, 4Gb de memoria para empezar si no están seguros:

multipass launch 18.04 -n supercontra -c 1 -d 5G -m 4G

INSTALACIÓN DMI-TCAT

Una vez uno tiene la máquina virtual creada, se debe abrir una terminal de esa máquina para configurar el DMI-TCAT. No es necesario "descargar" DMI-TCAT, los siguientes comandos lo harán desde la terminal, son tomados del wiki de instalación de la herramienta:

Las instrucciones solas para los perezosos:

COPIAR Y PEGAR ESTOS COMANDOS

sudo apt-get install curl

curl -O "https://raw.githubusercontent.com/digitalmethodsinitiative/dmi-tcat/master/helpers/tcat-install-linux.sh"

chmod a+x tcat-install-linux.sh
sudo ./tcat-install-linux.sh

El texto de cómo instalar, tomado del blog:

To use curl to download the install script, if curl is not not available install it using:

sudo apt-get install curl

Download the install script (the -O, capital-o, option saves it to a local file with the same name as the remote file):

curl -O "https://raw.githubusercontent.com/digitalmethodsinitiative/dmi-tcat/master/helpers/tcat-install-linux.sh"

Make it executable:

chmod a+x tcat-install-linux.sh

Step 2: Run the install script

The script can be run in interactive mode, where it prompts the user for the parameters it needs:

sudo ./tcat-install-linux.sh

Note: it must be run with root privileges. The above example uses the sudo command to do this.

It will prompt for:

Twitter API consumer key;
Twitter API consumer secret;
Twitter API user token;
Twitter API user secret;
Mode of tweet capture to perform (phrases/keywords, follow users, or 1% sample);
Whether to expand URLs in tweets or not;
The name of the server;
Whether to allow TCAT to automatically upgrade itself or not; and
Other advanced parameters (but usually the default values for these can be used).

The name of the server is very important. It will be the name of the machine in the URL used to access the TCAT Web pages. It must be the host name or IP address of the machine TCAT is being installed on.

The script will confirm the parameters before proceeding with the install. If the values are incorrect, answer "n" to edit the values. Answer "y" to start the installation process.

Step 3: Wait for the installation process to finish

Wait while the install script downloads and configures the required components. These components include the TCAT files, MySQL/MariaDB database, PHP and the Apache Web Server.

The install script, by default, will run apt-get update and apt-get upgrade at the start of the process, to ensure the system is up to date.

Note for Debian: when installing on Debian, the installation process it will prompt for a "MySQL product to configure" when mysql-apt-config is installed. Press the down key on your keyboard to select "Apply" and then press the return key to continue.

Luego de instalar DMI-TCAT, salen unas direcciones que uno debe anotar (con passwords que también deben anotar y guardar). Al copiar las direcciones y abrirlas en un navegador, vamos a tener acceso al front-end de la herramienta, la cual interactúa con una base de datos SQL generada a partir de los datos descargados de Twitter.

En la herramienta de configuración (un link en la parte superior derecha de la pantalla) debemos agregar un "bin" con las palabras "keywords" que va a descargar. La herramienta descarga automáticamente y genera una base de datos con estas keywords. SUGIERO EMPEZAR CON 2 ó 3 SOLAMENTE. Agregar demasiadas puede resultar en bloqueos a la cuenta.

Este es un video para interactuar con la herramienta (que al principio debe estar vacía):

VISUALIZAR LAS REDES

Para visualizar las redes, la mejor herramienta es Gephi, un programa en beta desarrollado como un ejercicio de verano en Google, sobre Jython. Está lleno de bugs y no es muy intuitivo, pero vale la pena porque son las mejores visualizaciones que se pueden hacer de redes, y muchas veces un análisis descriptivo como el que se hace en Gephi es suficiente para representar fenómenos de redes que se hacen muy evidentes.

Para participar en los talleres (que sucederán esporádicamente, cada vez que pueda), pueden llenar este formato para que les compartamos un link.

NOTA: Acepto ayuda de personas que ya hayan instalado la herramienta y quieran ayudar, estos talleres son más útiles si hay varias personas en la sala respondiendo preguntas.

¿Cómo analizar datos de redes sociales?

Step 2: Run the install script

Step 3: Wait for the installation process to finish

Post a Comment

Featured Post

Duelos Sin Fronteras

Popular Posts

About Us

Recent Comments

Contact Us