¿Cómo analizar datos de redes sociales?
Recientemente fue publicado un estudio de Movilizatorio en el cual se analizan diferentes conversaciones en torno a temas específicos para evaluar la polarización. Si bien celebro que haya nuevos actores en el campo y me parece fantástico que el análisis de redes se vuelva parte importante del debate público, considero que debemos someter al más alto escrutinio un informe con los sellos de calidad que ostenta y demandar de la naciente (asumo) ONG un estándar de calidad muy alto. En mi opinión, el informe no cumple con esos estándares, se limita a una estadística descriptiva en la cual se enuncia "force atlas 2" como una metodología (es un algoritmo para visualización, muy útil, pero no es una metodología). El informe cuenta con un modelo simple pero eficiente para definir polarización: el % de contactos que tengan lugar entre grupos o al interior de grupos. Define unos umbrales sin una justificación muy detallada (puede que sí la haya pero no está en el documento al que yo tuve acceso), y con esa métrica, sin comparar contra otras medidas de polarización, modelos mucho más elaborados (no por eso más acertados) llega a unas conclusiones bastante interesantes (como cualquier estudio empírico, con una larga lista de limitaciones que quizás falta enunciar más claramente).
No quiero sonar, tampoco, como el viejo quejumbroso que a surgido en mí durante la pandemia (quizás desde antes, la pandemia solo lo hizo evidente). Como dije, me gusta la idea de que haya actores no académicos en el análisis de redes y que fundaciones tan importantes le dediquen parte de sus recursos a estudiar el tema de las redes. Yo, personalmente, considero que la crisis de información es un reto tan grande para la humanidad como la crisis climática (y no lo digo a la ligera, lo he pensado bastante), y entre más actores, mucho mejor para todos. Necesitamos un Green Peace, un Nature Conservation Society, o equivalente, para la crisis de información. Necesitamos una convención mundial tipo Río, Johanesburgo, París, para solucionar la crisis de la información. Pero mientras eso sucede, solo nos queda la acción colectiva de la sociedad civil.
Para ver otros estudios sobre redes sociales y temas políticos de Colombia o por colombianos, recomiendo seguir a:
Nicolás Velázquez, ojear su historial de publicaciones donde se destacan algunos artículos con modelos de la física para entender fenómenos sociales sobre vacunación y desinformación en redes, la ecología del odio online (publicados en ¡Nature!).
Andrés Lombana, también ver sus publicaciones desde una perspectiva más cualitativa y enfocada, por su interés persona, en desarrollar habilidades de tecnología en los jóvenes.
Desde las ONGs y la sociedad civil, recomiendo mucho ver el trabajo de Cristina Vélez de Linterna.
Sin duda se me quedarán muchos nombres por fuera de esta lista, estos son apenas algunos colegas con quienes he trabajado (o intentado por lo menos), y cuyo trabajo me parece que pone en perspectiva el de Movilizatorio.
Por ello he decidido hacer un taller para enseñar a usar algunas herramientas para el análisis de redes y que cualquier persona con un poco de tiempo y paciencia para configurar algunos ajustes en su computador, pueda realizar informes comparables con el de Movilizatorio o con lo que yo mismo publico con frecuencia. La idea es que entre más informes, más personas escudriñando las redes para encontrar diferentes temáticas, pues va a ser más fácil identificar esas amenazas que vivimos por cuenta de la acción colectiva perjuiciosa en redes sociales.
Este texto, básicamente, un compendio de links y tutoriales para instalar y usar 2 herramientas gratuitas para el análisis de redes. No se necesita experiencia en programación. Es probable que las instrucciones no cubran casos de uso (en ciertos sistemas operativos, o errores), pero realmente son cosas que se pueden solucionar en su gran mayoría muy fácilmente, con una búsqueda en Google.
El proceso consiste en 2 fases, Instalación, y Uso, de 2 herramientas: DMI-TCAT (captura) y Gephy (visualización). Es posible usar solamente Gephy aunque de una manera mucho más limitada.
Intentaré hacer unos talleres periódicos para ayudar a quien necesite instalar o analizar este tipo de información.
INSTALACIÓN
CREDENCIALES DE TWITTER (puede demorar ~3 días en recibir las credenciales)
Antes de empezar deben solicitar credenciales de Twitter. Para ello, ayuda dar todos los detalles que puedan, personales y de la motivación que tienen para hacer este análisis. Pueden poner un link a este tutorial y a mis páginas de investigación (quizás eso ayude un poco aunque no tengo idea), diciendo que van a tomar un taller abierto para "Network Data Literacy to Fight Missinformation". Entre más detalles den sobre ustedes mismos, los propósitos que tienen, y la empresa donde trabajan o estudian, más fácil le queda a Twitter saber que ustedes no son una bodega rusa.
Es frecuente que Twitter responda con algunas preguntas en los próximos días antes de activar la cuenta y darles credenciales, es necesario estar pendiente del mail que llega a spam. En ocasiones esta comunicación puede tener varias interacciones donde Twitter solicita aún más información, por ello es conveniente dar toda la información posible (links a la página del trabajo, universidad, personal, etc.).
DMI-TCAT
Esta es la mejor herramienta que he encontrado, es una especie de front-end para manejar las bases de datos de tweets de una manera profesional. Hay que seguir los pasos para instalarlo, requiere una máquina virtual Ubuntu 18.04 (no puede ser otra y debe ser recién instalada). Se puede instalar en un servidor (ideal) o en una máquina virtual que corra en un computador personal. Instalar en una máquina local tiene limitaciones: seguir los tweets de las protestas, por ejemplo, puede involucrar más de un millón de trinos al día, esto rápidamente colapsa una máquina virtual local. Sin embargo, puede ser más que suficiente para un usuario que no quiera tener que lidiar con armar un servidor online.
AWS
Para quienes quieran instalarlo en una máquina virtual en AWS, acá hay un tutorial.
WINDOWS
Instalar Virtual Box
Abrir una terminal en la máquina virtual UBUNTO y pasar al punto: COPIAR Y PEGAR ESTOS COMANDOS
MAC
Para instalarlo en un Mac, deben instalar primero Multipass (es la manera más fácil que he encontrado).
luego, pueden dar Manzana(command) + espacio y escriben "Terminal", espichan enter. Esto despliega una terminal de su Mac. En ella deben copiar y pegar este texto (editando según la capacidad de su propia máquina):
multipass launch 18.04 -n palmira -c 3 -d 20G -m 8G
Esto inicializará una máquina llamada "palmira" con ubuntu 18.04 (los otros no funcionan) con 3 cores, 20Gb de disco y 8Gb de memoria. Yo uso un iMac con alta capacidad, esto puede ser demasiado para ciertos computadores, por ejemplo un Macbook Air. Sugiero usar 1 core y 5Gb de disco, 4Gb de memoria para empezar si no están seguros:
multipass launch 18.04 -n supercontra -c 1 -d 5G -m 4G
Las instrucciones solas para los perezosos:
sudo apt-get install curl
curl -O "https://raw.githubusercontent.com/digitalmethodsinitiative/dmi-tcat/master/helpers/tcat-install-linux.sh"
chmod a+x tcat-install-linux.sh
sudo ./tcat-install-linux.sh
El texto de cómo instalar, tomado del blog:
To use curl to download the install script, if curl is not not available install it using:
sudo apt-get install curl
Download the install script (the -O
, capital-o, option saves it to a local file with the same name as the remote file):
curl -O "https://raw.githubusercontent.com/digitalmethodsinitiative/dmi-tcat/master/helpers/tcat-install-linux.sh"
Make it executable:
chmod a+x tcat-install-linux.sh
Step 2: Run the install script
The script can be run in interactive mode, where it prompts the user for the parameters it needs:
sudo ./tcat-install-linux.sh
Note: it must be run with root privileges. The above example uses the sudo command to do this.
It will prompt for:
- Twitter API consumer key;
- Twitter API consumer secret;
- Twitter API user token;
- Twitter API user secret;
- Mode of tweet capture to perform (phrases/keywords, follow users, or 1% sample);
- Whether to expand URLs in tweets or not;
- The name of the server;
- Whether to allow TCAT to automatically upgrade itself or not; and
- Other advanced parameters (but usually the default values for these can be used).
The name of the server is very important. It will be the name of the machine in the URL used to access the TCAT Web pages. It must be the host name or IP address of the machine TCAT is being installed on.
The script will confirm the parameters before proceeding with the install. If the values are incorrect, answer "n" to edit the values. Answer "y" to start the installation process.
Step 3: Wait for the installation process to finish
Wait while the install script downloads and configures the required components. These components include the TCAT files, MySQL/MariaDB database, PHP and the Apache Web Server.
The install script, by default, will run apt-get update
and apt-get upgrade
at the start of the process, to ensure the system is up to date.
Note for Debian: when installing on Debian, the installation process it will prompt for a "MySQL product to configure" when mysql-apt-config is installed. Press the down key on your keyboard to select "Apply" and then press the return key to continue.
Post a Comment