SOC9035 – Análisis Avanzado de Datos II
09 Mar 2026
En esta clase buscaremos:
Progresivamente se ha generalizado el uso de software estadístico en ciencias sociales, abriendo grandes posibilidades de realizar análisis más complejos y facilitando su uso.
El riesgo tecnológico
Existe el riesgo de una falta de formación estadística y reflexividad. Apretar botones sin entender qué hace el software afecta directamente la calidad y validez del análisis.
Dos niveles de manejo del software:
En el mercado laboral y académico existe una gran variedad de herramientas. La elección dependerá de nuestros objetivos, presupuesto y área de especialización.
| Dimensión / Lenguaje | R | Python | SPSS | Excel | Stata |
|---|---|---|---|---|---|
| Alcance | General, orientación multidisciplinar | General, orientación multidisciplinar | Limitado, orientado a Ciencias Sociales | Limitado, orientado a administración | Limitado, orientado a Economía |
| Licencia | Libre (freeware) | Libre (freeware) | Pagada (versión de prueba limitada) | Pagada (versión de prueba limitada) | Pagada (versión de prueba limitada) |
| Aprendizaje | Sintaxis, poco intuitivo | Sintaxis, poco intuitivo | Botones y sintaxis, intuitivo | Botones y sintaxis, intuitivo | Botones y sintaxis, intuitivo |
| Visualización | Avanzada | Intermedia | Básica | Intermedia | Intermedia |
| Análisis de texto | Intermedio, poca eficiencia | Avanzado, amplia eficiencia | No | No | No |
| Minería Datos | Intermedio, poca eficiencia | Avanzado, amplia eficiencia | No | No | No |
| Sistema operativo | Windows, Mac OS, Linux | Windows, Mac OS, Linux | Windows, Mac OS | Windows, Mac OS | Windows, Mac OS |
Fuente: Boccardo y Ruiz, 2018.
R es un software y un lenguaje de programación de código abierto (libre), enfocado principalmente en el análisis estadístico y la visualización de datos.
El problema
Su interfaz nativa es muy poco amigable, parece una simple calculadora de texto. La solución a esto es RStudio.


tidyverse), su sintaxis se ha vuelto mucho más simple e intuitiva de leer.Aprender código puede parecer contraintuitivo y frustrante al principio, pero tiene tres ventajas innegables:
(Elousa, 2009 en Boccardo y Ruiz, 2018: 8-9)
Es un Entorno de Desarrollo Integrado (IDE). En palabras simples: es una interfaz gráfica que “envuelve” a R para hacernos la vida mucho más fácil.
Se divide en 4 paneles principales:
Regla de oro
Siempre se debe instalar R primero, y RStudio después.
Podemos encontrar el instalador de R para Windows, Linux y Mac en el sitio oficial del CRAN: 🔗 https://cloud.r-project.org/
Instrucciones: Debemos descargar el “paquete base” (base R), luego ejecutar el archivo descargado e instalarlo dándole “Siguiente” a todas las opciones predeterminadas.

Una vez que R ya está en nuestro computador, procedemos a instalar la interfaz.
Podemos encontrar RStudio en su sitio web. Debemos descargar la versión gratis (RStudio Desktop), que es totalmente funcional para nuestros propósitos: 🔗 https://posit.co/download/rstudio-desktop/ (Nota: RStudio ahora es parte de la empresa Posit).
Debemos fijarnos en elegir el instalador correcto para nuestro sistema operativo (Windows o Mac). Igualmente, lo instalamos usando las opciones predeterminadas.

Atención usuarios de Windows
Para algunos análisis específicos (o al leer ciertos archivos de Excel viejos), R utiliza el software Java. El problema es que los computadores suelen tener instalada la versión antigua de 32 bits, mientras que RStudio opera en 64 bits. Esto genera un error de incompatibilidad.
¿Cómo resolverlo? Si te encuentras con este error en el futuro, debes descargar e instalar la versión offline de 64 bits de Java desde su página oficial: 🔗 https://www.java.com/es/download/manual.jsp
R organiza la información en diferentes “envases”. Los principales son:
Vector (Vector): Una columna o fila de datos de un mismo tipo. Es la estructura más básica (equivale a una variable individual).List (Listas): Cajas complejas que nos permiten agrupar múltiples objetos que pueden ser de distinto tamaño o tipo.Matrix (Matrices): Arreglo de dos dimensiones (filas y columnas) donde todos los datos deben ser exactamente del mismo tipo (por ejemplo, solo números).Data.frame (Base de datos): Es la estructura reina en Ciencias Sociales. Es una matriz de datos bidimensional donde cada columna tiene un nombre (variable) y cada fila es un caso. A diferencia de la matriz, permite combinar distintos tipos de datos (una columna de texto, otra de números, etc.).Dentro de las estructuras (como un vector o una columna de un data.frame), los datos pueden tener distintas naturalezas:
| Tipo en R | Descripción | Ejemplo |
|---|---|---|
numeric |
Números (pueden contener decimales) | 1.5, 3.14, 100 |
integer |
Números enteros estrictos | 1, 2, 3 |
logical |
Valores booleanos | TRUE (Verdadero) o FALSE (Falso) |
character / string |
Cadenas de texto. Siempre van entre comillas | "Santiago", "Femenino" |
factor |
Variables categóricas/nominales. Tienen “niveles” subyacentes | Nivel 1: "Bajo", Nivel 2: "Alto" |
Dominar R es un camino de mediano plazo. Es normal que el código arroje error (¡le pasa a los expertos todos los días!). Lo importante es desarrollar habilidad de “hacking”:
Tus mejores aliados para buscar ayuda
?nombrefuncion).Textos base:
Sitios web útiles:
Cursos online (Inglés):
![]()
Análisis Avanzado de Datos II