Para este trabajo, se decidió utilizar una base de datos encontrada aquí llamada "Life Satisfaction and the Pursuit of Happiness on Twitter" . El archivo comprimido contiene una carpeta donde se ubican cuatro archivos en formato (.txt) de los cuales se detallarán a continuación. Se dividen en dos categorías, Satisfacción de vida y no satisfacción. De los cuatro archivos, se usaran dos de ellos, que en su totalidad dan 7200 observaciones con tres columnas: ID, Texto (corresponde a tweets recopilados por los autores entre el 30 de diciembre del 2012 y el 11 de enero del 2013) y Etiqueta (0 para no satisfacción, 1 para satisfacción).