Arnulfo Reyes

Desmenuzar un DataFrame

José Arnulfo R. H.
9 meses
 

Antes de profundizar con la librería Pandas vale la pena conocer los componentes del DataFrame.

Visualmente la salida de un DataFrame de pandas (en un Jupyter Notebook) parece ser nada más que una tabla ordinaria de datos que consta de filas y columnas.

Debajo de la superficie se esconden tres componentes:

  • el índice, (index)
  • las columnas y (columns)
  • los datos. (data).

Esto se debe tener en cuenta para maximizar todo el potencial de DataFrame.

Photo by Mathew Schwartz on Unsplash

En esta sección veremos el conjunto de datos (dataset) de movie, se proporciona un diagrama etiquetado de todos los componentes principales.

¿Cómo lo haremos?

Vamos a usar la función read_csv para leer el conjunto de datos y mostraremos las primeros cinco filas con el método head:

movie = pd.read_csv('data/movie.csv')
movie.head()

Analicemos un DataFrame:

Pandas primero lee los datos del disco en la memoria y a un DataFrame usando la función read_csv. El resultado (output) de las columnas y el índice esta en negrita, lo que facilita la identificación.

Por convención, el termino etiqueta de índice (index label) y el nombre de columna (column name) se refiere a los miembros individuales del índice y las columnas, respectivamente.

Las columnas y el índice tienen un propósito particular, el de proporcionar etiquetas para las columnas y filas del DataFrame. Estas etiquetas permiten un acceso directo y fácil a diferentes subconjuntos de datos.

Un DataFrame tiene dos ejes: un eje vertical (el índice) y un eje horizontal (las columnas). Pandas toma prestada la convención de NumPy y usa los números enteros 0/1 como otra forma de referirse al eje vertical/horizontal.

Los datos de DataFrame (values) siempre están en fuente regular y son un componente completamente separado de las columnas o el índice. Pandas utiliza NaN (no un número) para representar valores faltantes (missing values).

Por ejemplo, la columna color solo tiene valores de cadena (string), esta utiliza NaN para representar un valor faltante.

Los tres puntos consecutivos en el medio de las columnas indican que hay al menos una columna que existe pero que no se muestra debido a que la cantidad de columnas excede los límites de visualización predefinidos.

Final

El método head acepta un único parámetro, n, que controla el número de filas mostradas. De manera similar, el método tail devuelve las ultimas n filas.

Documentación oficial de read_csv:

pandas.read_csv - pandas 1.4.1 documentation

Thanks for reading!
¡Gracias por leer!

Gracias por llegar hasta aquí. Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

Arnulfo Reyes

Desmenuzar un DataFrame — Pandas 01

José Arnulfo R. H.
9 meses
 

Antes de profundizar con la librería Pandas vale la pena conocer los componentes del DataFrame.

Visualmente la salida de un DataFrame de pandas (en un Jupyter Notebook) parece ser nada más que una tabla ordinaria de datos que consta de filas y columnas.

Debajo de la superficie se esconden tres componentes:

  • el índice, (index)
  • las columnas y (columns)
  • los datos. (data).

Esto se debe tener en cuenta para maximizar todo el potencial de DataFrame.

Photo by Mathew Schwartz on Unsplash

En esta sección veremos el conjunto de datos (dataset) de movie, se proporciona un diagrama etiquetado de todos los componentes principales.

¿Cómo lo haremos?

Vamos a usar la función read_csv para leer el conjunto de datos y mostraremos las primeros cinco filas con el método head:

movie = pd.read_csv('data/movie.csv')
movie.head()

Analicemos un DataFrame:

Pandas primero lee los datos del disco en la memoria y a un DataFrame usando la función read_csv. El resultado (output) de las columnas y el índice esta en negrita, lo que facilita la identificación.

Por convención, el termino etiqueta de índice (index label) y el nombre de columna (column name) se refiere a los miembros individuales del índice y las columnas, respectivamente.

Las columnas y el índice tienen un propósito particular, el de proporcionar etiquetas para las columnas y filas del DataFrame. Estas etiquetas permiten un acceso directo y fácil a diferentes subconjuntos de datos.

Un DataFrame tiene dos ejes: un eje vertical (el índice) y un eje horizontal (las columnas). Pandas toma prestada la convención de NumPy y usa los números enteros 0/1 como otra forma de referirse al eje vertical/horizontal.

Los datos de DataFrame (values) siempre están en fuente regular y son un componente completamente separado de las columnas o el índice. Pandas utiliza NaN (no un número) para representar valores faltantes (missing values).

Por ejemplo, la columna color solo tiene valores de cadena (string), esta utiliza NaN para representar un valor faltante.

Los tres puntos consecutivos en el medio de las columnas indican que hay al menos una columna que existe pero que no se muestra debido a que la cantidad de columnas excede los límites de visualización predefinidos.

Final

El método head acepta un único parámetro, n, que controla el número de filas mostradas. De manera similar, el método tail devuelve las ultimas n filas.

Documentación oficial de read_csv:

pandas.read_csv - pandas 1.4.2 documentation

Thanks for reading!
¡Gracias por leer!

Gracias por llegar hasta aquí. Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

Arnulfo Reyes

Data Frame

José Arnulfo R. H.
11 meses
 

Aprenderemos de Panda, pero primero.

Data Frame es una estructura de datos tabulares potencialmente heterogénea de tamaño mutable bidimensional con ejes etiquetados (filas y columnas).

DataFrame consta de tres componentes principales las filas, las columnas y los datos.

Filas, Columnas y Datos
Datos tabulares
Los datos tabulares (también conocidos como datos de la cesta o de la tabla de verdad) tienen elementos representados por marcadores diferentes, donde cada campo de marcas representa la presencia o ausencia de un elemento específico. Cada registro representa un conjunto completo de elementos asociados. Los campos de marcas pueden ser categóricos o numéricos, aunque ciertos modelos pueden tener requisitos más específicos.

DataFrame es el tipo de datos fundamental de la librería pandas, está claro que la habilidad principal que debemos tener con esta librería es la manera de crear un DataFrame a partir de datos.

Los datos de origen suelen venir en muy variadas formas. Esto lo veremos en las próximas publicaciones.

Gracias por llegar hasta aquí.

Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

Arnulfo Reyes

¿Qué paso en 2021?

José Arnulfo R. H.
11 meses
 

El 2020 fue el año en que se abrieron las compuertas, dando rienda suelta a un nuevo lugar de trabajo virtual que cambió las antiguas formas de trabajar, 2021 fue cuando todos en RR.HH. aprendieron a nadar o, de lo contrario, a ser consumidos por las turbulentas aguas.

Photo by Markus Winkler on Unsplash

La profesión continúa lidiando con las desalentadoras preguntas planteadas por la pandemia y la agitación sociopolítica en curso, ya que el cambio de paradigma de 2020 introdujo nuevas normas en el lugar de trabajo que sangraron en los últimos 365 días y continúa presentando nuevos desafíos.

Una cosa parece segura: el trabajo no volverá a ser como era antes de la pandemia. Para entender hacia dónde vamos, vale la pena reflexionar sobre lo que sucedió en el último año.

¿Oficina abierta o cerrada? La necesidad (o la falta de ella) de la oficina se debatió ferozmente en 2021. Las vacunas efectivas presentaron un rayo de esperanza para los jefes corporativos que esperaban volver a meter a las abejas obreras en cubos, pero como lo mencione en uno de los post anteriores, y como estamos experimentando una vez más — Variantes altamente contagiosas han hecho retroceder esos planes.

Aunque la incertidumbre define estos tiempos turbios, en 2021, la oficina, que alguna vez fue el centro de gravedad de las empresas de todos los tamaños y sus empleados, comenzó a verse cada vez más como un apéndice costoso e innecesario. Si la oficina alguna vez puede volver a su lugar de prominencia en la vida laboral es una de las mayores preguntas abiertas de 2022.

¿Cómo están respondiendo los colaboradores en la empresa que laboras?

Arnulfo Reyes

Prueba mental

José Arnulfo R. H.
11 meses
 

Imagínate a los 95 años. Estas caminando por el campo en un día tranquilo. Mientras caminas, piensas hacia atrás en tu vida. Imaginas lo que las personas dirán de ti cuando te vayas. Al recordar todas las cosas que has hecho y logrado, descubres qué cosas importan y que solo fueron ruido innecesario.

Photo by Matthew Bennett on Unsplash

Te acuerdas de las grandes comidas con amigos y familiares. Las sonrisas, el vino, las risas… La primera vez que los niños se cayeron de la bicicleta… La vez que se graduaron de la secundaria. Recuerdas la vez que cubriste de rosas una cama para tu pareja… y lo que pasó después ;)

Mientras caminas… Recuerdas cómo trataste a las personas. Recuerdas quién apareció por usted cuando más lo necesitabas. Recuerdas haber celebrado la vida con las personas con las que compartiste el viaje.

Cuando miras hacia atrás, te das cuenta con claridad de CÓMO trataste a las personas importantes y si LO lograste.

Este simple experimento mental permite que la retrospectiva de tu yo mayor se convierta en la previsión de tu yo actual. De repente puedes ver lo que antes no podías. Esta es solo una aplicación de experimentos mentales. Aquí hay tres lecciones que puede poner en práctica:

Photo by Nils Stahl on Unsplash

Lección 1: Pensar hacia futuro. Interprete las decisiones clave en su mente antes de tomarlas y evite errores costosos. Por ejemplo, si está pensando en comprar una casa nueva pero pedir prestado, puede considerar varios futuros posibles y cómo podrían afectarlo.

Lección 2: Cambia tu perspectiva. Mira el mundo desde el punto de vista de los demás. En su próxima reunión, finja ser uno de los otros participantes. Trate de entender la conversación desde su lente. Haga esto para todos y obtendrá información valiosa.

Lección 3: Hazlo creíble. Sus suposiciones deben estar respaldadas por pruebas, un contexto creíble y ser comprobables. Como la ciencia.

Como todos los modelos mentales, los experimentos mentales a veces son incorrectos pero a menudo útiles. Más que una simple imaginación, requieren rigor y trabajo para ser efectivos.

Arnulfo Reyes

Comando Linux

José Arnulfo R. H.
alrededor de 1 año
 

Uname

El comando uname sirve para imprimir información del sistema linux.

El uso más práctico es:

La opción -a nos da toda la información disponible. La salida que podemos esperar es la siguiente:

Linux kings 5.14.18–200.fc34.x86_64 #1 SMP Fri Nov 12 16:48:10 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Las opciones del comando uname que tenemos disponibles son las siguientes:

  • -a, –all imprime toda la información, en el orden siguiente, excepto -p y -i si son desconocidos:
  • -s, -kernel-name imprime el nombre del kernel
  • -n, –nodename imprime el nombre del hostname
  • -r, –kernel-release imprime la release del kernel de sistema
  • -v, –kernel-version imprime la versión del kernel de sistema
  • -m, –machine imprime el nombre de la máquina
  • -p, –processor imprime el tipo de procesador, en caso desconocido «unknown»
  • -i, –hardware-platform imprime el nombre de la plataforma hard, en caso desconocido «unknown»
  • -o, –operating-system imprime el nombre del sistema operativo.
terminal con comandos uname

Gracias por llegar hasta aquí.

Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

Arnulfo Reyes

Comandos comunes para la terminal

José Arnulfo R. H.
alrededor de 1 año
 

Guía de referencia:

¿Alguna vez saliste de una habitación y luego no podías recordar lo que estabas haciendo? ¿Alguna vez te has convencido que un viaje al supermercado se puede realizar sin una lista, solo para llegar a casa sin el artículo que más necesitabas? Me pasa, más de lo que me gustaría admitir, y estoy bastante seguro de que no estoy solo. A lo largo de mi carrera, he desarrollado algunas estrategias para alcanzar el éxito cuando surgen momentos de sobrecarga cerebral.

Hay ciertos pasos de un proceso que son difíciles de recordar cuando se realizan con poca frecuencia o cuando se aprenden por primera vez. Aquí es donde una lista o guía de referencia rápida puede salvarte la vida.

Hay numerosos pasos que recordar, mientras los recuerdas todos, los materiales de referencia son una perfecta opción. En caso de que alguien más lo necesite, quería compartir los pasos que he creado para algunos procesos comunes.

terminal — fedora Linux

Comandos comunes:

  • ~ Indica el directorio de inicio.
  • pwd Muestra el nombre de la ruta del directorio actual.
  • cd Cambio de directorio.
  • mkdir Crear un nuevo directorio / carpeta de archivos.
  • touch Hacer un archivo nuevo.
  • .. Subir un nivel / directorio.
  • cd ~ Regresar al directorio de inicio.
  • clear Borra la información en la pantalla de visualización para proporcionar una pizarra en blanco.
  • ls La lista proporciona una lista de todos los archivos con un directorio.
  • ls -l Muestra una lista larga verticalmente con permisos de archivo, fecha de modificación y nombre de archivo.
  • ls -la Muestra todos los archivos.

Gracias por llegar hasta aquí.

Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

Arnulfo Reyes

Entrevista de trabajo de científico de datos. (1/3)

José Arnulfo R. H.
alrededor de 1 año
 

Cosas que debes evitar en tu próxima entrevista.

Durante mi participación en entrevistas para científico de datos, he experimentado una variedad de escenarios que han exhibido algunas cosas que usted estimado lector debería tener y otras que no deberían tener si estas interesado en aplicar a entrevistas de científico de datos.

En estas tres publicaciones, discutiremos qué evitar en su próxima entrevista de ciencia de datos (ciertos puntos se puede aplicar a entrevistas que no sean de ciencia de datos).

Photo by Lukas Blazek on Unsplash

A continuación, daré los principales ejemplos que son cosas que debes evitar en tu entrevista, así como qué hacer en su lugar.

Finge saber la respuesta

Una posible razón para fingir saber la respuesta es el miedo al rechazo. Sin embargo, lo contrario es realmente apreciado, es cuando intentas dar una respuesta de acuerdo a lo que realmente sabes. Si dices que simplemente no lo sabes, puede ser una sorpresa para algunos, pero prefiero que alguien diga que no sabe algo que mentir o darle vueltas a la respuesta.

Realmente está bien no saberlo todo y algunos entrevistadores pueden estar simplemente midiendo su conocimiento no para cuestionarlo, sino para saber qué necesitan y de esa manera enseñarle a seguir adelante.

Photo by Sam McGhee on Unsplash

Además, es bueno saber que ha sido completamente honesto y directo en su entrevista, de modo que cuando llegue el momento en que consiga el trabajo, todas las expectativas se establezcan en su base de conocimientos.

Si demuestra que puede mentir ahora, o fingir ahora, y alguien se entera más tarde, eso podría dejar un mal gusto para el trabajo futuro.

Que no hacer:
  • Mentir o fingir el conocer un tema.
Que debes decir:
  • Puede decir que si sabe esta parte, pero el resto no.
  • Esto es lo que haría cuando no sé la respuesta en un entorno profesional.

En general, encuentro más sincero escuchar a alguien decir: no lo sé.

No creo que sea justo que una persona lo sepa todo. Por supuesto, existe un límite para la cantidad de “yo no sé” , pero en el mundo de la ciencia de datos, hay tanta superposición entre el análisis de datos, la ingeniería de datos, la ingeniería de software, el aprendizaje automático y la ciencia de datos en sí misma que simplemente está bien decir: No conozco todos los conceptos, bibliotecas o habilidades.

Nota: esta podría ser solo mi preferencia, pero creo que la honestidad y la transparencia pueden ser de gran ayuda y es algo en lo que creo que todos estamos siempre trabajando.

Gracias por llegar hasta aquí.

Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

Arnulfo Reyes

Eres un experto

José Arnulfo R. H.
alrededor de 1 año
 

Si cree que no es un experto en algo, probablemente estas equivocado.

Un concepto simple puede convencerlo: yo lo llamo la escalera de la experiencia.

Photo by Khachik Simonian on Unsplash

Muchos ven a los expertos como algo totalmente separado de los novatos. Algo así como dioses flotando en las nubes. Son los únicos aptos para enseñar.

En cambio, propongo ver la experiencia como una escalera: en cada escalón, hay personas arriba y abajo. Experiencia como un continuo.

Aquellos a quienes inicialmente identifica como expertos eventualmente se vuelven iguales. Más tarde, pueden convertirse en tus alumnos.

En cualquier momento, hay novatos justo debajo de ti. Muchos están ansiosos por seguir tus pasos.

Los desafíos que ha superado recientemente se sienten simples, en retrospectiva. Pero antes no parecían así.

Comparta su experiencia con el mundo , sin importar dónde se encuentre en la escalera. Puede ser mucho más útil para los demás de lo que cree.

Gracias por llegar hasta aquí.

Recibo con mucho agrado los comentarios y las críticas constructivas.

Si gustas puedes seguirme en mis redes sociales en Instagram @arnulfo o LinkedIn.

Arnulfo Reyes

Jupyter Nootebook en Fedora

José Arnulfo R. H.
alrededor de 1 año
 

miniconda — anaconda

Documento esto para que en el futuro no tenga que pasar un día entero averiguando cómo instalar jupyter notebook en linux. Tal vez, esto será útil para cualquiera que busque en Internet.

Originalmente iba a publicar esto en Twitter, pero decidí que esto vale su publicación.

Instalación en Linux

Installing on Linux - conda 4.10.3.post47+e6936a3d documentation

  1. Descarga el instalador:
  2. Verifica los hashes de tu instalador .
  3. En la ventana de su terminal, ejecute:
bash Miniconda3-latest-Linux-x86_64.sh
bash Anaconda-latest-Linux-x86_64.sh

4. Siga las indicaciones en las pantallas del instalador.

5. Para que los cambios surtan efecto, cierre y vuelva a abrir la ventana de su terminal.

6. Pruebe su instalación. En la ventana de su terminal o Anaconda, ejecute el comando . Aparece una lista de paquetes instalados si se ha instalado correctamente.

conda list

Luego en su terminal:

source ~/anaconda3/bin/activate root
anaconda-navigator