Los diferentes cheatsheets están agrupados por área de trabajo a las que pertenece la librería: Basics, Databases, Data Manipulation, Data Visualization, Analysis, Machine Learning, Deep Learning y NLP.
Basics
Para comenzar con Data Science necesitamos conocer al menos 2 librerías básicas para el trabajo con datos: Python y NumPy. Son dos librerías que se utilizan durante todo el proceso. La tercera librería, Scipy, es una herramienta matemática para cálculos más complejos que NumPy.
Python basics
Nivel: Beginner - Intermediate
Área: Basic
Descripción: Python es la librería base sobre la que se desarrolla la metodología de Data Science. La forma de enfocar y estructurar el proyecto viene heredada de la forma de trabajar con Python.
Fuente: DataQuest
NumPy basics
Nivel: Beginner - Intermediate
Área: Basic
Descripción: NumPy es la librería matemática de Python por excelencia (su nombre deriva de Numerical Python). Permite un trabajo más eficiente con vectores y matrices.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf
Fuente: DataCamp
SciPy
Nivel: Advanced
Área: Basics
Descripción: SciPy es una librería desarrollada sobre NumPy y está enfocada en cálculos numéricos más complejos, más relacionados con computación científica.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_SciPy_Cheat_Sheet_Linear_Algebra.pdf
Fuente: DataCamp
Database
Los datos pueden estar almacenados en sets o en ocasiones, en bases de datos relacionales o no relacionales, que se importan al espacio en el que se desarrolla el trabajo.
SQL
Nivel: Beginner - Intermediate
Área: bases de datos relacionales
Descripción: las bases de datos relacionales conforman una estructura de tablas que están separadas para almacenar de forma más eficiente los datos y que se relacionan a través de claves. SQL es el mejor lenguaje para realizar todas las consultas a estas tablas, por su versatilidad.
Cheatsheet: https://www.sqltutorial.org/sql-cheat-sheet/
Fuente: sqltutorial
MongoDB
Nivel: Beginner - Intermediate
Área: bases de datos no relacionales
Descripción: el uso de bases de datos no relacionales es cada vez mayor, sobre todo con el incremento de compañías y aplicaciones de Big Data ya que permite superar las barreras de la estructura de datos que suponen las bases de datos relacionales. MongoDB es líder en bases de datos distribuidas.
Cheatsheet: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf
Fuente: codecentric
Data Manipulation
Antes de comenzar el análisis de datos, es necesario organizar la información que contiene el set de forma que sea más fácil realizar las operaciones necesarias en la línea del análisis. A este proceso se le conoce como Data Manipulation.
Pandas
Nivel: Beginner - Intermediate
Área: Data Manipulation
Descripción: pandas es la librería por excelencia para el tratamiento de datos en formato DataFrame, es decir, permite conocer los registros, operar con los datos, agregarlos y organizarlos de forma que nos faciliten el análisis. Este cheat sheet te muestra los pasos esenciales con la librería.
Cheatsheet: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3
Fuente: DataCamp
Data Wrangling
Nivel: Beginner - Intermediate
Área: Data Manipulation
Descripción: previo al análisis es necesario limpiar el DataFrame y organizar los datos ya que en algunas ocasiones encontramos registros duplicados, nulos o no válidos. A todo el procedimiento para limpiar el DataFrame de forma que sea usable para nuestro análisis, se le conoce como Data Cleaning o Data Wrangling.
Cheatsheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
Fuente: pandas
Data Visualization
La visualización de datos es la representación gráfica de los datos y especialmente importante para realizar un análisis o para mostrar los resultados del mismo, ayudando a entender las tendencias, outliers y patrones de los datos.
Matplotlib
Nivel: Begginer
Área: Data Visualization
Descripción: matplotlib es la primera librería que se desarrolló para visualización y exploración con Python. Tiene un amplio abanico de posibilidades para dibujar gráficos y personalizarlos, desde lo más fácil hasta lo más complejo.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Fuente: DataCamp
Seaborn
Nivel: Intermediate
Área: Data Visualization
Descripción: Seaborn es una librería de un nivel más avanzado que matplotlib y que se desarrolló para facilitar el análisis estadístico de datos directamente sobre gráficos.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf
Fuente: DataCamp
Folium
Nivel: Intermediate
Área: Data Visualization
Descripción: Dentro de la visualización, los mapas son un tipo de representación muy útil para reflejar posiciones geoespaciales y distancias. Folium es una librería que permite reflejar en un mapa los datos de un dataset de forma fácil, creando una representación como mapbox u OpenStreetMap y añadiendo sobre ella las capas de datos a visualizar como markers o heatmap.
Fuente: AndrewChallis
Machine Learning
Los algoritmos de Machine Learning permiten realizar predicciones en base a los datos de los que se disponen. Dependiendo del tipo de dato, el algoritmo es de regresión o de clasificación. Los procedimientos pueden ser supervisados o sin supervisar, en función de si el entrenamiento del modelo de aprendizaje se hace con datos etiquetados, o sin ellos, lo que se conoce “ground truth”.
Scikit-Learn
Nivel: Advanced
Área: Machine Learning
Descripción: Scikit-Learn es una librería desarrollada sobre Scipy, diseñada para el modelado de datos: clusterización, feature manipulation, detección de outliers, selección de modelos y validación de los mismos. Destaca por su robustez y por la sencillez para integrarla con otras librerías de Python.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
Fuente: DataCamp
Deep Learning
Dentro de Machine Learning hay un área específica conocido como Deep Learning en el que se hace uso de redes neuronales artificiales para la predicción
Keras
Nivel: Advanced
Área: Deep Leaning
Descripción: Keras es una librería para Python, que se ejecuta sobre CNTK, TensorFlow y Theano, que permite la generación y evaluación de modelos de redes neuronales.
Fuente: DataCamp
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf
Tensorflow
Nivel: Advanced
Área: Deep Learning
Descripción: Es una librería de deep learning de segunda generación desarrollada por Google. Permite crear modelos haciendo uso de una API con un nivel de abstracción inferior o superior, definiendo operaciones matemáticas o redes neuronales, según se prefiera.
Fuente: Altoros
Cheatsheet: https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png
PyTorch
Nivel: Advanced
Área: Deep Learning
Descripción: PyTorch es la librería de deep learning desarrollada por Facebook. Es una de las más recientes y dispone de una interfaz para el trabajo con tensores, siendo más asequible que TensorFlow o Keras.
Fuente: PyTorch
Cheatsheet: https://pytorch.org/tutorials/beginner/ptcheat.html
Natural Language Processing
Dentro de Data Science, el análisis del lenguaje cobra cada vez más importancia y se han desarrollado algoritmos de análisis que permiten el análisis de texto.
NLTK
Nivel: Beginner - Intermediate
Área: NLP
Descripción: NLTK es una de las primeras librerías que se desarrollaron para análisis de lenguaje natural y permite operaciones como tokenización, stemming (análisis de lexema), contador de caracteres o palabras, para comprender el texto que se analiza.
Fuente: Cheatography
Cheatsheet: https://cheatography.com/murenei/cheat-sheets/natural-language-processing-with-python-and-nltk/
spaCy
Nivel: Advanced
Área: NLP
Descripción: spaCy es una librería de procesamiento de lenguaje que permite el análisis de textos a diferentes niveles: NER (name entity recognition), parser (análisis sintáctico) o similarity, desde un modelo entrenado en un idioma. Además, también permite crear modelos desde cero y entrenarlos con tus propios ejemplos para detectar las entidades que definas.
Fuente: DataCamp
Cheatsheet: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06
En estas cheat sheets tienes recogidas las funciones y métodos más útiles de cada librería, para facilitarte el día a día desarrollando. Happy Coding!