Jorge Cano Nistal, PhD Student

Bioinformática, cáncer, genética y otras cosas!
Doctorando en Bioinformática en Technion - Israel Institute of Technology.
Friki, aporreador de guitarra en los ratos libres!

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-12-14

Hoy tocan conferencias de genómica de cáncer y biología computacional. Último empujón y mañana más.

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-29

#bioinformatics #bash #OneLineCodeOfTheDay

[ESP] Extraer de un archivo comprimido de variantes genómicas (vcf.gz) las variantes validadas y guardarlas en formato TSV.

[ENG] Extracting validated variants from a compressed variant called format file (vcf.gz) and saving them as a TSV file.

zcat input.vcf.gz | cut -f-11 | grep "PASS" > output.tsv

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-24

@anip in terms of full pipelines I agree with you.
I mean routine commands like connecting to a cluster online (so you don't need to write the full cluster address each time).
In my case I also have aliases to go to specific folders with one short command, I have 'la' as an alias for 'ls -alt', 'lh' for 'ls -lh'...

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-24

#bioinformatics #bash #linux #datascience

[ESP] A veces usas mucho un mismo comando largo en Linux. En esos casos puedes añadirlo como alias a tu archivo .bash_profile generando un 'shortcut' customizado.

[ENG] When you use a long Linux bash command frequently, a good advice is customising your .bash_profile file with an alias to create a shortcut command for it.

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

@hypergeometric2f1
Generación de los números pseudoaleatorios en el intervalo de temperaturas de 11ºC a 18ºC.

vector = numpy.random.random(size=11)
(para generar valores entre 0 y 1)

Pasar del intervalo [0,1) al intervalo [a,b)
(b-a)*vector + a

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

@hypergeometric2f1 si he generado datos pseudoaleatorios (concretamente un vector de 11 temperaturas) es porque este hilo no es un hilo sobre el cambio climático.

Es un hilo sobre maneras de sugestionar al público variando la forma de mostrar el mismo conjunto de datos.

Para que sea sencillo y visual, preferí utilizar 11 valores pseudoaleatorios, en lugar de un set de datos con miles de mediciones.

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Hasta aquí el HILO 🧵 !!!

Dale like, retoot y sígueme si quieres más hilos como este!

Compartirlo sale gratis 😀

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Llamadme loco pero en ese gráfico se ve muy rápido la tendencia del incremento de la temperatura a lo largo de los años, a pesar de las fluctuaciones anuales.

Y me dirás: pero es que el gráfico no es tan vistoso para el clickbait.

Correcto! Por eso es raro ver este tipo de gráficos tan "solemnes" en publicaciones periodísticas. No da clicks 😂

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Qué queremos mostrar: la variación de la temperatura a lo largo de una serie de años y mostrar al mismo tiempo la temperatura media.

¿Cómo mostrarlo?
Vamos a mostrar la variación respecto de la temperatura media, en lugar de mostrar las temperaturas directamente.

De este modo, podemos ver la evolución de la variación a lo largo de los años y la cantidad del cambio anual de un vistazo!

Cero colorines, cero categorías inventadas.

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Debido a esto, mi opinión profesional es que no hacen falta colores llamativos, ni "exagerar" o "maquillar" los ejes o las categorías para comunicar de manera correcta a partir de gráficos.

Simplemente hay que buscar el gráfico que de forma más simple comunique lo que pretendemos mostrar.

¿Cómo se hace eso con este ejemplo?

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Otro "truco" consiste en inventarse categorías subjetivas que inviten al lector a exagerar la diferencia de la variación.

No todo el maquillaje es para disimular, también hay maquillaje para exagerar.

Como en este ejemplo:

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Vamos ahora con un ejemplo de cómo debería verse este tipo de gráfico para no incentivar que el lector piense:
"Ah, pues tampoco es que haya subido mucho la temperatura"

¿A que cambia la cosa?

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Truco: Incrementar el rango de representación del eje de ordenadas (eje y) para minimizar la percepción visual de las variaciones.

Resultado:

Histograma en el que el valor mínimo del eje de ordenadas es 0 grados Celsius a pesar de que el valor mínimo de temperatura del set de datos ronda los 12 grados Celsius.
Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

Contexto: imaginemos que tenemos datos de temperaturas medias anuales en algún país.

¿De cuántas maneras creéis que puede representarse ese par de datos y cómo cambia la percepción del lector?

EXACTO! De muchas. Se puede sugestionar la interpretación de datos de varias maneras.

Aquí van algunos ejemplos.

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

En primer lugar, indicar que los "datos" usados para realizar las gráficas han sido obtenidos mediante generación de números pseudoaleatorios.

Así que no son datos reales sobre temperaturas, simplemente están generados para ejemplificar cómo se pueden manipular las gráficas para sugestionar de una u otra manera al público general.

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

¿Alguna vez te has preguntado por qué es tan importante la forma en la que nos presentan gráficamente los datos en artículos periodísticos o artículos de divulgación para el público general?

Sí la respuesta es sí, este hilo es para ti:

ABRO PRIMER HILO 🧵 EN MASTODON!
#DataScience #scicomm #divulgacion #ciencia

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-21

#bioinformatics #bash #OneLineCodeOfTheDay

[ESP] Obtener la información de un archivo tipo BAM con el genoma completo en regiones específicas almacenadas en un archivo tipo BED

[ENG] Getting a BAM file with region based information specified through a BED file from a WGS BAM file.

samtools view -b -h -L regions.bed input.bam > output.bam

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-20

[ESP] ¿Os apetece un hilo sobre porqué es tan importante representar correctamente los datos en los gráficos y cómo se puede alterar la percepción de los lectores cambiando parámetros de visualización?

[ENG] Would you like a thread about why is so important to plot data accurately and how can that alter the perception of readers by modifying data visualisation parameters?

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-20

#bioinformatics #python #OneLineCodeOfTheDay

[ESP] Obtener los elementos comunes entre columnas de distintos dataframes (1 columna por dataframe, nombrada N).

[ENG] Finding common elements in multiple dataframes (1 column per dataframe, named N).

import pandas as pd
from functools import reduce

result = list(reduce(set.intersection, map(set, [df1.N, df2.N, df3.N])

Jorge Cano Nistal, PhD Studentjorgecano_sci@mastodon.world
2022-11-19

#bioinformatics #python #datascience #programmingjokes

[ESP] Resumen de las frases que uso con más frecuencia:
[ENG] Summary of the most often used sentences:

import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst