Portfolio de Felo - Similitud y Distancias

Desentrañando la Proximidad entre Vectores: Guía Esencial de Distancias y Similitudes en Data Science

Por Jose Badino - 27 de Junio 2025 - Bajar PDF con Resumen de Fórmulas - Bajar Tabla con Detalle de Distancias

Introducción

En la ciencia de datos, a menudo nos encontramos con la necesidad de medir cuán "parecidos" o "diferentes" son dos elementos. Ya sea para agrupar clientes con patrones de compra similares, recomendar películas basándose en gustos compartidos, o clasificar documentos por su contenido, la capacidad de cuantificar la proximidad es fundamental. Aquí es donde entran en juego las distancias y similitudes.

Pero, ¿qué significa realmente que dos cosas sean "similares" en el contexto de los datos? Generalmente, en ciencia de datos, estos "elementos" son representados como vectores en un espacio multidimensional. Cada dimensión del vector corresponde a una característica o atributo de nuestro elemento. Por ejemplo, si estamos comparando dos canciones, sus vectores podrían contener valores para el tempo, el tono, la duración, el género, etc.

Conceptos de Similitud o Similaridad y Distancia

La similitud (o similaridad) entre vectores es una medida de cuán parecidos son dos vectores. Un valor alto de similitud indica que los vectores son muy parecidos, mientras que un valor bajo indica que son muy diferentes. Por otro lado, la distancia es lo opuesto: mide cuán lejos están dos vectores entre sí. Una distancia pequeña sugiere que son muy parecidos, y una distancia grande indica que son muy diferentes. Ambas son caras de la misma moneda y, a menudo, una puede derivarse de la otra.

A continuación, exploraremos algunas de las distancias y similitudes más comunes y poderosas utilizadas en la ciencia de datos, analizando sus definiciones, sus pros y contras, y en qué escenarios brillan.

Tipos de Distancias y Similitudes

1. Distancia Euclidiana (L2)

La Distancia Euclidiana es, quizás, la medida de distancia más intuitiva y ampliamente conocida. En un plano 2D, la Distancia Euclidiana es simplemente la longitud de la línea recta que los conecta. En un espacio multidimensional, es una extensión de este concepto.

Definición: Sean dos vectores A y B de la forma:

Donde n es el número de dimensiones, la Distancia Euclidiana (L2) se calcula como:

Veamos un ejemplo sencillo de este calculo: Tenemos dos vectores, uno que representa a las fresas y otro que representa a los arándanos.

fresa → [4, 0, 1].
arándano → [3, 0, 1].

Entonces, segun la formula anterior:

La Distancia Euclidiana entre la fresa y el arándano es igual a 1.

Pros:

Intuitiva y fácil de entender: Se basa en nuestra comprensión del espacio físico.
Amplio uso: Es el estándar en muchos algoritmos de machine learning (Ejemplo: K-Means y K-NN).
Trabajar con variables continuas o características: Donde el concepto de distancia en línea recta es significativo.
Sensible a la magnitud: Considera la diferencia absoluta entre los valores de las características.
Funcionamiento coherente en espacios de menor dimensionalidad.

Contras:

Sensible a la escala de las variables continuas o características: Las características con rangos de valores más grandes pueden dominar la distancia, a menos que los datos estén normalizados.
Afectada por la "maldición de la dimensionalidad": En espacios de muy alta dimensionalidad, la distancia entre todos los puntos tiende a converger, perdiendo su utilidad discriminatoria.
No es robusta a outliers (valores atípicos): Unos pocos valores atípicos pueden distorsionar significativamente la distancia.

Casos de uso:

Clustering (Agrupamiento): K-Means.
Clasificación: K-Vecinos Más Cercanos (K-NN).
Sistemas de Recomendación: En escenarios donde las características numéricas tienen un significado directo de magnitud (Ejemplo: calificaciones de usuarios).
Visión por computadora: Comparación de características de imágenes.

2. Distancia Manhattan (L1 o Taxicab)

El nombre proviene del trazado cuadriculado que se asemeja a las calles de Manhattan. Si intentas ir del punto A al punto B, el camino más corto no es directo, ya que no puedes atravesar edificios. y solo puedes moverte por calles perpendiculares. La distancia Manhattan es la suma de las distancias absolutas a lo largo de cada dimensión. La ruta más rápida es la que tiene menos curvas (La ruta verde mostrada en la imagen debajo es la mas rápida).

Definición: Sean dos vectores A y B de la forma:

Donde n es el número de dimensiones, la Distancia Manhattan se calcula como:

Pros:

Más robusta a outliers que la euclidiana: Dado que no eleva al cuadrado las diferencias, los valores atípicos tienen un impacto lineal, no cuadrático.

Menos afectada por la "maldición de la dimensionalidad": Aunque sigue siendo un desafío, puede ser ligeramente más efectiva en alta dimensionalidad que la euclidiana.
Útil cuando el camino importa: En situaciones donde el "camino" entre puntos es más relevante que la línea recta.

Contras:

No es tan intuitiva geométricamente como la euclidiana.
Sensible a la escala de las características: Al igual que la euclidiana, se ve afectada por la escala de las variables.

Casos de uso:

Optimización de rutas: Planificación de rutas para vehículos en redes de calles.
Bioinformática: Comparación de secuencias de ADN donde cada diferencia es igualmente importante.
Reconocimiento de patrones: Cuando se necesitan diferencias acumulativas entre características.
Machine Learning: A veces se prefiere en los algoritmos K-NN o K-Means cuando se necesita más robustez a outliers.

3. Distancia de Minkowski

La Distancia de Minkowski es una generalización de las distancias Euclidiana y Manhattan. Introduce un parámetro p, que permite cambiar la forma en que se miden las diferencias.

Definición: Para dos vectores A y B de la forma:

La Distancia de Minkowski se calcula como:

Interpretación geométrica:

Cuando p=1, es la Distancia Manhattan.
Cuando p=2, es la Distancia Euclidiana.
Cuando p→∞, se convierte en la Distancia de Chebichev.

La Distancia de Minkowski tambien tiene su implementación en la librería SciPy de Python en el modulo Spatial (Link)

Pros:

Flexibilidad: Permite ajustar la sensibilidad a las diferencias grandes en las dimensiones.
Generalización: Engloba otras distancias comunes.

Contras:

Elección del parámetro p: Requiere la selección adecuada del valor de p, lo que puede ser un desafío.
Hereda los problemas de sus casos especiales: Sensibilidad a la escala y la maldición de la dimensionalidad.

Casos de uso:

Algoritmos de agrupación y clasificación: Cuando se busca una métrica de distancia flexible.
Experimentación: Permite explorar diferentes formas de medir la distancia sin cambiar fundamentalmente el algoritmo.

4. Distancia de Chebichev (o Chebyshev o L-infinito)

La Distancia de Chebichev es un caso especial de la Distancia de Minkowski donde p→∞. Mide la máxima diferencia absoluta entre cualquiera de las dimensiones de dos vectores. Es como moverse en un tablero de ajedrez donde el "rey" solo puede moverse un paso en cualquier dirección (horizontal, vertical o diagonal). Cabe destacar que la librería Scipy de Python en el modulo Spatial tiene ya implementada la distancia de Chevichev (link a su documentación).

Definición: Para dos vectores A y B de la forma:

La Distancia de Chebichev se calcula como:

Interpretación geométrica:

La Distancia de Chebichev enfatiza el cambio máximo en cualquier dirección de coordenada, que es fundamental en escenarios en los que el movimiento no está restringido a rutas horizontales o verticales, sino que incluye cualquier línea directa.

Considerando dos puntos en un espacio bi-dimensional:

A (1, 1) y
B (4, 5).

Para encontrar la Distancia de Chebichev entre estos dos puntos, nos centramos en la diferencia máxima a lo largo de cualquier eje de coordenadas. Entonces,

La diferencia a lo largo del eje X: | 4 - 1 | = 3
La diferencia a lo largo del eje Y: | 5 - 1 | = 4

Por lo tanto, la Distancia de Chebichev = Max (3, 4) = 4.

En la imagen siguiente se muestran estos puntos en una cuadricula, destacando el área que cae dentro de una Distancia de Chebichev de 4 desde el punto A. El área sombreada amarilla muestra todas las posiciones que se pueden acumular dentro de esta métrica de distancia.

A continuación se muestra la interpretación de esta distancia con el tablero de ajedrez y el movimiento de un rey.

En la imagen de arriba se puede ver porque se llama a esta distancia la distancia del tablero de ajedrez. Esto es porque la Distancia de Chebichev entre dos cuadrados es equivalente a la cantidad de movimientos de rey requeridos para ir de un cuadrado a otro. En la imagen, cada escaque del tablero contiene el número que representa esta distancia, partiendo de la posición del rey a cualquier otro escaque del tablero.

Pros:

Sensible a la mayor diferencia: Identifica rápidamente si hay una diferencia muy grande en una sola característica.
Robusta a pequeños errores: Los errores pequeños en muchas dimensiones no aumentan drásticamente la distancia si no hay una diferencia dominante.
Útil en diseño de juegos: Es común su uso en juegos de estrategia y todo tipo de juegos que estén basados en una grilla, como el ajedrez.
Busqueda de Caminos: Frecuentemente usada en para encontrar caminos en la robótica y la IA. También aplicable a mapas de cuadriculas.

Contras:

Ignora diferencias en otras dimensiones: Solo se centra en la máxima diferencia, lo que puede pasar por alto patrones en otras características.
No es adecuada cuando todas las dimensiones importan por igual.

Casos de uso:

Robótica e IA: Es relevante en los algoritmos de caminos utilizados en robótica e inteligencia artificial, donde el objetivo es encontrar el camino más eficiente entre los puntos en una grilla.
Procesamiento de imágenes: Aquí la Distancia de Chebichev se usa en operaciones basadas en píxeles. Ayuda a definir vecindarios alrededor de un píxel para varias transformaciones y filtros. Esto a menudo se usa en tareas como la detección de bordes o el reconocimiento de patrones. La capacidad de considerar píxeles diagonales tan fácilmente como los horizontales o verticales hace que esta distancia sea particularmente útil en estas aplicaciones.
Sistemas de información geográfica (GIS): Se usa la Distancia de Chebichev para calcular el número mínimo de movimientos requeridos entre dos puntos en un mapa de la cuadrícula. Esto es valioso para optimizar la planificación de rutas de emergencia en ciudades con diseños de calles en forma de red o planificar rutas de transporte público eficientes. En estos escenarios, la Distancia de Chebichev puede proporcionar una estimación rápida del tiempo de viaje o la distancia en entornos donde es posible el movimiento diagonal.
Machine Learning y Data Science: Esta distancia encuentra aplicaciones en ciertos algoritmos de agrupación o sistemas de detección de anomalías. Es particularmente útil en escenarios en los que la diferencia máxima a lo largo de cualquier dimensión es más importante que la diferencia general. Por ejemplo, en la detección de anomalías, un punto de datos que se desvía significativamente en una sola característica podría considerarse una anomalía, independientemente de sus valores en otras dimensiones.
Diseño de circuitos: Tolerancia de errores.
Control de calidad: Identificar el componente con la mayor desviación.
Juegos: Cálculo de distancias en tableros como el ajedrez y juegos basados en una grilla como los juegos de estrategia.

5. Similitud del Coseno y Distancia del Coseno

La Similitud del Coseno mide el coseno del ángulo entre dos vectores. Cuanto más pequeño es el ángulo, mayor es el coseno y, por lo tanto, mayor la similitud. Es especialmente útil cuando la magnitud de los vectores no es tan importante como su dirección.

Definición: Para dos vectores A y B, la Similitud del Coseno se calcula como:

Donde:

A.B es el producto escalar o "producto punto" entre los vectores A y B. (La librería Numpy tiene una formula muy eficiente para calcular el producto punto).
||A|| y ||B|| son las normas (o magnitudes) de los vectores A y B respectivamente. (La librería Numpy posee un calculo de la norma de un vector muy eficiente y es el que se recomienda usar).
La Similitud va a oscilar entre los valores -1 y 1.

Para calcular la distancia coseno, se utiliza el producto escalar o "producto punto". Asimismo, el producto escalar utiliza la distancia coseno para obtener el ángulo de los dos vectores. Quizás te preguntes cuál es la diferencia entre estas dos métricas. La Distancia del Coseno indica el ángulo, mientras que el producto escalar indica el ángulo y la magnitud. Si normalizas los datos, la magnitud deja de ser observable. Por lo tanto, si los datos están normalizados, las métricas coseno y producto escalar son exactamente las mismas.

Por lo tanto, si dos vectores tienen un ángulo de:

0º: tienen exactamente la misma orientación y su coseno toma el valor de 1, o sea, los vectores están perfectamente alineados indicando máxima similitud.
90º: son perpendiculares y su coseno es 0, indican ortogonalidad.
180º: tienen orientaciones opuestas y su coseno es de -1. implica que son diametralmente opuestos, lo que refleja máxima disimilitud.

La Distancia del Coseno se deriva directamente de la Similitud:

Con esta fórmula se cuantifica la Distancia del Coseno con un rango de 0 a 2.

Distancia del Coseno = 0 significa que los vectores están perfectamente alineados (sin ángulo entre ellos), lo que indica máxima similitud,
Distancia del Coseno = 2 sugiere que los vectores son diametralmente opuestos, lo que indica máxima disimilitud.

El lector puede ver que la Distancia del Coseno tiene su implementación en la librería SciPy de Python en su modulo Spatial. (link)

Veamos un ejemplo: queremos calcular la similitud entre dos frutas: fresas (vector A) y arándanos (vector B). Como nuestros datos ya están representados como vector, podemos calcular la distancia.

A = Fresa → [4, 0, 1]
B = Arándano → [3, 0, 1]

Entonces, siguiendo las fórmulas anteriores:

La similitud entre ambos vectores es de 0,998 y la distancia es de 0,002. Esto significa que las fresas y los arándanos están estrechamente relacionados y por lo tanto, son muy compatibles entre sí (para este caso).

Pros:

Independiente de la magnitud: Solo considera la orientación de los vectores, ignorando si un documento es más largo que otro o si un usuario ha dado más calificaciones que otro. Esto lo convierte en una medida robusta de similitud, especialmente en espacios de alta dimensión
Efectiva en alta dimensionalidad: Menos susceptible a la "maldición de la dimensionalidad" en comparación con las distancias euclidianas.
Ideal para datos dispersos: Muy utilizada en Procesamiento de Lenguaje Natural (NLP) y Sistemas de Recomendación.
Fácil y rápido de implementar: Python, al ser un lenguaje de programación con un amplio conjunto de bibliotecas como Scikit-learn o Numpy proporciona a los analistas de datos y a los entusiastas del aprendizaje automático las herramientas necesarias para calcular la Similitud y Distancia de Cosenos con facilidad.

Contras:

No considera la magnitud: Puede ser una desventaja si la magnitud es una característica importante.
Ignora las diferencias de magnitud absolutas: Dos vectores con la misma dirección pero muy diferentes magnitudes (ejemplo: vector (1,1) y (100,100)) tendrán una similitud de coseno perfecta (1.0), a pesar de ser cuantitativamente muy diferentes.
Los valores nulos pueden ser problemáticos: Requiere manejo cuidadoso de ceros.

Casos de uso:

Procesamiento del Lenguaje Natural (NLP): Medir la similitud entre documentos, palabras, frases (ejemplo: en modelos de word embedding como Word2Vec donde se convierten palabras en vectores numéricos).
Sistemas de Recomendación: Encontrar usuarios con gustos similares o items similares basándose en perfiles de calificación (Filtrado Colaborativo).
Análisis de texto: Clasificación de documentos por tema.
Análisis de sentimiento: Comparación de la polaridad de los textos.

6. Correlación de Pearson

La Correlación de Pearson mide la relación lineal entre dos variables. No es una distancia en el sentido geométrico, sino una medida de similitud que indica la fuerza y dirección de la relación lineal entre dos conjuntos de datos. Se utiliza comúnmente para determinar si dos variables tienden a moverse juntas.

Definición: Para dos vectores X e Y de la forma:

La Correlación de Pearson se calcula como:

son las medias de X e Y respectivamente.

El valor de la Correlación de Pearson varía entre -1 y 1.

Pearson = 1 indica una correlación lineal positiva perfecta.
Pearson = -1 indica una correlación lineal negativa perfecta.
Pearson = 0 indica que no hay correlación lineal.

Pros:

Detecta relaciones lineales: Ideal para entender cómo una variable cambia en relación con otra.
Independiente de la escala: La correlación no cambia si se escalan los datos.
Ampliamente utilizada y comprendida.

Contras:

Solo detecta relaciones lineales: No capturará relaciones no lineales (ejemplo: cuadráticas, exponenciales).
Sensible a outliers: Los valores atípicos pueden influir significativamente en el coeficiente.
Asume normalidad: Aunque no es un requisito estricto para calcularla, su interpretación inferencial a menudo asume que los datos están normalmente distribuidos.

Casos de uso:

Análisis Exploratorio de Datos (EDA): Para entender la relación entre diferentes características.
Selección de características: Identificar características altamente correlacionadas para reducir la dimensionalidad o evitar la multicolinealidad.
Sistemas de Recomendación: Enfoques basados en la correlación para recomendar items a usuarios.
Finanzas: Medir la relación entre precios de acciones o rendimientos de activos.

7. Correlación de Spearman

La Correlación de Spearman es una medida no paramétrica de la fuerza y dirección de la asociación entre dos variables. A diferencia de Pearson, que mide la relación lineal, Spearman mide la fuerza de la relación monótona (es decir, si una variable tiende a aumentar o disminuir a medida que la otra aumenta, sin importar si la relación es lineal). Se calcula aplicando la Correlación de Pearson a los rangos de los datos en lugar de a los datos brutos.

Definición: Se calculan los rangos de los valores de cada variable. Luego, se aplica la fórmula de la Correlación de Pearson a estos rangos.

Pros:

No paramétrica: No asume que los datos sigan una distribución particular.
Robusta a outliers: Menos sensible a valores atípicos porque utiliza rangos.
Detecta relaciones monótonas: Captura relaciones tanto lineales como no lineales que son consistentes en dirección.

Contras:

Pierde información de la magnitud: Al trabajar con rangos, se pierde la información sobre las diferencias absolutas entre los valores.
Menos poderosa que Pearson para relaciones lineales perfectas: Si la relación es perfectamente lineal, Pearson dará una correlación más fuerte.

Casos de uso:

Análisis Exploratorio de Datos (EDA): Cuando se sospecha que la relación no es estrictamente lineal.
Datos ordinales: Cuando las variables son rangos o categorías ordenadas.
Encuestas y estudios de opinión: Medir la concordancia entre las clasificaciones de diferentes personas.
Evaluación de la calidad de modelos: Para comparar las predicciones del modelo con los valores reales, especialmente cuando se trata de clasificaciones.

8. Índice Jaccard (o Distancia de Jaccard)

El Índice de Jaccard, también conocido como Coeficiente de Similitud de Jaccard, se utiliza para medir la similitud entre dos conjuntos de datos. Se define como el tamaño de la intersección dividido por el tamaño de la unión de los conjuntos de muestras.

Definición: Para dos conjuntos A y B:

Interpretación gráfica:

La Distancia de Jaccard es el complemento de la Similitud:

Interpretación gráfica: La Distancia de Jaccard se la puede interpretar como se ve en la imagen debajo.

Pros:

Ideal para datos binarios o categóricos: Especialmente cuando se trata de la presencia/ausencia de atributos.
Ignora las ausencias conjuntas: Solo considera los elementos presentes en al menos uno de los conjuntos.
Útil para conjuntos de datos dispersos.

Contras:

No considera la magnitud de las diferencias: Solo si un elemento está presente o ausente.
Sensible a la cantidad de elementos en los conjuntos: Pequeños cambios en conjuntos grandes pueden tener un impacto menor que en conjuntos pequeños.

Casos de uso:

Análisis de cestas de compra: Encontrar similitud entre los productos comprados por diferentes clientes.
Genómica y bioinformática: Comparación de secuencias de ADN o características genéticas.
Análisis de documentos: Medir la similitud entre documentos basándose en la presencia de palabras clave.
Detección de plagio: Identificar la superposición de contenido entre textos.
Sistemas de Recomendación: Enfoques basados en items para recomendar productos a usuarios.

9. Distancia de Hamming

La Distancia de Hamming es una métrica para comparar dos vectores numéricos. Calcula cuántos cambios se necesitan para convertir un vector en otro. Cuantos menos cambios se requieran, más similares serán los vectores.

Definición: Para dos cadenas A y B de igual longitud, la Distancia de Hamming es el número de posiciones donde los símbolos correspondientes son diferentes.

Hay dos maneras de implementar la Distancia de Hamming:

Comparar dos vectores numéricos.
Comparar dos vectores binarios.

Para entender como seria la implementación de esta distancia con valores numéricos supongamos el siguiente ejemplo. Imaginemos que tenemos un conjunto de datos con diversas frutas y verduras. Nuestra primera consulta es ver qué producto combina mejor con nuestros panqueques de banana. Para ello, necesitamos comparar el vector de los panqueques de banana con los demás vectores. De esta manera:

Como se ve en la tabla de arriba, los arándanos combinan mejor que el brócoli. Esto se determinó comparando la posición de los números en las representaciones vectoriales de los alimentos.

Para la implementación de vectores binarios, supongamos por ejemplo, que se tiene datos de texto que se han convertido en un vector ("Hola" -> [0.2618, 0.1175, 0.38, …]), y éste puede traducirse a una cadena de números binarios (0 o 1). Para calcular la Distancia de Hamming entre dos cadenas, se compara la posición de cada bit en la secuencia. Esto se hace con una operación de bits XOR. XOR significa "o exclusivo", lo que significa que si los bits de la secuencia no coinciden, el resultado es 1. Luego, en la salida de este XOR, la cantidad de 1's representa la Distancia de Hamming entre los dos vectores. Tenga en cuenta que las cadenas deben tener la misma longitud para realizar la comparación. A continuación, se muestra un ejemplo de comparación de dos secuencias binarias.

Como se ve en la imagen hay tres posiciones donde los números son diferentes (resaltadas en verde). Por lo tanto, la Distancia de Hamming es igual a 3.

Pros:

Simple y eficiente de calcular.
Ideal para datos categóricos binarios: Cuando solo importa la igualdad o desigualdad de los atributos.
Útil para detección de errores: En códigos binarios, por ejemplo.
Almacenado de vectores binarios: El almacenamiento de vectores binarios es muy eficiente y rápido. Ademas, al estar los datos en binario se permite que el almacenamiento de los mismos sea masivo. En estos casos, es de extrema utilidad la Distancia de Hamming.

Contras:

Solo aplicable a secuencias de igual longitud.
No considera la magnitud de las diferencias: Solo si son diferentes o iguales.

Casos de uso:

Teoría de la información y codificación: Detección y corrección de errores en transmisiones de datos.
Bioinformática: Comparación de secuencias de ADN (si se consideran como cadenas de caracteres binarias).
Análisis de datos binarios: Comparación de atributos booleanos.

10. Distancia de Haversine

La Distancia de Haversine es una fórmula para calcular la distancia de gran círculo entre dos puntos en una esfera dada sus longitudes y latitudes. Es crucial para aplicaciones geográficas.

Definición: Para dos puntos con latitud y longitud, respectivamente representadas como:

Donde R es el radio de la Tierra (aproximadamente 6371 km).

Interpretacion geometrica:

Pros:

Precisa para distancias geográficas: Tiene en cuenta la curvatura de la Tierra.
Amplio uso en aplicaciones de ubicación.

Contras:

Más compleja de calcular que las distancias cartesianas.
Asume una Tierra esférica perfecta: Ignora las pequeñas irregularidades geoides, aunque para la mayoría de los propósitos es lo suficientemente precisa.

Casos de uso:

Sistemas de navegación y GPS: Cálculo de distancias entre ubicaciones.
Aplicaciones de mapas: Calcular distancias entre puntos de interés.
Logística y transporte: Optimización de rutas.
Servicios basados en la ubicación: Encontrar puntos de venta cercanos, etc.

11. Coeficiente de Sorensen-Dice (o Dice Similarity)

El Coeficiente de Sorensen-Dice es otra medida de similitud entre conjuntos, muy similar al Índice de Jaccard. Es especialmente popular en visión por computadora para evaluar la superposición entre dos segmentos de una imagen.

Definición: Para dos conjuntos A y B:

Interpretación gráfica:

Pros:

Valora la superposición: La similitud se duplica en comparación con Jaccard si la intersección es grande.
Útil en segmentación de imágenes: Para comparar un resultado de segmentación con una verdad fundamental.
Menos sensible a outliers de bajo volumen: En comparación con Jaccard, si uno de los conjuntos es muy pequeño, Dice puede ser más estable.

Contras:

Similar a Jaccard en sus limitaciones: No considera la magnitud, solo presencia/ausencia.
Puede ser más sensible a los tamaños relativos de los conjuntos: Si un conjunto es mucho más grande que el otro, puede influir más en la métrica.

Casos de uso:

Visión por computadora: Evaluación de la segmentación de imágenes (dice score).
Bioinformática: Comparación de secuencias o perfiles genéticos.
Análisis de texto: Similitud entre documentos (basado en la presencia de términos).
Ecología: Medir la similitud entre la composición de especies en diferentes sitios.

Resumen

A modo de resumen se presenta la siguiente tabla con las distancias antes mencionadas:

Conclusión

A medida que avanzamos hacia la toma de decisiones basada en datos, la capacidad de medir e interpretar la similitud se vuelve más crucial que nunca. La elección de la distancia o similitud adecuada es una decisión crucial en cualquier proyecto de Data Science. Depende en gran medida de la naturaleza de tus datos, el problema que intentas resolver y las características que deseas que tu métrica (o distancia) enfatice o ignore. Al comprender las fortalezas y debilidades de cada una, nos da una mejor idea a la hora de extraer información valiosa y construir modelos más robustos y significativos.

Bibliografía

[MemGraph - Tutorials] - Understanding Cosine Similarity in Python with Scikit-Learn - Katarina Supe - Junio 2023 - Link.
[Weaviate Blog Page] - Distance Metrics in Vector Search - Erika Cardenas - Agosto 2023 - Link.
[Medium Post] - How to Implement Cosine Similarity in Python - Phil Miesle - Noviembre 2023 - Link.
[Keep Coding Page] - Similitud Entre Vectores o Cosine Similarity - Sandra Navarro - Abril 2024 - Link.
[Datacamp - Blog] - La maldición de la dimensionalidad en el aprendizaje automático: Retos, repercusiones y soluciones - Abid Ali Awand - Mayo 2024 - Link.
[Datacamp - Tutorials] - What is Cosine Distance? - Vinod Chugani - Julio 2024 - Link.
[Datacamp - Tutorials] - Understanding Chebyshev Distance: A Comprehensive Guide - Vinod Chugani - Septiembre 2024 - Link
[Maarten Grootendorst's Personal Page] - 9 Distance Measures in Data Science - Maarten Grootendorst - 2024 - Link.
[Gemini AI] - Junio 2025 - Link.

Page updated

Google Sites

Report abuse