Pasar al contenido principal
Tecnológico de Monterrey Tecnológico de Monterrey
  • Inicio
  • Noticias
  • Recursos
  • Nosotros
  • Contacto

Compartir

¿De dónde obtiene datos chatgpt?

¿De dónde obtiene datos chatGPT?

2025-10-06
Fernando Gutiérrez
Noticias

La inteligencia artificial generativa (IAG) parece tener siempre todas las respuestas. Pero detrás de cada frase bien estructurada o de cada explicación convincente hay un entramado de fuentes que rara vez cuestionamos. Un estudio reciente de Semrush con base en más de 150 mil citas, ofrece una mirada reveladora a este fenómeno: la IA no se alimenta tanto de bibliotecas digitales cuidadosamente curadas como de la conversación cotidiana que circula en línea (Levin, 2025).

Según el análisis, la plataforma que más nutre a los sistemas de IAG (ChatGPT, Perplexity, Google AI Mode, Google AI Overviews) es Reddit, con un sorprendente 40% de presencia en las referencias. Le sigue Wikipedia con 26%, mientras que YouTube y Google se ubican alrededor del 23%. En un segundo plano, aunque no menos relevante, aparecen espacios como Quora, Yelp o los portales de reseñas y comercio electrónico (Levin, 2025). Dicho de otra manera: gran parte de lo que responde una IAG hoy proviene de foros, debates espontáneos y reseñas escritas por millones de usuarios comunes y corrientes.

Este hallazgo invita a cuestionar. La imagen que solemos tener de la IAG como una entidad “objetiva” y “omnisciente” se tambalea cuando descubrimos que, en realidad, lo que procesa son las huellas de nuestras conversaciones digitales. Como explica Bender et al. (2021), los grandes modelos de lenguaje (LLMs) no entienden el mundo sino que generan texto a partir de patrones estadísticos aprendidos de enormes volúmenes de datos disponibles en internet. Si esas fuentes están llenas de sesgos, ironías o errores, la IAG inevitablemente los reproducirá.

La paradoja es interesante: buscamos en la IAG una voz autorizada, pero lo que hallamos es una amplificación de nuestras propias voces. La confianza ciega en las respuestas de la IAG se convierte entonces en un acto culturalmente complejo: ¿confiamos en la máquina o en la multitud que alimenta sus circuitos? Como señala Crawford (2021), la IAG no existe en un vacío, sino que está profundamente anclada en las estructuras sociales, políticas y económicas de las que toma sus datos.

Además, este panorama pone sobre la mesa de discusión la cuestión de la responsabilidad colectiva. Si cada comentario en un foro, cada reseña en línea o cada aporte en Wikipedia puede moldear la manera en que los algoritmos “aprenden” a responder, ¿no deberíamos ser más conscientes de lo que publicamos? Floridi (2022) propone hablar de “ecologías de la información”, en las que cada usuario se convierte en un agente activo de cuidado o, en su defecto, descuido de los entornos digitales. La frontera entre expresión individual y construcción de un conocimiento compartido se vuelve difusa.

El asunto trasciende lo técnico. Nos obliga a replantearnos el papel de la ciudadanía digital en la era de la IAG: no solo como consumidores pasivos de información, sino como coautores o productores de la memoria algorítmica global. Tal vez la pregunta importante ya no sólo es “¿de dónde obtiene datos la IAG?”, sino también “¿qué estamos dispuestos a enseñar colectivamente a estas máquinas?”.

Al final, la IAG no es una voz externa autorizada que nos dicta la verdad. Parece ser, más bien, producto de un coro inmenso compuesto por fragmentos de lo que hemos dicho y compartido en internet. La calidad de ese coro dependerá, en gran medida, de nuestra propia ética digital, de la forma en que elegimos construir y cuidar el espacio público en línea.

En un documento de UNESCO que coordinan Fengchun y Wayne (2023) se subraya que el desarrollo y uso de la inteligencia artificial generativa debe estar guiado por un enfoque centrado en el ser humano. Esto implica que la tecnología no se conciba como un fin en sí mismo, sino como una herramienta para ampliar las capacidades humanas, respetar la dignidad, proteger los derechos fundamentales y reducir desigualdades. Se advierte que el entusiasmo por la innovación no debe eclipsar la necesidad de salvaguardas aspectos éticos y jurídicos que eviten sesgos, discriminación o impactos negativos en los sistemas educativos y sociales.

Asimismo, el texto enfatiza que la integración de la IAG debe fomentar la agencia, creatividad y juicio crítico de las personas, en lugar de sustituirlos. Para ello se promueve que las instituciones educativas, investigadores y responsables de políticas garanticen que los sistemas de IAG sean transparentes, explicables y responsables.

Referencias

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. https://doi.org/10.1145/3442188.3445922

Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press.

Floridi, L. (2022). The Ethics of Artificial Intelligence. Oxford University Press.

Levin, E. (2025, July 21). How Google’s AI Mode compares to traditional search and other LLMs
[AI Mode Study]
. Semrush Blog. https://www.semrush.com/blog/ai-mode-comparison-study/

Fengchun, M. & Wayne, H. (2023). Guidance for Generative AI in Education and Research. United Nations Educational, Scientific and Cultural Organization. https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research

Logo Footer Tecnológico de Monterrey
  • Inicio
  • Noticias
  • Recursos
  • Nosotros
  • Contacto

© 2024 Observatorio de Medios Digitales