VOLUMEN: Lo que antes se consideraba grande, ahora ya no lo es tanto, sino basta con echar un vistazo al Gigabyte, que al parecer ya se ha convertido en la unidad ‘básica’ de almacenamiento, frente a los Petabytes que engloba el Big Data.
VELOCIDAD:Para un gran volumen de datos que no sufre variaciones muy a menudo, el análisis lleva horas e incluso días. No obstante, en el ámbito del Big Data el montante de información crece por Terabytes, de ahí que el tiempo de procesamiento de la información sea un factor fundamental para que dicho tratamiento aporte ventajas que marquen la diferencia.
VARIEDAD: de sobra se sabe que el Big Data no versa en la mayoría de ocasiones sobre datos estructurados y que no siempre es sencillo incorporar grandes volúmenes a una base de datos relacional. Infinidad de tipos de datos se aglutinan dispuestos a ser tratados y es por ello que frente a esa variedad aumenta el grado de complejidad tanto en el almacenamiento como en su análisis
En un almacén de datos lo que se quiere es contener datos que son
necesarios o útiles para una organización, es decir, que se utiliza
para posteriormente transformarlos en información útil para el
usuario. Un almacén de datos debe entregar la información correcta
a la gente indicada en el momento óptimo y en el formato adecuado.
-Creación de conjuntos de datos de destino seleccionando qué tipo de datos se necesitan.
-Exploración de los datos.
- Este preprocesamiento es la base para realizar los siguientes pasos.
-Preparación de los datos.
- Se crean las reglas de segmentación, se procede a la limpieza de los datos, la gestión de valores perdidos y la verificación de anomalías. Esta etapa también puede incluir una exploración de datos adicional.La minería de datos real da inicio cuando una combinación de algoritmos de aprendizaje automático comienza a funcionar.
No hay comentarios:
Publicar un comentario