Hoy me gustaría hablaros de un par de sistemas de archivos. Cada vez tenemos más información a almacenar y, si bien podemos hacer backups de los sistemas de archivos, nos podemos encontrar que si tenemos un volumen elevado el backup pueda no ser tan simple como “copiar archivos”, o la recuperación sea tan costosa que para según que información no valga la pena. Sea como fuere, aún teniendo un sistema de backup como dios manda, mejor no tener que usarlo.
En este rápido post, no voy a entrar en detalles de implementación de los sistemas, que para estoy ya hay documentación muy buena, pero si que quiero resaltar las características de cada sistema de archivos y en qué entorno lo podéis utilizar.
El ZFS es un sistema de archivos redundado, con capacidad de ampliación, snapshot, etc.. Os enumero las características para que lo tengáis en mente:
– Copy on Write: nos garantiza la integridad del sistema de archivos al no sobreescribir la información, sino guardar y una vez guardada cambia el puntero de la información.
– Snapshots: podemos sacar fotos de solo lectura del estado del FS en un momento dado, de forma compacta y eficiente.
– Es un “pooled” fs: es decir, no se interactua con el disco sino con el pool de espacios, de modo que podemos añadir discos al fs de forma transparente para el usuario.
– RAIDZ(2): implementa redundancia en la distribución de la información, de forma que si se produce un fallo de un disco – que es cuestión de tiempo, no de probabilidad – tenemos la garantía de no perder los datos. Prestad atención al como montarlo, así como a la cantidad de discos, para saber el nivel de tolerancia, que la magia no existe.
– Capacidad: este es un filesystem de 128 bits, por lo que puedes direccionar 256 ZB…. vaya que esto no será el problema, por ahora.
– Ideal para un acceso tipo NAS
El CEPH es un sistema de archivos distribuido, accesible como un dispositivo de bloque, como un servicio accesible por APIs. En este caso, la idea es:
– tener un conjunto de máquinas (a partir de ahora nodos), sobre el cual se repartirá la información de forma redundada. Disponen de los discos y los OSD (Object Storage Daemon: gestionan el almacenamiento de los datos en los discos).
– hay un nodo que tiene el monitor de nodos, donde tiene la información que que nodos están vivos y su estado detallado.
Nos ofrece:
– Copy on Write,
– Redundancia entre nodos (podemos perder un nodo sin problemas)
– Muy facilmente ampliable,
– El cuello de botella acabará siendo la red.
Cada cliente puede acceder a los datos de CEPH mediante la capa RADOS (que puede correr en kernel o espacio de usuario) que lo dirige directamente al nodo que tiene los datos mediante la red, de modo que no hay cuellos de botella y hace que el sistema sea fácilmente escalable. Ideal para soluciones virtualizadas o espacios de datos enormes (pensad en Big Data).
Links de interés:
ZFS:
CEPH:
Pere
Deja un comentario