La plateforme Arkhn est composée de plusieurs modules, chacun utilisé à des fins particulières et chacun nécessitant des ressources différentes. Ainsi, les spécifications de l'infrastructure nécessaire au déploiement de la plateforme varieront selon les modules choisis et leur utilisation.
Ces modules incluent :
- Arkhn Explore : pour l'exploration en sécurité des données Patientes ;
- Arkhn Data Clean Room : fournit un environnement d'analyse exploratoire isolé, assurant la sécurité des données, ainsi qu'un sas d'entrée/sortie ;
- Arkhn Data Platform : inclut les briques nécessaires au stockage, à l'ingestion et l'analyse des données de santé dans un contexte EDS.
Les facteurs suivants influent, eux aussi, sur le dimensionnement de l'infrastructure :
- Typologie des données stockées (Biologie, Imagerie, Génomique, Documents) ;
- Deep Learning / Machine learning avancé avec mobilisation de GPUs au sein des DCR.
Les sections suivantes décrivent les moyens qui doivent être mis à disposition d'Arkhn par le client, ceci dans le but d'assurer le bon fonctionnement de la plateforme.
- Un réseau indépendant des autres systèmes ;
- Une communication chiffrée avec les bases de données sources, autant que possible ;
- Une matrice de flux exhaustive et limitative, pour confirmer et documenter flux et ports de communication ;
- Un** pare-feu réseau** permettant la communication entre les machines du cluster sur les ports et protocoles 22/tcp, icmp, 2379-2380/tcp, 6443/tcp, 8472/tcp, 10250/tcp, 51820-51821/udp, 5001/tcp ;
- Des adresses IP en IPV4 sur l'ensemble du cluster ;
- Un VLAN ou sous-réseau dédié qui n'entre pas en conflit avec le réseau interne du cluster sur les CIDR 10.42.0.0/16 et 10.43.0.0/16 ;
- Un accès temporaire des machines à l'internet, sans filtrage, via le port 443, avant mise en place de la matrice de flux explicite.
- Trois noms de domaines et un certificat associé signé par l'autorité de certification reconnue par les postes des utilisateurs finaux (PKI interne ou autorité de certification publique en dernier recours). Ces domaines seront <nom de domaine de base>, code.<nom de domaine de base>, dashboard.<nom de domaine de base>. Le nom de domaine de base sera à définir conjointement lors du cadrage technique.
- Un groupe dédié aux utilisateurs de l'EDS dans l'Active Directory ou le LDAP/SAML/OIDC ;
- Un compte de service Arkhn au sein de l'AD/LDAP/SAML/OIDC du client pour permettre l'authentification des utilisateurs sera mis en place ;
- Lors des cadrages techniques, la transmission de l'ensemble des informations de CN/DN permettant la connection et la sélection des utilisateurs ;
- Un flux LDAP vers auth.arkhn.io pour l'authentification et la traçabilité centralisée des membres du personnels d'Arkhn, lors de leur accès à l'infrastructure Arkhn au sein de l'établissement.
- Des mesures de sauvegarde complète des machines mises à disposition. L'établissement sera tenu d'informer Arkhn sur les mesures mises en place, et entre autre sur la fréquence des sauvegardes, leur durée de rétention, leur caractère chiffré ou non, leur caractère distant ou non (sauf indication contraire) ;
- Pour la mise en place d'une sauvegarde applicative par Arkhn : un espace de stockage sur une baie de SAN (redondé, sécurisé), soit monté en direct sur les machines, soit exposé selon les protocoles S3s, NFS ou SMB (par ordre de préférence) avec un compte de service associé.
Les machines mises à disposition devront chacune répondre aux exigences suivantes :
- Des partitions selon le schéma suivant :
- / : 100 Go (ext4)
- /home : 100Go (ext4)
- /var : le reste de la capacité dans un LVM (ext4) non-chiffré
- Un compte de connection arkhn qui doit être *sudoer *;
- Fonctionner sous le système d'exploitation Linux / Debian 12 ;
- Un package manager Debian fonctionnel (soit via des dépôts publics dont les flux devront être ouverts, soit via un dépôt interne à l'établissement) ;
- SSH activé avec le compte arkhn utilisable, accessible via le bastion d'Arkhn ou celui de l'établissement ;
- L'accès à un serveur DNS, de préférence interne à l'établissement ;
- La synchronisation à un serveur de temps, soit ntp.arkhn.io (123/udp) soit un serveur interne à l'établissement.
- Dans le cadre de la télémaintenance de la solution, un accès à une machine Windows de l'établissement sera nécessaire pour le personnel Arkhn via le bastion de l'établissement ;
- Pour assurer une haute disponibilité, l'ensemble des serveurs d'Arkhn devra être enregistré au sein d'une appliance Load Balancer gérant les DNS et potentiellement le certificat. En l'absence d'une solution de load balancing au sein de l'établissement, il sera possible d'enregistrer toutes les adresses IPs des serveurs Arkhn, mais ce procédé n'assurera pas une disponibilité optimale.
En cas de déploiement sur une infrastructure de GPUs, Arkhn s'appuie sur une installation standardisée (K3S/Kubernetes + ArgoCD + Helm) qui peut être hybridée avec des VMs pour la partie cluster standard et/ou des machines physiques pour le support des GPUs.
Quel que soit le mode de déploiement (physique ou virtualisé), les pré-requis de base sont les suivants :
| Composant |
Détail |
| Systèmes supportés |
Debian 12 |
| Réseau |
1 tunnel IPsec avec le Bastion Arkhn |
| Utilisateur |
**Accès root **pour au moins un utilisateur Arkhn |
- Dans le cadre de l'utilisation des GPUs, si les GPUs doivent être accessibles depuis les DCR, ces **GPUs doivent être mis sur une machine physique **;
- Dans le cas de la mise à disposition des GPUs pour les process du cluster kubernetes, la virtualisation imbriquée doit être activée pour ces machines au niveau de l'hyperviseur (les hyperviseurs type VMWare ne supportent pas PCI Passthrough + Virtualisation imbriquée, et ne permettent donc pas l'utilisation de GPU dans les DCR).
Le dimensionnement des machines varie par type de GPU pour être proportionnel aux ressources de calcul. En guise d'exemples :
| Composant |
Détail |
| CPU |
> 15c |
| RAM |
> 90 Go |
| Disque |
> 400 Go |
| Carte graphique |
1 x L40S (48 Go) |
| Composant |
Détail |
| CPU |
> 30c |
| RAM |
> 180 Go |
| Disque |
> 400 Go |
| Carte graphique |
2 x L40S |
| Composant |
Détail |
| CPU |
> 30c |
| RAM |
> 380 Go |
| Disque |
> 4 To |
| Carte graphique |
1 x H100 (80 Go) |
| Composant |
Détail |
| CPU |
> 60c |
| RAM |
> 760 Go |
| Disque |
> 8 To |
| Carte graphique |
2 x H100 (80 Go) |
| Composant |
Détail |
| CPU |
> 120c |
| RAM |
> 1.52 To |
| Disque |
> 16 To |
| Carte graphique |
4 x H100 (80 Go) |
| Composant |
Détail |
| CPU |
> 240c |
| RAM |
> 3 To |
| Disque |
> 32 To |
| Carte graphique |
8 x H100 (80 Go) |
**Comme pour le reste de la plateforme les pré-requis précédents s'appliquent. **