Jeu de données générique

En plus des multiples réanalyses prises en charge, AtmoSwing permet d’utiliser un jeu de données générique sous forme de fichiers NetCDF. Le jeu de données peut être nommé comme suit :

  • Generic : nom simple à utiliser principalement lorsque le jeu de données générique provient d’une source unique.

  • Generic[__] : le nom peut également être composé du terme Generic et de tout autre suffixe. Il permet de spécifier la source du jeu de données (par exemple Generic_ERA5 ou Generic_CFSR). Ceci est principalement utile pour le Viewer afin de différencier les jeux de données qui ont été utilisés.

Les fichiers peuvent être organisés comme suit (AtmoSwing recherchera les correspondances possibles) :

  • Un seul fichier avec le nom de la variable prédictive souhaitée (ex : rh.nc)

  • Fichiers annuels avec l’année dans le nom du fichier

  • Tous les fichiers d’un répertoire. Les fichiers doivent être nommés afin d’être triés chronologiquement.

Structure du fichier

Le fichier doit avoir quatre dimensions :

  • lat : latitude

  • lon : longitude

  • level : doit être défini même s’il n’y a pas de niveau (fixé à 0 dans ce cas)

  • time : doit être défini en tant que Modified Julian Date (days since 1858-11-17 00:00:00.0 +0:00)

Le jeu de données générique est différent des autres jeux de données car il n’y a pas de variables prédéfinies. Le nom donné à la variable (dans le fichier NetCDF) doit également être utilisé dans le fichier de paramètres xml.

Générer des jeux de données génériques

Le dépôt de AtmoSwing Python toolbox contient des scripts pour convertir certaines réanalyses au format générique (par exemple scripts/createGenericFromERAI.py).

Il faut préciser :

  • dir_origin : le répertoire contenant les fichiers originaux

  • dir_target : le répertoire dans lequel les fichiers résultants doivent être sauvegardés

  • files_list : une liste des fichiers à transformer contenant les entrées suivantes : 1) le sous-répertoire contenant les fichiers originaux (par exemple pressure ou surface_analysis), 2) le nom de la variable dans les fichiers originaux, 3) le nom à donner à la variable dans le fichier résultant.

Il peut être nécessaire de modifier les scripts pour les adapter à d’autres formats ou structures d’entrée.