Nous sommes plusieurs data analystes au sein de Coapi et nous proclamons : RAP is in the air…
Connaissez-vous le RAP pour « Reproducible Analytical Pipelines » (conduite ou processus d’analyses reproductibles)
Son objectif ?
“reduce production time, whilst maintaining and even improving the quality of the publications”
Cette approche, essentiellement pour l’instant en déploiement dans l’administration britannique, ne peut que parler à tout professionnel data, concepteur, manipulateur, analyste de données massives. Elle va au delà de la simple industrialisation d’une publication statistique
Le concept théorique du RAP est décrit dans ce document : https://ukgovdatascience.github.io/rap_companion/
Notre point de vue
La mise en place de solutions de publications automatisées présente deux avantages de gain de temps et de qualité sur la production de rapports récurrents et de mise en place d’une organisation plus robuste dans la production de publications statistiques.
D’autres avantages ne sont pas négligeables :
- la possibilité de suivre les versions du code qui crée les rapports,
- d’effectuer des contrôles qualité automatisés,
- et de partager des méthodes grâce à la publication des packages créés.
Ces solutions ouvertes peuvent remplacer la création manuelle de rapports ou de publications, source d’erreurs humaines, chronophages, et parfois ayant des méthodologies difficiles à reproduire ou réutiliser.
Analystes et manipulateurs de data, nous faisons l’hypothèse que le confort de travail de l’analyste en processus RAP peut rendre plus fluides les décisions de créations de nouvelles publications (attitude pro-active vs réactive de l’équipe).
Selon une première revue de littérature, après plusieurs expérimentations RAP dans différents services du gouvernement anglais, des premiers facteurs de réussites ont été identifiés. “Afin d’avoir une implication maximale des équipes, une adhésion des principes RAP par les managers et une formation continue ciblée pour les équipes sont essentielles”.
Pas de RAP sans DataOps “spirit”.
Convaincus par le concept DataOps, nous sommes tous signataires du Manifeste The DataOps Manisfesto, comme première étape de notre découverte du RAP.Le data Ops fait écho aux années d’expériences de traitement, d’analyse et de communication de la donnée des différents membres de la data team Coapi :
Fabrice Caini, Rose Campbell, Veronique Seel, Guillaume Savarit
La Rochelle, Avril 2019
En savoir plus ? Première revue de littérature :
Upson, M. (2017) Reproducible Analytical Pipelines,
https://dataingovernment.blog.gov.uk/2017/03/27/reproducible-analytical-pipeline/ , accessed 25/04/2019.
Gregory, M & Upson, M.(2019). RAP Companion,
https://ukgovdatascience.github.io/rap_companion/, accessed 25/04/2019
Baumer, B., Cetinkaya-Rundel, M., Bray, A., Loi, L., & Horton, N. J. (2014). R Markdown: Integrating a reproducible analysis tool into introductory statistics. arXiv preprint arXiv:1402.1894.
Xie, Y., Allaire, J. J., & Grolemund, G. (2018). R markdown: The definitive guide. CRC Press.
Munafò, M. R., Nosek, B. A., Bishop, D. V., Button, K. S., Chambers, C. D., Du Sert, N. P., … & Ioannidis, J. P. (2017). A manifesto for reproducible science. Nature human behaviour, 1(1), 0021.
Bauer, F., & Kaltenböck, M. (2011). Linked open data: The essentials. Edition mono/monochrom, Vienna, 710.
Maali, F., Cyganiak, R., & Peristeras, V. (2012, May). A publishing pipeline for linked government data. In Extended Semantic Web Conference (pp. 778-792). Springer, Berlin, Heidelberg.
Villazón-Terrazas, B., Vilches-Blázquez, L. M., Corcho, O., & Gómez-Pérez, A. (2011). Methodological guidelines for publishing government linked data. In Linking government data(pp. 27-49). Springer, New York, NY.
Peng, R. (2015). The reproducibility crisis in science: A statistical counterattack. Significance, 12(3), 30-32.
Janssen, M., Charalabidis, Y., & Zuiderwijk, A. (2012). Benefits, adoption barriers and myths of open data and open government. Information systems management, 29(4), 258-268.