Home » Données structurées

Données structurées

Les données constituent la matière première de toute activité numérique. Afin de permettre leur réutilisation, il est nécessaire de les conserver de manière persistante. Les structurer correctement garantit que l’on puisse les exploiter facilement pour produire de l’information. Cependant, les données non structurées peuvent aussi être exploitées, par exemple par les moteurs de recherche.

Le premier tableur, VisiCalc, fut créé en 1979.

Escape Game de S.Chanthery

Présentation

Une donnée ou un ensemble de données est une information se rapportant à un « objet » (personne, événement…).

Plusieurs descripteurs peuvent être utiles pour décrire un même « objet ».

Exemple : la liste des contacts dans notre répertoire. Il s’agit d’une liste d’ « objets » qui sont ici des personnes et on peut les décrire grâce à des « descripteurs » (ou « champs ») : nom, prénom, adresse, numéro de téléphone.

Il y a deux catégories de données : structurées et non structurées. On parle de données structurées quand celles-ci sont organisées et classées en vue de faciliter leur lecture et leur traitement. Ainsi, une collection de données partageant les mêmes descripteurs peut être structurée en une table : les objets en lignes, les descripteurs en colonnes, la valeur de ces descripteurs à l’intersection.

Type de données

Différents types de données existent : texte, nombre, image, son, … Dans le monde numérique, toutes les données sont de type « textuel » (on dit « chaînes de caractères »), et sont stockées sous la forme de bits (regroupés en octets).

Formats

Les données structurées peuvent être organisées selon différents « formats ». Les plus utilisés sont CSV (comma-separated values), JSON et XML qui ont l’avantage d’être des formats ouverts.

Cas du CSV

Le format CSV est un format texte ouvert représentant des données sous forme de table. Pour stocker des données au format CSV, on écrit les descripteurs sur la première ligne. Puis, sur les lignes suivantes, pour chaque objet, on écrit les valeurs des descripteurs. Les valeurs sont en général séparées par des points-virgules.

Méta-données

Une métadonnée est une donnée qui apporte des informations sur la donnée principale.

Par exemple, pour un fichier photo : date, dimensions, poids,… ou pour un fichier son : durée, nom de l’artiste…

Données à caractère personnel

Les données sont dites « à caractère personnel » lorsqu’elles concernent des personnes physiques identifiées ou identifiables directement (nom, prénom,…) ou indirectement (adresse IP, photographie, numéro de téléphone…).

Cas des données sensibles

D’après l’article 6 de la loi Informatique et Libertés de 1978, « Il est interdit de traiter des données à caractère personnel qui révèlent la prétendue origine raciale ou l’origine ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance syndicale d’une personne physique ou de traiter des données génétiques, des données biométriques aux fins d’identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique. »

Cependant, il existe des exceptions.

Opérations sur les données

On peut traiter des données structurées : calcul, tri, affichage, géolocalisation, analyse de comportement… soit à partir des données elles-mêmes soit à partir des méta-données.

Fiche d’activités

Exo1-Ain

Exo2-DVD-Cesson-2017

Exo3-Reserv-Paris-2018

Exo4-Table-dynamique

Exo5-Moyennes

Activité guidée proposée par David Roche (avec Python et notamment pandas).

Activités sur le site france-ioi.org puis cliquer sur « Parcours thématique »/ « les données structurées… »/ »progresser et valider » et enfin, au choix : « format de données » ou « tableur » ou « programmer des requêtes – Python »

Stockage et cloud computing

Il existe différents types de stockage des données, qu’on peut classer par leur support :

– avec des trous : cartes perforées (80 octets, avant 1970),

– optique (creux, bosses) : CD (700 Mo), DVD,

– magnétique ; bandes magnétiques (800 octets), disquettes (1,44 Mo) : ces deux-là sont obsolètes, disques durs (en moyenne 500 Go actuellement),

– par semi-conducteurs : clés USB (Universal Serial Bus), disques SSD (solid-state drive) [2 To], cartes SD (Secure Digital), CompactFlash, MemoryStick [de Sony].

Dans tous les cas, il y a un risque d’altération et une nécessité de seconde sauvegarde : les supports n’ont pas une durée de vie éternelle.

On peut aussi classer nos données selon leur lieu de stockage :

– interne : sur notre ordinateur, sur notre smartphone,

– externe, amovible : clé USB, carte mémoire, disque dur externe, CD, DVD,

– en ligne : Cloud computing (serveurs dans les data centers).

Cloud Computing (= calcul dans les nuages)

interview de Serge Abiteboul :

Infrastructure physique. Gigantesques entrepôts : « data centers ». Réussite car :

– réseaux hyper rapides,

– coûts de stockage en forte baisse,

– utilités : stockage, puissance de calcul, services.

Avantages

– sûreté (car réplication des données sur plusieurs machines) et sécurité (meilleure que chez nous),

– accès depuis n’importe quel appareil connecté à Internet (mobilité),

– moindre coût de gestion pour les entreprises, à court terme (moins d’investissement et moins de coût de fonctionnement et de maintenance),

– service évolutif (sans avoir à s’en soucier),

– travail collaboratif (document partagé) [mais où est la bonne version … synchronisation?]

Inconvénients

– on perd le contrôle de nos données (où sont-elles localisées?),

– gaspillage de données,

– centralisation des données,

– impact écologique (chaleur créée),

– pour une entreprise : dépendance au fournisseur de service (paiement de services inutilisés, fiabilité du réseau),

Choisir un Cloud

On peut citer plusieurs critères :

coût, confidentialité (chiffrement ?), espace de stockage (dont taille maximale par fichier), vitesse de transfert, applications disponibles, édition de contenu, streaming, multi-versions (consultation d’anciennes versions),

* Le Cloud peut être public ou privé ou communautaire.

exemples de Cloud : GoogleDrive, OneDrive (Microsoft), DropBox, Mega, Hubic (OVH, français), Amazon, iCloud (Apple).

* Il existe 3 grands types de services :

– IaaS (Infrastructure as a Service),

– PaaS(Platform as a Service),

– SaaS (Software as a service). Celui-ci correspond à Gmail ou Office365 par exemple.

 

Big Data

Cette notion fait référence à la masse très importante de données existantes, voire de surabondance de ces données.

On évoque l’expression des « 3V » :

  • V comme Volume des données,
  • V comme Vitesse des données (rapidité, données changeantes),
  • V comme Variété des données (images, sons, textes, structurées ou non, mesures physiques, géolocalisation, …).

On rajoute parfois un 4ème V : celui de la Véracité des données (celles-ci sont-elles exactes ?).

Quelques chiffres :

  • 90 % des données auraient été produites ces deux dernières années seulement (selon IBM*),
  • chaque personne sur Terre a généré 1,7 Mo de données par seconde en 2020 (estimation selon IDC*),
  • Twitter produit 7 To par jour (**),
  • Facebook produit 500 To par jour (**),
  • le Radio télescope Murchison Widefield Array (Australie) produit 7 000 To de données brutes par minute (**),
  • à titre de comparaison : la Bibliothèque Nationale de France contiendrait 14 To (livres, imprimés).

* d’après le site https://www.lebigdata.fr/chiffres-big-data

** d’après Jean-Gabriel Ganascia, conférence « Des Big Data aux Big Brothers ».

Documentaire d’Arte : « Tous surveillés » (12 min)

Enjeux

  • Comment sauvegarder ses données ? (support, fiabilité, coût, évolution de la capacité)
  • Comment diffuser des données ? (nature des formats, ouverts ou non, interopérabilité, cloud ou non)
  • Métiers
    • gestionnaire de base de données,
    • consultant data,
    • data analyst (présentation par Le Joboscope d’Openclassrooms),
    • data scientist,
    • data architect ou data ingénieur,
    • chief data officer, data manager, product owner data,
    • développeur Big data,
    • délégué à la protection des données, …

PIX

Vous pouvez vous entraîner à travailler sur des données sur la plateforme PIX :

1.2 Gérer des données

1.3 Traiter des données

2.2 Partager et publier

buy windows 11 pro test ediyorum