Stocker l'information

Les unités de mesure

RappelLes unités de base

Un bit (binary digit - chiffre binaire) et peut prendre seulement deux valeurs : 0 et 1.

Un octet (o) est un ensemble de 8 bits. Un octet a pour mission principale de stocker un caractère.

Les unités courantes

  • 1 kilooctet (ko) = 1 000 octets

  • 1 mégaoctet (Mo) = 1 000 ko

  • 1 gigaoctet (Go) = 1 000 Mo

  • 1 téraoctet (To) = 1 000 Go

  • 1 pétaoctet (Po) = 1 000 To

  • 1 exaoctet (Eo) = 1 000 Po

Les supports

RappelSupport non numérique

https://commons.wikimedia.org/wiki/File:Punched_card.jpg#/media/Fichier:Punched_card.jpgInformations[1]

Carte perforée à 80 colonnes (IBM), utilisée jusqu'aux années 1970.

RappelSupports numériques

La disquette a été lancée par IBM en 1967. Elles ont été utilisées dans les années 1980 et 1990 avec une capacité de 1,44 Mo (disquette 3,5 pouces).

Le CD-ROM a été lancé dans les années 1980 par Philips. Ils ont été utilisés au milieu des années 1990 avec une capacité de 650 Mo.

Les supports actuels

Le disque dur a été créé dans les années 1950. Sa taille est désormais exprimée en téraoctet (To). Il tend à disparaître au profit du SSD.

Le SSD (Solid State Drive) est un dispositif de stockage des données qui utilise de la mémoire flash (comme les clés USB). La vitesse de lecture/écriture des données est très rapide. La taille est exprimée en gigaoctet (Go) ou en téraoctet (To).

Le NAS (Network Attached Storage - serveur de stockage en réseau) permet de stocker des données sur un réseau local.

Le Cloud (ou Cloud Computing) est notamment utilisé pour stocker les données. Il s'agit d'un modèle d'infrastructure informatique qui permet d'accéder à la demande, via le réseau Internet, à des ressources informatiques et/ou des services applicatifs distants.

Il existe plusieurs types de Cloud :

  • Infrastructure as a Service (IaaS)

    Un fournisseur propose un accès en ligne à des espaces de stockage, à des serveurs...

  • Platform as a Service (PaaS)

    Un fournisseur offre un environnement dans lequel les utilisateurs peuvent construire et mettre à disposition des applications.

  • Software as a service (SaaS)

    Un fournisseur propose des logiciels et des applications en ligne soumis à un abonnement mensuel ou annuel.

Le fichier informatique

Définition

Un fichier informatique est un ensemble de données numériques réunies sous un même nom, enregistrées en un seul contenant sur un support de stockage permanent. Un fichier informatique a un format numérique symbolisé par une extension finale généralement en trois ou quatre lettres.

Source : Glossaire - Introduction aux humanités numériques - https://hal.archives-ouvertes.fr/hal-02410396

Base de données

Définition

Une base de données est une collection d'informations destinée à stocker des données de façon structurée.

L'architecture traditionnelle qui s'est imposée dans les années 1970 est celle des bases de données relationnelles : les données y sont organisées en tableaux interreliés, avec les colonnes représentant des types de données et les lignes des ensembles cohérents de données.

D'après le Glossaire - Introduction aux humanités numériques - https://hal.archives-ouvertes.fr/hal-02410396

FondamentalLa notion de dépendance fonctionnelle

La notion de dépendance fonctionnelle permet la structuration des données dans les bases de données relationnelles.

Une dépendance fonctionnelle existe entre une donnée source et une donnée but si, à une valeur de la source, on ne peut faire correspondre au plus qu'une valeur de donnée but, ce que l'on note DonnéeSource --> DonnéeBut.

Exemple

Exemples de dépendances fonctionnelles :

CodeBac --> EspecePoisson

CodeBac --> PoidsBac

CodeBac --> NumClient

NumClient --> NomClient

Schéma de dépendance fonctionnelle

Schéma relationnel de données

Lac de données

Fondamental

L'objectif principal du lac de données est de permettre l'exploration, sans a priori, de l'ensemble de données qui le composent, en vue de découvrir des nouvelles pistes d'information à exploiter.

Le lac de données est une collection de données qui sont notamment :

  • indépendantes d'un schéma d'information pré-établi,

  • de formats non contraints (tous formats acceptés),

  • non transformées,

  • rassemblées en un endroit unique,

  • destinées à un ou des utilisateurs experts en science des données.