Top 60 des questions et réponses d'entretien d'entrepôt de données

2 janvier 2022

En informatique, un entrepôt de données, également appelé entrepôt de données d'entreprise, est un système utilisé pour le reporting et l'analyse des données. C'est un élément essentiel de l'intelligence d'affaires. Les entrepôts de données sont des référentiels centraux des données intégrées provenant d'une ou de plusieurs sources disparates.

Table des matières

A quoi sert le Data Warehousing ?

Entrepôts de données sont principalement utilisés à des fins d'analyse et de reporting commercial. Les entrepôts de données stockent généralement les données historiques en intégrant des copies des données de transaction provenant de différentes sources. Les entrepôts de données utilisent également des flux de données en temps réel pour les rapports qui utilisent les informations intégrées actuelles.



Si vous prévoyez d'assister à une entrevue avec l'entrepôt de données, il est bon de passer en revue certaines des questions et réponses de l'entrevue avec l'entrepôt de données avant d'assister à l'entrevue.

Principales questions et réponses de l'entrevue sur l'entrepôt de données

1. Définir la BI en termes simples ?

L'intelligence d'affaires comprend principalement les technologies et les stratégies utilisées par les entreprises pour l'analyse des données d'informations commerciales. Les technologies BI visent à fournir des vues actuelles, historiques et prédictives des opérations commerciales.

2. Définir l'analyse de données en termes d'entrepôt de données ?

L'analyse des données est définie comme le processus d'obtention des données brutes et de leur conversion en informations utiles pour la prise de décision. Ici, les données sont collectées et analysées pour répondre à des questions, réfuter des théories ou tester des hypothèses. Les données initialement obtenues doivent être traitées ou organisées à des fins d'analyse.

3. Définir l'entrepôt de données ?

Les entrepôts de données sont principalement utilisés à des fins d'analyse et de reporting commercial. Les entrepôts de données stockent généralement les données historiques en intégrant des copies des données de transaction provenant de différentes sources.

Quatre. Définir le tableau des dimensions ?

Questions d'entretien avec l'entrepôt de données - Tableau de dimensions

Une table de dimension est définie comme une table dans le schéma en étoile du Data Warehouse. Les entrepôts de données sont généralement construits à l'aide de modèles de données dimensionnels, qui contiennent des tables de faits et de dimensions. Nous utilisons les tableaux de dimensions pour décrire les dimensions ; Il se compose de clés de dimension, d'attributs et de valeurs.

Voir également Top 100 des questions et réponses d'entrevue JavaScript

5. Pourquoi Data Warehouse est-il orienté sujet ?

Un entrepôt de données est défini comme orienté sujet car il fournit principalement des informations sur le sujet plutôt que sur les opérations en cours d'une organisation. Ces sujets peuvent être le produit, les fournisseurs, les clients, les ventes, les revenus, etc.

Questions et réponses d'entrevue d'entrepôt de données

6. Définir OLAP et mentionner ses types ?

(OLAP) Le traitement analytique en ligne est défini comme une approche permettant de répondre rapidement aux requêtes analytiques multidimensionnelles (MDA) en informatique. OLAP fait partie de l'informatique décisionnelle, qui englobe également les bases de données relationnelles, l'exploration de données et la rédaction de rapports.

Types d'OLAP :

  1. OLAP hybride
  2. OLAP relationnel
  3. OLAP multidimensionnel
  4. Serveurs SQL spécialisés

7. Pouvez-vous énumérer certaines des applications de l'entrepôt de données ?

Applications d'entrepôt de données
  1. L'industrie banquaire.
  2. Industrie financière.
  3. Industrie des biens de consommation.
  4. Gouvernement et éducation.
  5. Soins de santé.
  6. Industrie hôtelière

8. Définir la table des faits ?

Une table de faits dans Data Warehouse contient les métriques, les mesures ou les faits d'un processus métier. Il est généralement situé au centre du schéma en flocon de neige ou d'un schéma en étoile entouré des tables de dimension. La clé primaire des tables de faits est une clé composite composée de toutes les clés étrangères.

9. Faire la différence entre OLAP et OLTP ?

OLAPOLTP
Il a de longues transactions.OLTP a généralement des transactions courtes.
Il est principalement utilisé pour extraire des données à des fins d'analyse qui, à leur tour, aident à la prise de décision.Il se concentre sur l'insertion, les mises à jour, la suppression des informations de la base de données.
Il a des requêtes complexes.Il a des requêtes simples.
Les tables de la base de données OLAP ne sont généralement pas normalisées.Les tables de la base de données OLTP sont généralement normalisées (3NF)

dix. Différencier Data Warehouse et bases de données opérationnelles ?

Entrepôt de données Bases de données opérationnelles
Ils sont généralement concernés par les données historiques.Ils sont généralement concernés par les données actuelles.
Ils sont non volatils. Nous pouvons ajouter de nouvelles données régulièrement. Une fois ajoutées, elles sont rarement modifiées.Les données à l'intérieur des systèmes opérationnels sont mises à jour régulièrement en fonction des besoins.
Il est principalement conçu pour l'analyse des mesures commerciales par catégories, domaines et attributs.Il est principalement conçu pour les transactions et les processus commerciaux en temps réel.

Questions et réponses d'entrevue d'entrepôt de données

11. Énumérez les quatre étapes de l'entreposage de données ?

Les quatre étapes du Datawarehousing sont listées ci-dessous :

  1. Base de données opérationnelle hors ligne
  2. Entrepôt de données hors ligne
  3. Entrepôt de données en temps réel
  4. Entrepôt de données intégré

12. Lister les fonctions exécutées par OLAP ?

Les fonctions OLAP sont principalement regroupées dans ces catégories :

  1. Fonctions d'agrégation
  2. Fonctions analytiques
  3. Fonctions hiérarchiques
  4. Fonctions de décalage
  5. Fonctions OLAP DML
  6. Fonctions de classement
  7. Fonctions de partage
  8. Fonctions de la fenêtre

13. Nommez les schémas qu'un système d'entrepôt de données peut implémenter ?

Un entrepôt de données peut implémenter

  1. horaire des étoiles
  2. Schéma en flocon
  3. Schéma de constellation de faits

14. Définir l'exploration de données ?

Exploration de données

L'exploration de données peut être définie comme une technique d'analyse de modèles de données inconnus. Un entrepôt de données est un système de base de données conçu pour un travail analytique plutôt que transactionnel. L'exploration de données est généralement une méthode de comparaison d'énormes quantités de données pour trouver les bons modèles.

15. Définir le diagramme ER dans l'entrepôt de données ?

La modélisation des relations entre entités est définie comme un processus de modélisation de base de données qui vise à établir une représentation visuelle des données d'un système. Il y a principalement trois éléments de base dans un diagramme ER, à savoir,

  1. Entité
  2. Attribut
  3. Relation amoureuse

Questions et réponses d'entrevue d'entrepôt de données

16. Définir l'extraction de données ?

L'extraction de données est définie comme la technique d'obtention de données à partir d'une plate-forme ou d'une base de données SaaS afin qu'elles soient répliquées vers une destination telle qu'un entrepôt de données conçu pour prendre en charge le traitement analytique en ligne (OLAP). L'extraction de données est généralement la première étape du processus d'ingestion de données connu sous le nom d'ETL (extraction, transformation et chargement).

17. Définir ODS ?

Un magasin de données opérationnelles (ODS) est défini comme une base de données centrale qui fournit principalement un instantané des nouvelles données provenant de divers systèmes transactionnels pour les rapports opérationnels. Il permettra aux organisations d'intégrer des données dans leur format d'origine provenant de différentes sources dans une destination unique et de les rendre disponibles pour les rapports d'activité.

18. Définir SCD ?

Les dimensions à variation lente (SCD) sont la technique dimensionnelle avancée la plus couramment utilisée dans les entrepôts de données dimensionnelles. Nous utilisons les dimensions à évolution lente lorsque vous souhaitez capturer les données changeantes dans le temps de la dimension.

19. Définir les métadonnées ?

Les métadonnées dans Data Warehouse sont simplement définies comme des données sur les données. Les données qui représentent d'autres données sont appelées métadonnées.

vingt. Différencier la vue et la vue matérialisée ?

Voir Vue matérialisée
Les vues sont utilisées lorsque les données doivent être consultées rarement et que les données de la table sont mises à jour fréquemment.Les vues matérialisées sont généralement utilisées lorsque les données doivent être consultées fréquemment et que les données d'une table ne sont pas mises à jour fréquemment.
Une vue est une table virtuelle qui prend la sortie de la requête et est utilisée à la place des tables.Une vue matérialisée est un accès indirect aux données de la table en stockant les résultats de la requête dans le schéma séparé.

Questions et réponses d'entrevue d'entrepôt de données

vingt-et-un. Lister les types de SCD ?

Nous avons trois types de SCD, ils sont :

Voir également Top 100 des questions et réponses d'entrevue Ansible

SCD 1 : Ici, un nouvel enregistrement remplace l'enregistrement d'origine.

SCD 2 : Ici, le nouvel enregistrement est ajouté à une table client existante.

SCD 3 : Ici, les données d'origine sont modifiées pour entrer les nouvelles données.

22. En quoi consistent les métadonnées respiratoires ?

Le respirateur de métadonnées consiste principalement en la définition d'un entrepôt de données, de métadonnées opérationnelles, de métadonnées commerciales, de données pour la cartographie de l'environnement opérationnel à l'entrepôt de données et des algorithmes nécessaires à la synthèse.

23. Qu'est-ce qu'ETL ?

Processus ETL

En termes de calcul, Extract, Transform, Load est une procédure de copie des données d'une ou plusieurs sources vers un système de destination qui représente les données différemment d'une source ou dans un facteur différent de celui de la source.

24. Définir le schéma en flocon ?

En termes d'informatique, un schéma en flocon de neige est défini comme un arrangement logique de tables dans la base de données multidimensionnelle de telle sorte que le diagramme entité-relation ressemble à une forme de flocon de neige. Le schéma en flocon de neige est généralement représenté par une table de faits centralisée connectée à différentes dimensions.

25. Définir un cube de données ?

Un cube de données permettra de modéliser et de visualiser les données dans différentes dimensions. Un modèle de données multidimensionnel est organisé autour du thème central, tel que les ventes et les transactions. Une table de faits représente généralement ce thème. Les faits ne sont que des mesures chiffrées.

Questions et réponses d'entrevue d'entrepôt de données

26. Définir VLDB ?

Une très grande base de données (VLBD) est définie comme une base de données constituée d'un énorme volume de données, de sorte qu'elle nécessite des méthodologies d'architecture, de traitement, de gestion et de maintenance spécialisées.

27. Définir le schéma en étoile et le schéma en bus ?

En matière d'informatique, la Horaire des étoiles est défini comme le style le plus simple de schéma de magasin de données, et c'est l'approche la plus largement utilisée pour développer des entrepôts de données et des magasins de données dimensionnels. Le schéma en étoile contient généralement une ou plusieurs tables de faits qui référencent un nombre quelconque de tables de dimension.

À Horaire des autobus est principalement utilisé pour identifier les dimensions communes à travers les processus métier, telles que l'identification des dimensions conformes. Le schéma BUS a généralement une dimension conforme et la définition normalisée des faits. Ici, tous les Data Marts utilisent les dimensions et les faits conformes sans les avoir localement.

28. Définir la dimension dans l'entrepôt de données ?

Les dimensions sont définies comme les entités par rapport auxquelles une entreprise conserve les enregistrements.

29. Définir l'entreposage de données en temps réel ?

L'entreposage de données en temps réel capture généralement les données commerciales chaque fois qu'elles se produisent. Une fois l'activité commerciale terminée, les données seront disponibles dans le flux et pourront être utilisées instantanément.

Questions et réponses d'entrevue d'entrepôt de données

30. Quelle est la dimension centrale ?

La dimension centrale de Data Warehouse n'est rien d'autre qu'une table de dimension utilisée comme table de faits unique ou magasin de données dédié.

31. Définir le magasin de données ?

Un magasin de données est défini comme une base de données orientée sujet qui est souvent le segment partitionné de l'entrepôt de données d'entreprise. Le sous-ensemble de données conservé dans un magasin de données s'aligne généralement sur une unité commerciale particulière, telle que les ventes, les finances ou le marketing.

32. Définir des tables d'agrégation ?

Les tables agrégées sont définies comme les tables qui agrègent ou cumulent les données à un niveau supérieur à celui d'une base ou d'une table dérivée. Les fonctions telles que moyenne, nombre, min, max sont utilisées avec des tableaux agrégés.

33. Expliquez le concept de boucles dans l'entrepôt de données ?

Les boucles dans l'entreposage de données existent entre les tables. S'il existe une boucle entre les tables, la génération de la requête prendra un peu plus de temps et créera une ambiguïté. Il est toujours conseillé d'éviter une boucle entre les tables.

34. Définir l'entrepôt virtuel ?

Nous pouvons dire qu'un entrepôt virtuel est un autre terme pour le Data Warehouse. Il collecte et affiche généralement des données commerciales liées à un moment précis dans le temps, créant ainsi un instantané de l'état d'une entreprise à ce moment-là. Les entrepôts virtuels collectent souvent des données provenant de différentes sources.

Questions et réponses d'entrevue d'entreposage de données

35. Définir des tables de faits factless ?

Les faits sans faits sont définis comme les tables de faits qui n'ont aucune mesure associée à la transaction. Il s'agit d'une simple collection de clés dimensionnelles qui définissent les transactions ou décrivent une condition pour une période de temps du fait.

36. Définir XMLA ?

XML for Analysis (XMLA) est défini comme un protocole XML basé sur SOAP qui est conçu spécifiquement pour l'accès universel aux données à toute source de données multidimensionnelle standard accessible via la connexion HTTP. Analysis Services utilisera XMLA comme seul protocole lors de la communication avec les applications clientes.

Voir également Top 100 des questions et réponses d'entrevue JavaScript

37. Nommez les phases impliquées dans le processus de livraison de l'entrepôt de données ?

Les étapes impliquées dans la livraison de l'entrepôt de données sont répertoriées ci-dessous :

  1. stratégie informatique
  2. Éducation
  3. Analyse de rentabilisation
  4. Plan technique
  5. Construire la version
  6. Chargement de l'historique
  7. Pour ajouter cette requête
  8. Évolution des exigences
  9. Automatisation
  10. Portée étendue.

38. Comment charger la dimension temporelle ?

Les dimensions de temps se chargent généralement à travers toutes les dates possibles d'une année, et cela se fait via un programme. Ici, 100 ans seront représentés avec une rangée par jour.

39. Différences entre la base de données et l'entrepôt de données ?

Base de données Entrepôt de données
Ce sont des données bidimensionnelles.Ce sont des données multidimensionnelles.
Haute performance et disponibilité.Grande flexibilité.
La taille des données ici est petite.La taille des données ici est importante.
Il s'agit de données relationnelles ou de données orientées objet.Il traite principalement un grand volume de données.

40. Expliquez le concept de Load Manager ?

Load Manager est un composant d'un entrepôt de données qui est responsable de la collecte des données du système d'exploitation et les convertit en une forme utilisable pour les utilisateurs. Ce composant est responsable de l'import et de l'export des données des systèmes opérationnels.

Questions et réponses d'entrevue d'entreposage de données

41. Définir les faits non additifs ?

Les faits non additifs sont définis comme les faits qui ne peuvent être résumés pour aucune des dimensions présentes dans la table de faits.

42. Pouvez-vous expliquer les types d'entrepôts de données ?

Entrepôt de données d'entreprise : Dans ce type d'entrepôt de données, les données organisationnelles de différents domaines fonctionnels se combinent de manière centralisée. Il aide à l'extraction et à la transformation des données, qui à leur tour fournissent un aperçu détaillé de l'objet dans le modèle de données.

Magasin de données opérationnelles : Ce type d'entrepôt de données aidera à accéder aux données directement à partir de la base de données et prend également en charge le traitement des transactions. Il vise à intégrer des données de contraste provenant de diverses sources qui prennent en charge ultérieurement différentes opérations commerciales.

Date Mer t : ce type d'entrepôt de données stockera les données d'un domaine fonctionnel particulier. Il contient également des données sous forme de sous-ensembles qui sont stockés dans l'entrepôt de données. Cela réduit l'énorme volume de données que les utilisateurs doivent analyser et obtenir des informations.

43. Quelle est la fonction d'un Load manager ?

La principale fonction d'un gestionnaire de charge est de

  1. Extraire les données du système source.
  2. Chargez ensuite les données extraites dans un magasin de données temporaire.
  3. Pour effectuer des transformations simples dans une structure similaire à celle de l'entrepôt de données.

44. Qu'est-ce qu'un fait conforme ?

Un fait conforme dans Data Warehouse est défini comme un fait partagé conçu pour être utilisé de manière similaire dans divers magasins de données. En termes simples, les faits conformes partagés signifient la même chose pour divers schémas en étoile.

45. Expliquez qui est un gestionnaire d'entrepôt en termes simples ?

Les gestionnaires d'entrepôt travaillent pour des entrepôts où leur tâche principale est de superviser la réception, le stockage des marchandises et l'expédition des marchandises. Les gestionnaires d'entrepôt gèrent également le personnel de l'entrepôt, les véhicules et d'autres équipements, supervisent la sécurité, l'assainissement et les fonctions administratives.

Questions et réponses d'entrevue d'entreposage de données

46. ​​Faire la différence entre le clustering hiérarchique diviseur et le clustering agglomératif ?

Clustering hiérarchique diviseur Clustering agglomératif
Ici, il utilise l'approche de haut en bas où les données au niveau parent sont lues en premier, puis au niveau enfant.Ici, les clusters se liront de bas en haut.
Ici, la division des grappes a lieu. Le cluster parent sera divisé en clusters plus petits. Cette division des clusters se poursuivra jusqu'à ce que chacun des clusters contienne un seul objet.Ici, les objets sont présents, et chaque objet va construire son cluster, et tous ces clusters vont former un grand cluster.

47. Définir un entrepôt de données actif ?

L'entreposage de données actif peut être défini comme la capacité technique à capturer les transactions lorsqu'elles changent et à les combiner dans l'entrepôt, ainsi qu'à maintenir les actualisations par lots ou par cycles programmés. L'entrepôt de données actif exportera automatiquement les décisions vers les systèmes de traitement des transactions en ligne (OLAP).

48. Définir la méthode Chameleon dans un Datawarehouse ?

En termes de Data Warehouse Chameleon, la représentation permettra à un énorme ensemble de données de créer et de fonctionner avec succès. La méthode trouvera les clusters qui sont utilisés dans l'ensemble de données en utilisant l'algorithme à deux phases.

49. Définir les informations récapitulatives ?

Les informations récapitulatives peuvent être définies comme faisant partie d'un entrepôt de données qui vise à stocker des agrégations prédéfinies. Ces agrégations seront générées par le gestionnaire d'entrepôt. Les informations récapitulatives doivent être traitées comme transitoires. Il changera le sur le pouce pour répondre au profil de requête changeant.

Questions et réponses d'entrevue d'entreposage de données

cinquante. Nommez les colonnes clés dans les tables de faits et de dimension ?

Les clés étrangères des tables de dimensions sont les clés primaires des tables d'entités. Les clés étrangères des tables de faits sont les clés primaires des tables de dimension.

51. Lister les différents outils utilisés en ETL ?

  1. Oracle
  2. L'informatique
  3. Étape de données
  4. Jonction de données
  5. Depuis le début
  6. Constructeur d'entrepôt

52. Quelle est la responsabilité d'un gestionnaire de requêtes ?

Le gestionnaire de requêtes est principalement responsable de

  1. Diriger les requêtes vers les tables appropriées.
  2. En faisant ce qui précède, cela accélérera le processus de requête et de réponse.
  3. Le gestionnaire de requêtes est également responsable de la planification de l'exécution des requêtes publiées par l'utilisateur.

53. Définir le nettoyage des données ?

Le nettoyage des données est défini comme la technique de suppression des données qui n'appartiennent pas à l'ensemble de données.

54. Parmi ceux-ci, lesquels sont plus rapides, OLAP multidimensionnel ou OLAP relationnel ?

L'OLAP multidimensionnel est plus rapide que l'OLAP relationnel.

55. La table Dimension peut-elle avoir une valeur numérique ?

Oui, le tableau Dimension peut avoir une valeur numérique car ce sont les éléments descriptifs de l'entreprise.

Questions et réponses d'entrevue d'entreposage de données

56. Énumérez les approches utilisées pour concevoir l'entrepôt de données ?

Les approches utilisées pour concevoir l'entrepôt de données sont répertoriées ci-dessous :

  1. Approche Inmon
  2. Approche Kimball

57. Combien de dimensions pouvons-nous sélectionner dans l'opération Slice ?

Une seule dimension peut être sélectionnée pour l'opération de découpage.

58. Quelles sont les fonctions exécutées par OLAP ?

L'OLAP exécute des fonctions telles que

  1. Roll-up
  2. Explorer
  3. Tranche
  4. Il dit
  5. Pivot.

59. Énumérez les types de modélisation dimensionnelle ?

Les types de modélisation dimensionnelle sont répertoriés ci-dessous :

  1. Modélisation conceptuelle
  2. Modélisation logique
  3. Modélisation physique

60. Énumérez les avantages d'un entrepôt de données en temps réel ?

Les avantages d'un entrepôt de données en temps réel sont énumérés ci-dessous :

  1. Il supprime la fenêtre de lot.
  2. Il résout les problèmes liés au chargement idéal des données.
  3. Il aide à la prise de décision facile.
  4. Il offrira une manière optimisée d'exécuter les transformations dans la base de données.
  5. Il offre une récupération rapide des données.

Bonne chance pour votre entretien avec l'entrepôt de données, et nous espérons que nos questions et réponses sur l'entretien avec l'entrepôt de données vous ont été utiles. Vous pouvez également consulter notre Questions et réponses de l'entretien Agile Scrum Master .