Top 50 des questions et réponses des entretiens ETL

2 janvier 2022

En termes d'informatique, ETL (c'est-à-dire extraire, transformer, charger) est la technique générale de copie des données d'une ou plusieurs sources dans un système de destination qui représentera les données différemment de la source.

Table des matières

Pourquoi l'ETL est-il important ?

le ETL L'outil nous aide à briser les silos de données et à faciliter l'analyse et l'accès aux données par les scientifiques des données et à les transformer en BI (Business Intelligence). En termes simples, l'outil ETL est l'étape essentielle de tout processus d'entreposage de données qui nous permet finalement de prendre des décisions plus éclairées en peu de temps.



Si vous prévoyez d'assister à un entretien ETL, vous devez vous préparer avant l'entretien afin de pouvoir le casser facilement. Nous avons répertorié les questions et réponses d'entrevue ETL les plus fréquemment posées. Assurez-vous de parcourir l'intégralité de l'article afin de ne manquer aucune des questions.

Principales questions et réponses des entretiens ETL

1. Définir ETL ?

Questions d'entretien ETL - ETL

Dans l'entreposage de données, ETL (ETL signifie Extract, Transact, Load) joue un rôle important ; c'est un composant qui gère les données pour n'importe quel processus métier. L'extrait lira les données d'une base de données. Transform convertit les données dans un format qui sera approprié pour le reporting et l'analyse, et load écrira les données dans la base de données cible.

2. Expliquer l'architecture à trois couches d'un cycle ETL ?

architecture à trois couches d'un cycle ETL

Dans l'architecture ETL, les données proviendront des fichiers source et des bases de données, puis elles seront entrées dans le moteur de transformation ETL. À partir de là, les données seront chargées dans les emplacements suivants :

Aire d'atterrissage : La zone de destination est la zone où les données arrivent en premier après extraction de l'emplacement source. Le cas échéant, des transformations sont appliquées aux données dans la zone d'atterrissage. Si le traitement par lots ETL est traité, la zone de destination stockera divers lots de données avant de les déplacer dans le pipeline ETL.

Voir également Top 100 des questions et réponses d'entrevue JavaScript

Zone de transit: Il s'agit d'un emplacement intermédiaire temporaire où les transformations ETL sont effectuées. Cette zone prendra la forme d'une base de données relationnelle, ou de fichiers texte, ou binaire.

Entrepôt de données région: C'est la destination finale des données dans un pipeline ETL. À partir de là, les données peuvent être facilement interrogées et analysées pour obtenir des informations précieuses et prendre de bonnes décisions commerciales.

3. Faire la différence entre ETL et ELT ?

ETL ELT
ETL signifie processus d'extraction, de transformation et de chargement des données.ELT signifie processus d'extraction, de chargement et de transformation des données.
Ici, les données passent de la source de données à la mise en scène.Ici, pas de mise en scène.
Il est adapté pour traiter des ensembles de données plus petits qui nécessitent des transformations plus complexes.ELT est le meilleur lorsque nous traitons d'énormes quantités de données structurées et non structurées.

4. Définir les tests ETL ?

ETL (Extract/Transform/Load) est une technique qui extrait les données des systèmes source, puis transforme les données en un type de données cohérent, puis charge les données dans le dépôt unique. Test ETL fait principalement référence à la technique de validation, de vérification et de qualification des données, ainsi qu'à la prévention des enregistrements en double et de la perte de données.

Questions d'entretien ETL

5. Expliquer les opérations de test ETL ?

Les opérations de test ETL sont répertoriées ci-dessous :

  1. Il valide le mouvement des données de la source vers le système cible.
  2. Il y aura une vérification du nombre de données dans le système source et cible.
  3. Les tests ETL vérifieront la transformation, l'extraction selon les besoins et les attentes.
  4. Les tests ETL vérifieront si les relations de table, les jointures et les clés sont préservées pendant la transformation.

6. Définir BI ?

La Business Intelligence, c'est-à-dire la BI, consiste en des stratégies et des technologies utilisées par les entreprises pour l'analyse des données d'informations commerciales. Les technologies de BI fournissent généralement des vues historiques, prédictives et actuelles des opérations commerciales.

7. Définir le processus ETL ?

ETL est défini comme le processus d'extraction, de transformation et de chargement.

8. Nommez le test de fumée qui est effectué sur les tests ETL ?

  1. Vérification des clés en double
  2. Clé primaire
  3. chèque cdc
  4. Intégrité référentielle
  5. Complétude du tableau

9. Lister les types d'applications d'entrepôt de données ?

Les types d'applications d'entrepôt de données sont :

  1. Traitement des informations
  2. Traitement analytique
  3. Exploration de données

Questions et réponses de l'entretien ETL

10. Différencier Data mining et Data warehousing ?

Exploration de données et entreposage de données
Exploration de données Entreposage de données
C'est le processus de détermination des modèles de données.Un entrepôt de données peut être défini comme un système de base de données conçu pour l'analyse.
Habituellement, les entrepreneurs commerciaux effectuent l'exploration de données avec l'aide d'ingénieurs.Il est entièrement réalisé par les ingénieurs.
Il utilise des techniques de reconnaissance de formes pour identifier les modèles.Il s'agit d'une technique d'extraction et de stockage de données qui permet un reporting facile.
Ces techniques sont rentables.La responsabilité d'un entrepôt de données est de simplifier tous les types de données d'entreprise.

11. Pouvez-vous faire la différence entre les outils ETL et BI ?

Outils ETL Outils décisionnels
Les outils ETL extraient les données de plusieurs sources de données, les transforment et les chargent dans un système d'entrepôt de données.Les outils de BI génèrent des rapports interactifs et ad hoc pour les utilisateurs finaux, une visualisation des données pour les réunions mensuelles, trimestrielles et annuelles du conseil d'administration.
Certains outils ETL sont Informatica, le service de données SAP BO, Oracle Data Integrator (ODI), Clover ETL Open Source, Microsoft SSIS, etc.Certains outils BI sont SAP Lumira, IBM Cognos, Tableau , Oracle Business Intelligence Enterprise Edition, plateforme Microsoft BI, etc.

12. Existe-t-il des sous-étapes pour chacune des étapes ETL ?

Chacune des étapes impliquées dans l'ETL comporte plusieurs sous-étapes. L'étape de transformation a plus de nombre de sous-étapes.

13. Pouvez-vous énumérer les responsabilités d'un testeur ETL ?

Responsabilités:

  1. Ils doivent concevoir et développer des commandes UNIX dans le cadre des processus ETL et automatiser le processus d'extraction des données et de chargement.
  2. Ils doivent travailler avec des requêtes SQL, ANSI SQL et PL/SQL pour tester la fonctionnalité de la base de données.
  3. Ils doivent valider les fichiers PMS mainframe migrant vers DB2.
  4. Ils doivent avoir une expérience de travail avec DB2, Terada.
  5. Ils doivent générer des rapports à partir de l'outil de rapport COGNOS et les comparer avec la base de données EDW.

14. Lister les différents outils utilisés en ETL ?

  1. Constructeur d'entrepôt Oracle
  2. Objets métier XI
  3. Flux de décision Cognos
  4. SAS entrepôt d'affaires
  5. Service ETL SAS Enterprise

15. Quel est le but de la zone de préparation dans le processus ETL ?

La zone de transit est la zone centrale disponible entre les sources de données et les systèmes d'entrepôt de données ou de magasins de données. C'est une zone où nous stockons temporairement les données dans le processus d'intégration des données. Dans la zone de transfert, les données sont toujours nettoyées et vérifiées pour les doublons. La zone de transit est conçue de manière à offrir de nombreux avantages, mais l'objectif principal est d'utiliser la zone de transit. Il augmente l'efficacité, garantit l'intégrité des données et prend en charge les opérations de qualité des données.

Voir également Top 100 des questions et réponses d'entrevue Ansible

Questions d'entretien chez ETL

16. Définir le chargement initial et le chargement complet dans ETL ?

Charge initiale : C'est la première exécution où nous traitons la charge historique vers la cible, et après cela, nous devons incrémenter la charge (c'est-à-dire, apporter uniquement les enregistrements modifiés et nouveaux).

Pleine charge: L'intégralité du vidage des données a lieu la première fois qu'une source de données est chargée dans l'entrepôt.

17. Définir le fait et lister les types de faits dans ETL ?

Un fait dans ETL est défini comme une information quantitative comme une vente ou un téléchargement.

Les faits sont généralement stockés dans les tables de faits et ils ont une relation de clé étrangère avec le nombre de tables de dimension.

Les types de faits dans ETL sont :

  1. Faits additifs
  2. Faits semi-additifs
  3. Faits non additifs

18. Définissez la table de dimension et en quoi est-elle différente de la table de faits ?

Une table de dimension dans ETL est définie comme une table dans un schéma en étoile d'un entrepôt de données. Les tableaux de dimensions décrivent principalement les dimensions ; ils se composent de clés de dimension, de valeurs et d'attributs.

La table de faits se compose principalement de mesures, de métriques et de faits sur un processus métier, tandis que la table de dimension est un équivalent de la table de faits qui se compose d'attributs descriptifs utilisés comme contrainte de requête.

19. Définir la charge incrémentielle ?

La charge incrémentielle fait référence à l'application de modifications dynamiques chaque fois que nécessaire dans une période donnée et des horaires prédéfinis.

20. Définir les cubes et les cubes OLAP ?

Cubes sont définies comme des unités de traitement de données composées de tables de faits et de dimensions issues de l'entrepôt de données. Ils visent à fournir des vues multidimensionnelles des données, des capacités d'analyse et d'interrogation aux clients.

Une Cube OLAP peut être défini comme une structure de données qui permettra une analyse rapide des données selon de multiples dimensions qui définiront une problématique métier.

Questions d'entretien ETL

21. Définir Datamart ?

Les datamarts sont définis comme un sous-ensemble du contenu informationnel d'un entrepôt de données qui prendra en charge les besoins d'un département ou d'une fonction commerciale particulière. Datamart est construit et contrôlé par un seul département au sein de l'entreprise. Les données ici peuvent ou non provenir de l'entrepôt de données de l'entreprise.

22. Combien de couches y a-t-il dans ETL, et quelles sont-elles ?

Nous avons trois couches :

  1. La première couche d'ETL s'appelle le couche source , et c'est la couche où atterrissent les données.
  2. La deuxième couche s'appelle la couche d'intégration, où nous stockons les données après transformation.
  3. La troisième couche s'appelle la couche dimensionnelle, où se trouve la couche de présentation réelle.

23. Définissez le niveau de traçage et quels sont les types ?

Le niveau de traçage dans ETL correspond à la quantité de données placées dans les fichiers journaux.

Les niveaux de traçage sont principalement classés en deux types :

    Niveau normal: Il décrit le niveau de traçage de manière exhaustive.Verbeux: Il explique les niveaux de traçage à chaque ligne.

24. Pouvez-vous faire la différence entre les tests manuels et les tests ETL ?

Test manuel Test ETL
Il se concentre sur la fonctionnalité du programme.Il est lié à la base de données et à son nombre.
C'est un processus qui prend du temps.Il s'agit d'un processus de test automatisé.
Cela nécessite des connaissances techniques.Il ne nécessite pas de connaissances techniques car il est automatisé.

Questions d'entretien ETL

25. Définir les instantanés et leurs caractéristiques ?

L'instantané est considéré comme une visualisation complète des données au moment de l'extraction. Il occupe généralement moins d'espace et est utilisé pour sauvegarder et restaurer rapidement les données.

Caractéristiques:

Les instantanés sont généralement situés sur des nœuds distants et sont actualisés périodiquement afin que toutes les modifications apportées à la table principale soient enregistrées. Ils sont également une réplique de tables.

Questions d'entretien chez ETL

26. Définir le fait du grain ?

En termes d'entreposage de données, une table de faits contient généralement des mesures, des métriques ou des faits d'un processus métier donné.

Le grain d'une table de faits définit généralement le niveau le plus atomique où les faits sont définis. Exemple : Le grain d'un tableau de faits sur les ventes peut être exprimé en volume des ventes par jour par produit par magasin.

27. Pourquoi avons-nous besoin des tests ETL ?

  1. Les tests ETL sont utilisés pour garder un œil sur les données qui sont transférées d'un système à un autre.
  2. Nous avons besoin de tests ETL pour suivre l'efficacité et la rapidité du processus.
  3. Le besoin de tests ETL est essentiel, et nous devons nous familiariser avec le processus ETL avant de le mettre en œuvre dans notre production et nos activités.
Voir également Top 100 des questions et réponses d'entrevue JavaScript

28. Que sont les vues dans ETL ?

Une vue prend généralement la sortie de la requête et la traite comme une table. Par conséquent, une vue est considérée comme une requête stockée ou une table virtuelle. Nous pouvons créer une vue simple à partir d'une table où une vue complexe peut être créée à partir de différentes tables.

29. Définir la transformation ?

La transformation dans ETL fait référence au nettoyage et à l'agrégation qui doivent se produire sur les données pour les préparer à l'analyse. Les données extraites seront déplacées vers une zone de transit où les transformations ont lieu avant le chargement des données dans l'entrepôt.

30. Où les utilisateurs peuvent-ils utiliser les concepts ETL ?

  1. Fusions et acquisitions
  2. Entreposage de données
  3. Migration de données

Questions d'entretien chez ETL

31. Définir une vue matérialisée et un journal de vue matérialisée ?

Vues matérialisées dans ETL peuvent être définis comme des structures physiques qui peuvent améliorer le temps d'accès aux données en pré-calculant les résultats intermédiaires.

le ETL de journal de vue matérialisé supprimera les données du journal des vues matérialisées une fois la tâche terminée. Cela nécessite qu'un utilisateur dispose des autorisations DELETE, ce qui peut compromettre les données source.

32. Énumérez les utilisation de la transformation de recherche ?

  1. Pour mettre à jour les modifications apportées à la table de dimensions.
  2. Pour obtenir une valeur associée à partir de la table en utilisant une valeur de colonne.
  3. Pour vérifier si les enregistrements existent déjà dans la table.

33. Lister les caractéristiques du Data Warehouse ?

Caractéristiques:

  1. Certaines données sont dénormalisées pour simplifier et améliorer les performances.
  2. D'énormes quantités de données historiques sont utilisées.
  3. Les requêtes récupèrent souvent d'énormes quantités de données.
  4. Le chargement des données est contrôlé.
  5. Les requêtes planifiées et ad hoc sont courantes.

34. Définir le partitionnement et les types ?

Afin d'améliorer les performances, nous subdivisons les transactions ; ce processus est connu sous le nom de partitionnement. Le partitionnement permet au serveur Informatica de créer plusieurs connexions à diverses sources.

Types de partitionnement :

Partitionnement circulaire : Ici, les données sont réparties équitablement entre toutes les partitions. Dans chaque partition, le nombre de lignes à traiter est approximativement le même.

Partitionnement de hachage : Il s'agit d'un type de technique de partitionnement où une clé de hachage est utilisée pour répartir les lignes uniformément sur les différentes partitions. Le partitionnement par hachage est utilisé lorsque les plages ne sont pas appropriées.

Questions et réponses de l'entretien ETL

35. Énumérez les types de systèmes d'entrepôt de données ?

  1. Analyse prédictive
  2. Traitement analytique en ligne (OLAP)
  3. Traitement transactionnel en ligne
  4. Magasin de données

36. Faire la différence entre PowerCenter et PowerMart ?

Centre d'alimentation PowerMart
Avec PowerCenter, vous pouvez recevoir toutes les fonctionnalités, y compris la possibilité de partager des métadonnées, d'enregistrer plusieurs serveurs dans des référentiels et de partitionner des données.Le PowerMart inclut toutes les fonctionnalités à l'exception des métadonnées distribuées, du partitionnement des données et de plusieurs serveurs enregistrés. De plus, les différentes options disponibles avec PowerCenter ne sont pas disponibles avec PowerMart comme Powerconnect pour Siebel, PeopleSoft, etc.

37. En utilisant SSIS (SQL Server Integration Service), répertoriez les moyens possibles de mettre à jour la table ?

  1. Utiliser une table de staging
  2. Utiliser une commande SQL
  3. Utiliser le cache
  4. Utiliser la tâche de script
  5. Utilisez le nom complet de la base de données pour la mise à jour si MSSQL est utilisé.

38. Énumérez les étapes suivies dans le processus de test ETL ?

Les étapes suivies sont :

  1. Analyse des besoins
  2. Validation et estimation des tests
  3. Planification des tests et conception de l'environnement de test
  4. Préparation et exécution des données de test
  5. Rapport sommaire

39. Lister les applications auxquelles le PowerCenter peut être connecté ?

PowerCenter peut être connecté à des sources ERP telles que :

  1. SÈVE
  2. Applications Oracle
  3. PeopleSoft, etc.

40. Où utilisez-vous le cache dynamique et le cache statique dans les transformations connectées et non connectées ?

  1. Pour les fichiers plats, le cache statique est utilisé.
  2. Le cache dynamique est généralement utilisé lorsque vous devez mettre à jour la table maître et modifier lentement les dimensions (SCD) type 1

Questions et réponses de l'entretien ETL

41. Lister les étapes pour choisir le processus ETL ?

  1. Connectivité des données
  2. Performance
  3. Flexibilité de transformation
  4. Qualité des données
  5. Option d'action de données flexible
  6. Fournisseur ETL engagé

42. Nommez la partition utilisée pour améliorer les performances des transactions ETL ?

La partition de session est utilisée pour améliorer les performances des transactions ETL.

43. Définir la vue de la source de données dans ETL ?

(DSV) Les vues de source de données vous permettront de créer une vue logique des seules tables impliquées dans la conception de votre entrepôt de données.

44. Lister les types de bogues ETL ?

Bogues ETL
  1. Bogues sources
  2. Charger les bogues de condition
  3. Bogues de calcul
  4. Bogues liés à l'ECP
  5. Bogues de l'interface utilisateur
  6. Bogues de partitionnement de classe d'équivalence
  7. Bogue d'analyse de la valeur limite

Questions d'entretien ETL

45. Lister les types de tests ETL ?

Les types:

  1. Tests de validation de la production
  2. Test source à cible (validation)
  3. Mise à niveau des applications
  4. Test des métadonnées
  5. Test d'exactitude des données
  6. Test de transformation de données
  7. Tests de migration
  8. Nouveaux tests d'entrepôt de données

Questions et réponses de l'entretien ETL

46. ​​Faire la différence entre la recherche non connectée et la recherche connectée ?

Recherche non connectée Recherche connectée
Il reçoit des valeurs de l'expression de recherche.Il reçoit les valeurs d'entrée directement du pipeline de mappage.
Il n'a qu'un seul port de retour et renvoie donc une colonne de chaque ligne.Il renvoie plusieurs colonnes à partir de la même ligne car elles ont plusieurs ports de retour.
Il ne prend pas en charge les valeurs définies par l'utilisateur.Il prend en charge les valeurs par défaut définies par l'utilisateur.

47. Définir ODS dans ETL ?

ODS signifie source de données opérationnelle. Cela fonctionne entre les zones de préparation et l'entrepôt de données. Les données sont ODS seront au niveau de la granularité. Lorsque nous insérons les données dans ODS, toutes les données seront chargées dans l'EDW via l'ODS.

48. Définir l'extraction de données et lister les phases dans ETL ?

L'extraction de données peut être définie comme l'extraction de données à partir de différentes sources à l'aide d'outils ETL.

Voici deux types d'extraction de données :

    Extraction partielle :Nous recevons la notification des systèmes source pour mettre à jour les données spécifiées. Il est connu sous le nom de charge delta.Extraction complète :Toutes les données extraites d'un système opérationnel ou d'un système source sont chargées dans la zone de transfert.

49. Expliquer les étapes pour extraire des données SAP à l'aide d'Informatica ?

  1. En utilisant l'option de connexion d'alimentation, nous pouvons extraire les données SAP à l'aide d'Informatica.
  2. Pour cela, vous devez installer et configurer l'outil PowerConnect.
  3. Ensuite, importez la source dans l'analyseur de source. Entre Informatica et SAP, le Powerconnect agit comme une passerelle.
  4. Dans l'étape suivante, nous générons le code ABAP pour le mappage ; ensuite, seul Informatica peut extraire des données de SAP.
  5. Ensuite, pour connecter et importer des sources à partir des systèmes externes, nous utilisons Power Connect.

50. Définir les termes Worklet, session, mapplet et flux de travail ?

Worklet : Il définit un ensemble spécifique de tâches données.

Mapplet : Il arrange ou crée des ensembles de transformation.

Flux de travail : Il peut être défini comme un ensemble d'instructions qui indiqueront au serveur comment exécuter des tâches.

Session : Il est défini comme un ensemble de paramètres qui indiquent au serveur comment déplacer les données d'une source vers la cible.

Bonne chance pour votre entretien ETL, et nous espérons que nos questions et réponses d'entretien ETL vous ont été utiles. Vous pouvez également consulter notre Questions d'entretien chez Informatica qui pourraient vous être utiles.