Top 70 des questions et réponses d'entretien avec un ingénieur de données

2 janvier 2022

La tâche principale de l'ingénieur de données est de trouver des tendances dans les ensembles de données et de développer des algorithmes pour rendre les données brutes plus utiles à l'entreprise. Les ingénieurs de données sont responsables de la construction des algorithmes pour faciliter l'accès aux données brutes, mais pour ce faire, ils doivent comprendre les objectifs de l'entreprise ou du client.

Si vous avez un entretien avec un ingénieur de données prévu à proximité, vous devez absolument vous préparer pour l'entretien. La préparation d'un entretien n'est pas une tâche simple. Donc, avant d'assister à l'entretien, assurez-vous de passer en revue les questions et réponses de l'entretien avec l'ingénieur de données afin de pouvoir facilement résoudre l'entretien.

Table des matières



TOP Questions et réponses de l'entretien d'embauche d'un ingénieur de données

1. Expliquer l'ingénierie des données en termes simples ?

L'ingénierie des données utilise des outils tels que SQL et Python pour préparer les données pour les data scientists. L'ingénierie des données travaille principalement avec des scientifiques des données pour comprendre leurs besoins spécifiques pour le travail. Ils construiront des pipelines de données qui sourceront et transformeront les données dans les structures souhaitées nécessaires à l'analyse.

2. De quelles manières Python aide-t-il les ingénieurs de données ?

Les ingénieurs de données utilisent Python pour créer les pipelines de données, écrire les scripts ETL, configurer des modèles statistiques et effectuer l'analyse comme R, qui est un langage important pour la science des données et l'ingénierie des données. C'est important pour l'ETL, les applications d'apprentissage automatique et l'analyse de données.

3. Différencier Data Warehouse et Base de Données Opérationnelle ?

Base de données opérationnelle Entrepôt de données
Ils sont conçus pour prendre en charge le traitement des transactions à volume élevé.Ils sont généralement conçus pour prendre en charge le traitement analytique à haut volume comme OLAP.
Ils sont concernés par les données actuelles.Ils s'intéressent aux données historiques.
Les données ici sont principalement mises à jour régulièrement en fonction des besoins.Non volatiles, de nouvelles données seront ajoutées régulièrement. Une fois ajouté, il sera rarement modifié.
Ils sont conçus pour les transactions et les processus commerciaux en temps réel.Ils sont conçus pour l'analyse des mesures commerciales par domaine, attributs et catégories.
Moins Nombre de données sont consultées.Un grand nombre de données est accessible.

4. Définir la modélisation des données ?

La modélisation des données peut être définie comme une technique utilisée pour définir et analyser les exigences en matière de données nécessaires pour soutenir les processus métier dans le cadre des systèmes d'information correspondants dans les organisations. La modélisation des données définit non seulement les éléments de données, mais aussi leurs structures et les relations entre eux.

Voir également Top 100 des questions et réponses d'entrevue JavaScript

5. Faire la différence entre les bases de données relationnelles et non relationnelles ?

Base de données relationnelle Base de données non relationnelle
Ils sont également appelés systèmes de gestion de bases de données relationnelles ( SGBDR ) ou des bases de données SQL.Elles sont également appelées bases de données NoSQL.
Les bases de données relationnelles populaires sont Microsoft SQL Server, Oracle Database, IBM DB2 et MySQL .Les bases de données non relationnelles les plus populaires sont MongoDB, DocumentDB, Cassandra, HBase, Redis et Coachbase.
Les SGBDR sont généralement utilisés dans les scénarios de grande entreprise, qui sont principalement utilisés pour stocker des données pour les applications Web.Ils stockent de gros volumes de données sans aucune structure.

6. Définissez Do *args et **kwargs?

* arguments et **kwargs sont des mots clés spéciaux qui permettent à la fonction de prendre les arguments de longueur variable. **kwargs sont utilisés pour passer le nombre variable d'arguments de mots clés du dictionnaire à la fonction sur laquelle l'opération d'un dictionnaire est effectuée. * arguments et **kwargs rendent généralement la fonction flexible.

7. Mentionnez les différents types de schémas de conception dans la modélisation des données ?

Il existe deux types de schémas dans la modélisation des données :

  1. horaire des étoiles
  2. Schéma en flocon de neige.

8. Quelles sont les compétences techniques requises pour être ingénieur de données ?

  1. Systèmes de bases de données (SQL et NoSQL)
  2. Solutions d'entreposage de données
  3. Outils ETL
  4. Apprentissage automatique
  5. API de données.
  6. Langages de programmation Python, Java et Scala
  7. Comprendre les bases des systèmes distribués
  8. Connaissance des algorithmes et des structures de données

9. Différencier les données structurées et non structurées ?

Données structurées Données non structurées
Il s'agit d'un type de données clairement défini et consultableIci, les données sont généralement stockées dans leur format natif.
Les données structurées sont quantitatives.Les données non structurées sont qualitatives.
Les données structurées sont stockées dans des entrepôts de données.Les données non structurées sont stockées dans des lacs de données.
Il est facile de rechercher et d'analyser.Cela nécessite plus de travail pour traiter et comprendre.

10. Nommez les frameworks et applications indispensables pour les ingénieurs de données ?

  1. Étincelle
  2. Considérable
  3. Kafka
  4. Recherche élastique
  5. PostgreSQL/Redshift
  6. Flux d'air

Questions et réponses pour l'entretien d'embauche d'un ingénieur de données

11. Expliquer les composants d'une application Hadoop ?

  1. Hadoop Common : Il peut être défini comme un ensemble d'utilitaires et de bibliothèques utilisés par Hadoop.
  2. HDFS : l'application Hadoop fait référence au système de fichiers dans lequel les données Hadoop sont stockées. C'est un système de fichiers distribué qui a une bande passante élevée.
  3. Hadoop MapReduce : Il est basé sur l'algorithme de mise à disposition de traitement de données à grande échelle.
  4. Hadoop YARN : Il est principalement utilisé pour la gestion des ressources au sein du cluster Hadoop. Il est également utilisé pour la planification des tâches pour les utilisateurs.

12. Faire la différence entre un Data Engineer et un Data Scientist ?

Ingénieur de données Scientifique des données
Ils se concentrent principalement sur la construction d'infrastructures et d'architectures pour la génération de données.Ils se concentrent sur les mathématiques avancées et l'analyse statistique des données générées.
Ils soutiennent les scientifiques et les analystes de données en fournissant une infrastructure et des outils qui sont utilisés pour fournir des solutions de bout en bout aux problèmes de l'entreprise.Ils interagissent avec l'infrastructure de données construite et maintenue par les ingénieurs de données.

13. Définir NameNode ?

Namenode peut être défini comme le nœud maître qui s'exécutera sur un nœud distinct du cluster. Il gère l'espace de noms du système de fichiers qui est l'arborescence du système de fichiers des fichiers et des répertoires. Il stocke des informations telles que les propriétaires de fichiers, les autorisations de fichiers, etc., pour les fichiers.

14. Quelles sont les responsabilités quotidiennes d'un ingénieur de données ?

Les responsabilités de l'ingénieur de données sont :

  1. Ils développent, construisent, testent et maintiennent des architectures.
  2. L'acquisition des données
  3. Développer des processus d'ensemble de données
  4. Aligner l'architecture sur les besoins de l'entreprise
  5. Ils effectuent des recherches pour des questions de l'industrie et des affaires
  6. Préparer les données pour la modélisation prédictive et prescriptive
  7. Ils utilisent des données pour découvrir des tâches qui peuvent être automatisées
  8. Ils utilisent de grands ensembles de données pour résoudre les problèmes commerciaux.
  9. Ils trouvent des modèles cachés à l'aide de données.

15. Qu'est-ce que le streaming Hadoop ?

Le streaming Hadoop est un utilitaire généralement fourni avec la distribution Hadoop. Cet utilitaire nous permet de créer et d'exécuter Map ou Reduce les travaux avec n'importe quel exécutable ou script en tant que mappeur ou réducteur.

16. Pouvez-vous expliquer les schémas de conception dans la modélisation des données ?

Le schéma peut être défini comme la description logique de l'ensemble de la base de données.

Certains des schémas de la modélisation des données sont :

Horaire des étoiles : Chaque dimension du schéma en étoile est définie avec une seule table de dimension. Cette table de dimension se compose d'un ensemble d'attributs.

Schéma de flocon de neige : Les tables de dimension dans le schéma Snowflake sont normalisées. Cette normalisation divise les données en tables supplémentaires. Contrairement au schéma en étoile, la table des dimensions dans le schéma en flocon de neige est normalisée.

Schéma de constellation de faits : Une constellation de faits a généralement plusieurs tables de faits. Il est aussi appelé schéma de galaxie.

17. Quelle est la forme complète de HDFS ?

Le système de fichiers distribué Hadoop est un système de fichiers distribué conçu pour fonctionner sur du matériel standard.

18. Expliquer les concepts de Block et Block Scanner dans HDFS ?

Bloquer : Il est défini comme la quantité minimale de données lues ou écrites.

La taille par défaut du bloc dans HDFS est de 64 Mo.

Analyseur de bloc : Il suit la liste de tous les blocs présents sur le DataNode et les vérifie pour détecter tout type d'erreur de somme de contrôle.

19. Nommez les deux messages que le NameNode reçoit de DataNode ?

NameNodes obtient des informations sur les données de DataNodes, généralement sous la forme de messages ou de signaux. Ils sont:

    Bloquer les signaux de rapport: Ce sont la liste des blocs de données qui sont stockés sur DataNode et son fonctionnement.Signaux de battement de coeur: Il s'agit d'un rapport périodique qui établit s'il faut utiliser NameNode ou non. Si ce signal n'est pas envoyé, cela signifie que le DataNode a cessé de fonctionner.

20. Définir les étapes qui se produisent lorsque Block Scanner détecte un bloc de données corrompu ?

Les étapes ci-dessous se produiront lorsqu'un bloc de données corrompu est détecté par un scanner de bloc :

  1. Le DataNode signalera le bloc corrompu au NameNode.
  2. NameNode lancera alors le processus de création de la nouvelle réplique en utilisant une réplique correcte d'un bloc corrompu présent dans d'autres DataNodes.
  3. Le bloc de données corrompu n'est pas supprimé tant que le nombre de réplications des répliques correctes n'est pas mis en correspondance avec le facteur de réplication.
  4. L'ensemble de ce processus permet au HDFS de maintenir l'intégrité des données lorsque le client effectue l'opération de lecture.
Voir également Top 100 des questions et réponses d'entrevue Ansible

Questions et réponses pour l'entretien d'embauche d'un ingénieur de données

21. Expliquer les phases du réducteur et leurs méthodes de base ?

Hadoop Reducer traite la sortie de données du mappeur et produit la sortie finale stockée dans HDFS.

Le réducteur a principalement 3 phases :

    Mélanger: Ici, la sortie des mappeurs est mélangée et agit comme entrée pour le réducteur.Trise fait pendant le brassage, et en même temps, la sortie de différents mappeurs est triée.Réduire: Ici, le Reduces agrège la paire clé-valeur et donne la sortie, qui est ensuite stockée sur HDFS et n'est pas triée davantage.

Il existe des méthodes de base dans Reducer :

    Installer:Cela configure divers paramètres, tels que la taille des données d'entrée.Réduire: Il est défini comme l'opération principale du Réducteur. Ici, une tâche est définie pour la clé associée.Nettoyer:Cette méthode nettoie les fichiers temporaires à la fin de la tâche.

22. Mentionnez les différents fichiers de configuration XML dans Hadoop ?

Les fichiers de configuration XML dans Hadoop :

  1. Mapred-site
  2. Core-site
  3. HDFS-site
  4. Site de fil

23. Expliquer comment déployer une solution Big Data ?

Les trois étapes importantes utilisées pour déployer une solution Big Data sont :

    Intégration/Ingestion de données: Ici, l'extraction de données à l'aide de sources de données telles que RDBMS, Salesforce, SAP, MySQL est effectuée.Stockage de données: Ici, les données extraites sont stockées dans la base de données HDFS ou NoSQL.Traitement de l'information: Il s'agit de la dernière étape qui devrait être le déploiement de la solution à l'aide des frameworks de traitement tels que MapReduce, Pig et Spark.

24. Mentionnez les quatre V du big data ?

Les quatre V sont :

  1. Rapidité
  2. Variété
  3. Le volume
  4. Véracité

25. Énumérez les avantages et les inconvénients de travailler dans le cloud computing ?

Avantages:

  1. Pas de tracas administratifs ou de gestion
  2. Accessibilité facile
  3. Payer pour utilisation
  4. Fiabilité
  5. Énorme stockage en ligne
  6. Mises à jour logicielles automatiques

Les inconvénients:

  1. Contrôle limité des infrastructures
  2. Flexibilité restreinte ou limitée
  3. Frais courants
  4. Sécurité
  5. Problèmes techniques

26. Expliquer certaines fonctionnalités de Hadoop ?

Quelques-unes des fonctionnalités importantes de Hadoop sont :

  1. Hadoop est un Open source Cadre de programmation basé sur Java. L'open source indique qu'il est disponible gratuitement et que l'on peut modifier son code source selon vos besoins.
  2. Tolérance aux pannes: Hadoop contrôle les failles par la technique de création de répliques. Lorsque le client stocke un fichier dans HDFS, le framework Hadoop divise le fichier en blocs.Processus distribué: Il stocke une grande quantité de données de manière distribuée dans le HDFS. Il traite les données en parallèle sur le cluster de nœuds.Évolutivité: Comme déjà indiqué, Hadoop est une plate-forme open-source. Ce qui en fait une plateforme extrêmement évolutiveFiabilité: Les données ici sont stockées de manière fiable sur le cluster de machines malgré la panne de la machine due à la réplication des données. Ainsi, en cas de défaillance de l'un des nœuds, vous pouvez également stocker des données de manière fiable.La haute disponibilité: En raison de ses multiples copies de données, les données ici sont hautement disponibles et accessibles malgré la panne matérielle.Économique: Il n'est pas très cher car il fonctionne sur un cluster de matériel de base.

27. Nommez les bibliothèques Python que vous utiliseriez pour un traitement de données efficace ?

  1. NumPy
  2. SciPy
  3. pandas
  4. Dur
  5. SciKit-Learn
  6. TorchePy
  7. TensorFlow

28. Quelle est la forme complète de COSHH ?

COSHH signifie Classification and Optimization-based Schedule for Heterogeneous Hadoop systems.

29. Différencier liste et tuples ?

Lister Tuples
Ils sont mutables.Ils sont immuables.
La liste est préférée pour effectuer des opérations, telles que l'insertion et la suppression.Le type de données Tuple est approprié pour accéder aux éléments.
Ils ont plusieurs méthodes intégrées.Ils n'ont pas beaucoup de méthodes intégrées.
Il consomme plus de mémoire.Ils consomment moins de mémoire que les listes.

30. Définir le schéma en étoile ?

Le schéma en étoile peut être défini comme le schéma fondamental parmi le schéma du magasin de données, et c'est le plus simple. Ce schéma est principalement utilisé pour développer ou construire les magasins de données dimensionnels et les entrepôts de données ; Il comprend une ou plusieurs tables de faits indexant un nombre quelconque de tables dimensionnelles.

Questions et réponses pour l'entretien d'embauche d'un ingénieur de données

31. Comment gérer les points de données en double dans une requête SQL ?

  1. Nous utilisons la fonction SQL RANK pour supprimer toutes les lignes en double. La fonction SQL RANK donne un ID de ligne unique pour chaque ligne sans tenir compte de la ligne en double.
  2. Nous utilisons l'opérateur de tri dans un package SSIS pour supprimer les lignes en double.
  3. SQL supprime les lignes en double à l'aide des expressions de table communes (CTE)
  4. SQL supprime les lignes en double à l'aide de Group By et de la clause having

32. Définir le schéma en flocon ?

Le schéma de flocon de neige dans un entrepôt de données peut être défini comme l'arrangement logique des tables dans la base de données multidimensionnelle de telle sorte que le diagramme ER ressemble à une forme de flocon de neige. C'est l'extension du Star Schema et ajoute des dimensions supplémentaires. Les tables de dimension sont normalisées, ce qui divise ensuite les données en tables supplémentaires.

33. Comment l'analyse de données aide les entreprises à se développer et à augmenter leurs revenus ?

  1. Il vous aide à vous fixer des objectifs réalistes.
  2. Il soutient la prise de décision.
  3. Il vous aide à trouver votre groupe démographique idéal.
  4. Vous pouvez segmenter votre audience.
  5. Il vous aide à créer une personnalisation de masse.
  6. Cela vous aide à augmenter vos revenus et à réduire vos coûts.
  7. Vous pouvez augmenter vos adhésions.
  8. Il vous aide à surveiller les médias sociaux.

34. Définir FSCK ?

La vérification de la cohérence du système de fichiers de l'utilitaire système ( fsck ) est un outil utilisé pour vérifier la cohérence du système de fichiers sous Unix et les systèmes d'exploitation de type Unix, comme Linux, macOS et FreeBSD.

35. Faire la différence entre OLTP et OLAP ?

OLTP OLAP
OLTP est un traitement transactionnel.OLAP peut être défini comme un système en ligne qui répond aux requêtes analytiques multidimensionnelles telles que les rapports financiers, les prévisions, etc.
C'est un système qui peut gérer des applications orientées transaction sur Internet comme ATM.La solution OLAP améliore l'entrepôt de données avec des données agrégées et des calculs commerciaux.
C'est un système de modification de base de données en ligne.Il s'agit d'un système de réponse aux requêtes de base de données en ligne.
OLTP a des transactions courtes.OLAP a de longues transactions.
Les tables de la base de données OLTP sont normalisées (3NF).Les tables de la base de données OLAP ne sont pas normalisées.

36. Faire la distinction entre le schéma en étoile et le schéma en flocon ?

Horaire des étoiles Schéma de flocon de neige
Ici, une seule jointure crée la relation entre la table de faits et les tables de dimension.Il nécessite de nombreuses jointures pour récupérer les données.
Haut niveau de redondance des donnéesRedondance des données de très bas niveau
Conception de base de données simple.Conception DB très complexe
Une seule table de dimension contient des données agrégées.Ici, les données sont divisées en différentes tables de dimensions.

37. Quelle est l'abréviation de YARN ?

La forme complète de YARN : encore un autre négociateur de ressources

Voir également Top 100 des questions et réponses d'entrevue JavaScript

38. Quel est le concept principal derrière le Framework d'Apache Hadoop ?

Il est principalement basé sur l'algorithme MapReduce. Ici, dans cet algorithme, pour traiter un grand ensemble de données, nous utilisons les opérations Map et Reduce. Il mappe, filtre et trie les données tandis que Réduire résume les données. L'évolutivité et la tolérance aux pannes sont les points importants de ce concept. Nous réalisons ces fonctionnalités dans Apache Hadoop en implémentant efficacement MapReduce et le multi-threading.

39. Nommez les différents modes d'utilisation de Hadoop ?

Les trois modes différents utilisés par Hadoop sont :

  1. Mode autonome
  2. Mode pseudo distribué
  3. Mode entièrement distribué

40. Comment pouvons-nous assurer la sécurité dans Hadoop ?

  1. Dans un premier temps, nous devons sécuriser le canal d'authentification du client au serveur. Vous devez fournir un horodatage au client.
  2. Ensuite, le client utilise l'horodatage reçu pour demander le TGS pour le ticket de service.
  3. Enfin, le client utilise un ticket de service pour s'authentifier auprès du serveur spécifique.

Questions et réponses pour l'entretien d'embauche d'un ingénieur de données

41. Quelles sont les étapes à suivre lors du déploiement d'une solution Big Data ?

Les étapes à suivre lors du déploiement d'une solution Big Data :

    Ingestion de données : il s'agit de la technique de collecte ou de diffusion d'informations à partir de différentes sources telles que des fichiers journaux, des bases de données SQL et Média social des dossiers. Il fait face à trois défis importants : l'ingestion des modifications de schéma, l'ingestion de grandes tables dans la source et la capture de données modifiées. Stockage de données- : Après l'ingestion des données, les données extraites doivent être stockées quelque part. Il doit être stocké soit dans HDFS, soit dans les bases de données NoSQL. HDFS fonctionne mieux pour un accès séquentiel via HBase pour l'accès aléatoire en lecture ou en écriture. Traitement de l'information: C'est la dernière étape du déploiement sur une solution Big Data. Après le stockage des données, les données sont traitées via l'un des principaux frameworks comme Pig ou MapReduce.

42. Nommez les numéros de port par défaut pour Port Tracker, NameNode et Task Tracker dans Hadoop ?

  1. Le suivi des tâches a le port par défaut : 50060
  2. NameNode a le port par défaut : 50070
  3. Job Tracker a le port par défaut : 50030

43. Faire la différence entre NAS et DAS dans Hadoop ?

DANS LE CETTE
Il transmet les données via Ethernet ou TCP/IP.Il transmet les données en utilisant IDE/SCSI.
Son coût de gestion par Go est modéré.Son coût de gestion par Go est élevé.

44. Définir les données stockées dans le NameNode ?

Le NameNode se compose principalement de toutes les informations de métadonnées requises pour HDFS, telles que les détails de l'espace de noms et les informations de bloc individuelles.

45. Que se passe-t-il si le NameNode plante dans le cluster HDFS ?

Le cluster HDFS n'a généralement qu'un seul NameNode, et il est utilisé pour maintenir les métadonnées de DataNode. Le fait d'avoir un seul NameNode donne aux clusters HDFS un point de défaillance unique.

Si le NameNode tombe en panne, les systèmes deviendront indisponibles. Pour éviter cela, vous devez spécifier un NameNode secondaire qui peut prendre les points de contrôle périodiques dans les systèmes de fichiers HDFS, mais ce n'est pas une sauvegarde du NameNode. Mais nous l'utilisons pour recréer le NameNode et le redémarrer.

46. ​​Définir Rack Awareness ?

Rack Awareness permet à Hadoop de maximiser la bande passante du réseau en favorisant les transferts de blocs au sein des racks plutôt que les transferts entre les racks. Avec la reconnaissance du rack, le YARN optimisera les performances des tâches MapReduce. Il affectera des tâches aux nœuds proches des données en termes de topologie du réseau.

47. Nommez les langages importants utilisés par les ingénieurs de données ?

Quelques champs utilisés par l'ingénieur de données sont :

  1. Apprentissage automatique
  2. Analyse des tendances et régression
  3. Probabilité et algèbre linéaire
  4. Bases de données Hive QL et SQL

48. Qu'est-ce qu'un message Heartbeat ?

Le nœud Hadoop Name et le nœud de données communiquent à l'aide de Heartbeat. Par conséquent, Heartbeat est un signal envoyé par le nœud de données à namenode après un intervalle de temps régulier pour indiquer sa présence (pour indiquer qu'il est vivant).

49. Définir le Big Data ?

Le Big Data est un terme utilisé pour décrire le grand volume de données (structurées et non structurées) qui envahit une entreprise au quotidien. C'est ce que les organisations font avec les données qui compte. Les données volumineuses sont analysées pour obtenir des informations qui conduisent à des mouvements commerciaux stratégiques et à de meilleures décisions.

50. Définir l'objet de contexte dans Hadoop ?

L'objet Context permet au Mapper ou au Reducer de communiquer avec le reste du système Hadoop. Il inclut les données de configuration du travail et les interfaces qui lui permettent d'émettre la sortie. Les applications utilisent le Contexte : pour signaler la progression.

Questions et réponses pour l'entretien d'embauche d'un ingénieur de données

51. Définir la planification FIFO ?

Questions d'entretien avec un ingénieur de données - Ordonnancement FIFO

L'algorithme original de planification des tâches Hadoop qui a été intégré dans le JobTracker est le FIFO. En tant que processus, le JobTracker a extrait les travaux de la file d'attente de travail, qui indique le travail le plus ancien en premier. C'est ce qu'on appelle la planification Hadoop FIFO.

52. Qu'utilisons-nous Hive dans l'écosystème Hadoop ?

Hive est un peu de l'écosystème Hadoop et fournit l'interface de type SQL à Hadoop. C'est le système d'entrepôt de données pour Hadoop qui peut faciliter les requêtes ad hoc, la synthèse facile des données et l'analyse d'énormes ensembles de données stockés dans des systèmes de fichiers compatibles Hadoop.

53. Comment est définie la distance entre deux nœuds dans Hadoop ?

La distance est définie comme étant égale à la somme de la distance aux nœuds les plus proches. Nous utilisons la méthode getDistance() pour calculer la distance entre deux nœuds.

54. Qu'utilisons-nous Metastore dans Hive ?

Metastore peut être défini comme le référentiel central des métadonnées Apache Hive. Il est utilisé pour stocker les métadonnées des tables et partitions Hive dans une base de données relationnelle. Les clients peuvent accéder à ces informations à l'aide de l'API du service metastore.

55. Définir le matériel de base dans Hadoop ?

Il s'agit de matériel informatique abordable et facile à obtenir. Fondamentalement, il s'agit d'un système peu performant et compatible IBM PC, et il est capable d'exécuter Linux , Microsoft Windows ou MS-DOS sans aucun dispositif ou équipement spécial.

Questions et réponses pour l'entretien d'embauche d'un ingénieur de données

56. Nommez les composants disponibles dans le modèle de données Hive ?

Les composants de Hive :

  1. Seaux
  2. les tables
  3. Cloisons

57. Qu'est-ce qu'un facteur de réplication dans HDFS ?

Le facteur de réplication est essentiellement le nombre de fois que le framework Hadoop réplique chaque bloc de données. Le bloc est répliqué afin de fournir une tolérance aux pannes. Le facteur de réplication par défaut sera de trois, qui peut ensuite être configuré selon les besoins ; il peut être changé à 2 ou peut être augmenté.

58. Est-il possible de créer plus d'un seul tableau pour un fichier de données individuel ?

Oui, on peut créer plus d'une table pour un fichier de données. Dans Hive, les schémas sont stockés dans le metastore. Par conséquent, il est facile d'obtenir le résultat pour les données correspondantes.

59. Pouvez-vous nous expliquer le travail quotidien d'un Data Engineer ?

  1. Traitement des données au sein de l'organisation.
  2. Maintenir les systèmes sources de données et les zones de transit.
  3. Faire de l'ETL et de la transformation de données.
  4. Simplifier le nettoyage des données et améliorer la déduplication et la construction des données.
  5. Ils doivent créer et extraire des requêtes de données ad hoc.

60. Lister les collections présentes dans Hive ?

Hive possède les collections ou types de données mentionnés ci-dessous :

  1. Déployer
  2. Carte
  3. Structure
  4. syndicat

61. Qu'est-ce qu'un Combiner dans Hadoop ?

Un Combiner, également appelé semi-réducteur, est une classe facultative qui fonctionne en acceptant les entrées de la classe Map, puis transmet les paires clé-valeur de sortie à la classe Reducer. La fonction d'un Combiner est de résumer les enregistrements de sortie de la carte avec une clé similaire.

62. Que sont les tables asymétriques dans Hive ?

Lorsqu'il y a une table avec les données asymétriques dans la colonne de jointure, nous utilisons la fonction de jointure asymétrique. C'est une table qui a des valeurs présentes en grand nombre dans la table par rapport à d'autres données.

63. Définir le mode sans échec dans HDFS ?

Le mode sans échec pour le NameNode est un mode en lecture seule pour le cluster HDFS, où il n'autorise aucune autre modification du système de fichiers ou des blocs.

64. Nommez les fonctions de création de table présentes dans Hive ?

Ci-dessous sont mentionnées quelques-unes des fonctions de création de table dans Ruche:

  1. Éclater (tableau)
  2. Exploser (carte)
  3. JSON_tuple()
  4. Empiler()

En dehors de questions techniques , l'intervieweur vous posera des questions scénarisées auxquelles vous devrez répondre en fonction de votre expérience et de votre maîtrise du Data Engineering. J'ai énuméré quelques questions basées sur des scénarios et générales auxquelles vous pourriez être confrontées lors de votre entretien. Assurez-vous également de vous préparer avec les questions mentionnées ci-dessous.

65. Avez-vous formé quelqu'un dans votre domaine ? Quels défis avez-vous rencontrés ?

66. Avez-vous travaillé avec Hadoop Framework ?

67. Quels outils ETL connaissez-vous ?

68. Parlez-nous d'un scénario dans lequel vous étiez censé rassembler des données provenant de différentes sources, mais avez rencontré des problèmes inattendus, et comment l'avez-vous résolu ?

69. Selon vous, qu'est-ce qui est le plus difficile dans le métier d'ingénieur de données ?

70. Pourquoi avez-vous étudié l'ingénierie des données ?

Bonne chance pour votre entretien avec un ingénieur de données, et nous espérons que nos questions et réponses sur l'entretien avec un ingénieur de données vous ont été utiles. Vous pouvez également consulter notre Questions et réponses de l'entrevue d'analyste de données , ce qui pourrait vous être utile.