Les 45 principales questions d'entretien d'Apache Spark

2 janvier 2022

Nous comprenons que le fait de donner un entretien peut parfois vous rendre nerveux, surtout lorsque vous devez donner un entretien d'embauche Big Data. Chaque candidat ressent le besoin de se préparer avant de se lancer dans un travail de Big Data ou un entretien d'embauche de développeur Spark.

Il est difficile de prédire les types de questions qui vous seront posées lors de l'entretien. Par conséquent, pour vous aider, nous avons dressé une liste des principales questions et réponses d'entretien Apache Spark que vous pouvez préparer avant de vous présenter à votre entretien d'embauche de développeur Spark ou de traitement de données volumineuses. Regarde ça article pour les questions d'entrevue générales.

Table des matières



Qu'est-ce qu'Apache Spark ?

Avant d'aller de l'avant, comprenons d'abord ce qu'est Apache Spark. Étincelle apache est un cadre de traitement de données flexible qui est assez facile à utiliser et qui permet aux utilisateurs de professionnels du Big Data d'exécuter efficacement le streaming. Apache Spark est un moteur de plate-forme de traitement de données rapide et plus général. Cette plate-forme a été développée pour un calcul rapide et a été développée à l'UC Berkeley en 2009. Avec l'aide d'apache-spark, vous pouvez distribuer des données dans le système de fichiers à travers le cluster et traiter ces données en parallèle. De plus, vous pouvez facilement écrire une application en Java, Python ou Scala. Cette plate-forme a été développée pour surmonter les limites du paradigme de calcul en cluster Map-Reduce, car l'étincelle est capable de conserver les données en mémoire. Cependant, MapReduce mélange les données dans et hors du disque mémoire. De plus, spark prend en charge les requêtes SQL, les données en continu et le traitement des données graphiques. Et surtout, apache-spark ne s'exécute pas sur Hadoop car il s'exécute seul en utilisant un stockage tel que des données stockées dans Cassandra, S3, à partir desquelles la plate-forme Spark peut écrire et lire. Apache Spark s'exécute 100 fois plus vite que Hadoop MapReduce.

Principales questions et réponses des entretiens avec Apache Spark

Nous répertorions les principales questions et réponses d'entretien Apache Spark que vous pouvez préparer avant de vous présenter à votre entretien d'embauche Big Data.

un. Quelles sont les principales caractéristiques d'Apache Spark ?

Les principales caractéristiques d'Apache Spark sont les suivantes :

  • Évaluation paresseuse - Le concept d'évaluation paresseuse est utilisé par apache spark pour retarder l'évaluation jusqu'à ce qu'elle devienne obligatoire.
  • Prise en charge des langages de programmation - Vous pouvez écrire le code Spark dans quatre langages de programmation tels que Java, Python, R et Scala. De plus, la plate-forme fournit également des API de haut niveau dans ces langages de programmation. Spark fournit des shells en Python et Scala. Vous pouvez facilement accéder aux shells python et scala via le répertoire ./bin/pyspark et le répertoire .bin/spark-shell, respectivement.
  • Apprentissage automatique - La fonction d'apprentissage automatique d'Apache Spark est utile pour le traitement du Big Data car elle supprime le besoin d'utiliser des moteurs distincts pour l'apprentissage automatique et le traitement.
  • Prise en charge de plusieurs formats - Toutes vos sources de données multiples telles que JSON, Hive et Parquet sont prises en charge par l'étincelle. De plus, pour accéder aux données structurées via Spark SQL, vous disposez de mécanismes enfichables proposés par l'API des sources de données.
  • Vitesse- Apache Spark s'exécute 100 fois plus vite que Hadoop MapReduce. Apache Spark est capable d'atteindre cette vitesse grâce à un portionnement contrôlé. Cela signifie qu'apache-spark gère les données au moyen d'un partitionnement qui aide en outre à paralléliser le traitement des données distribuées avec un trafic minimum sur le réseau.
  • Intégration Hadoop - Apache Spark fournit une connectivité efficace avec Hadoop. De plus, l'utilisation de spark est meilleure lorsqu'il s'agit de Hadoop MapReduce.
  • Traitement en temps réel - Grâce au calcul de la mémoire d'apache-spark, le calcul et le traitement en temps réel ont une faible latence.
Voir également Les iPhones peuvent-ils attraper des virus ? Comment vérifier et supprimer les virus

deux. Quels sont les avantages d'Apache Spark par rapport à Hadoop MapReduce ?

C'est l'une des questions d'entretien apache spark qui peuvent être posées lors d'un entretien. Voici les avantages d'apache spark par rapport à Hadoop map-reduce.

  • Multitâche - Hadoop ne prend en charge que le traitement par lots via des bibliothèques intégrées. D'autre part, pour effectuer plusieurs tâches, apache-spark est livré avec des bibliothèques intégrées et vous pouvez les utiliser pour le traitement par lots, les requêtes SQL interactives, l'apprentissage automatique et le streaming.
  • Vitesse améliorée - lorsque vous utilisez apache-spark, vous devez avoir remarqué que la vitesse de traitement de la mémoire de spark est 100 fois plus rapide que Hadoop map-reduce.
  • Pas de dépendance au disque - Hadoop MapReduce dépend des disques et apache spark utilise le stockage et la mise en cache des données de la mémoire intégrée.

3. Quelle est la fonction d'un moteur à étincelle?

On peut utiliser un moteur Spark pour distribuer, planifier et surveiller l'application de données dans le cluster.

Quatre. Qu'entendez-vous par partitions ?

La partition signifie une division plus petite et logique d'informations ou de données. La partition est similaire à la division dans MapReduce. Le partitionnement peut être défini comme un processus permettant d'accélérer le traitement des données en dérivant des unités logiques de données. Toutes les données Spark sont un RDD partitionné.

5. Qu'est-ce que le concept de jeux de données distribués résilients ? Indiquez également la méthode de création d'un nouveau RDD dans apache spark.

Une collection ou un groupe d'éléments opérationnels à tolérance de pannes, capables de s'exécuter en parallèle, est connu sous le nom de RDD (ensembles de données distribués résilients). Ainsi, s'il existe des données partitionnées dans un RDD, elles sont distribuées et immuables.

On peut dire que les RDD sont de petites portions de données qui peuvent être stockées dans la mémoire, qui est répartie sur de nombreux nœuds. De plus, Spark utilise une évaluation paresseuse, et ainsi les RDD sont évalués paresseusement, ce qui aide Spark à atteindre une vitesse énorme. Il existe deux types de RDD.

  1. Ensembles de données Hadoop - Ces types de RDD impliquent l'exécution de fonctions sur chaque enregistrement de fichier stockées dans un système de fichiers distribué Hadoop (HDFS) ou d'autres systèmes de stockage.
  2. Collections parallélisées - Ce sont des RDD qui s'exécutent parallèlement les uns aux autres.

Maintenant, si nous parlons de créer un nouveau RDD dans apache-spark, il y a deux façons.

  • Vous pouvez créer un RDD en parallélisant une collection dans le programme du pilote. Cette méthode utilise la méthode de parallélisation des contextes spark.
  • Via un stockage externe en chargeant un jeu de données externe qui inclut HBase, HDFS et un système de fichiers partagé.

6. Quelles sont les opérations prises en charge par RDD ?

Les fonctions supportées par RDD sont les transformations et les actions.

7. Que sont les transformations dans spark ?

Les transformations dans spark signifient les fonctions qui sont appliquées aux RDD, qui se traduisent par un nouveau RDD. Cependant, les fonctions ne sont pas exécutées tant qu'il n'y a pas d'occurrence d'action. Quelques exemples de transformations sont les fonctions map() et filter(), où la fonction map() est répétée sur chaque ligne du RDD et se divise pour former un nouveau RDD. D'autre part, la fonction filter () aide à créer un nouveau RDD en choisissant des éléments du RDD Spark actuel.

8. Qu'entendez-vous par actions en étincelle ?

Les actions dans spark signifient ramener les données d'un RDD vers une machine locale. Les actions dans spark sont essentiellement des opérations RDD qui donnent des valeurs non RDD. Quelques exemples d'actions sont la fonction reduce(), qui est une action que vous pouvez implémenter à plusieurs reprises jusqu'à ce qu'il reste une valeur. Ensuite, il y a l'action take () qui prend toutes les valeurs d'un RDD et les transmet au système de fichiers local.

9. Quelles sont les fonctions du noyau d'étincelle ?

Certaines des fonctions du noyau d'étincelle sont les suivantes :

  • Surveillance des travaux
  • Fournit une tolérance aux pannes
  • Planification des tâches
  • Interaction avec les systèmes de stockage
  • Gestion de la mémoire

10. Qu'entendez-vous par lignée RDD ?

La lignée Spark RDD est utilisée pour reconstruire les données perdues, car Spark ne prend pas en charge la réplication des données en mémoire. Par conséquent, la lignée Spark RDD aide à reconstruire les partitions de données perdues.

11. Qu'entendez-vous par pilote d'étincelle ?

Le programme qui s'exécute sur le nœud maître d'une machine et déclare les actions et les transformations sur les RDD de données est appelé programme pilote Spark. En d'autres termes, un pilote Spark aide à créer un contexte Spark et à fournir des graphiques RDD au maître, où le gestionnaire de cluster autonome est en cours d'exécution.

12. Définissez le terme flux d'étincelles.

L'une des questions les plus posées lors d'un entretien avec Apache Spark consiste à définir le terme Spark Streaming. Le streaming Spark est une extension de l'API Spark qui permet aux utilisateurs de diffuser des flux de données en direct. Les données sont traitées à partir de différentes sources de données telles que Flume, Kinesis et Kafka . Ces données traitées sont ensuite stockées sur des systèmes de fichiers, des tableaux de bord en direct et des bases de données. Le traitement des données est similaire au traitement par lots en ce qui concerne les données d'entrée.

13. Quelles sont les fonctions de MLlib dans Apache Spark ?

MLlib est une bibliothèque d'apprentissage automatique fournie par l'étincelle. MLlib vise à rendre l'apprentissage automatique facile et évolutif car il implique des algorithmes d'apprentissage communs, et il utilise des cas tels que le gestionnaire de cluster pour le clustering, le filtrage de régression, la réduction dimensionnelle.

14. Qu'entendez-vous par Spark SQL ?

Spark SQL est également connu sous le nom de requin, et c'est un nouveau module qui aide à effectuer le traitement de données structurées. Spark peut effectuer des requêtes SQL sur les données via ce module. De plus, l'étincelle SQL prend en charge un RDD différent appelé SchemaRDD, composé d'objets de ligne et d'objets de schéma qui définissent le type de données dans différentes colonnes de chaque ligne.

15. Quelles sont les fonctions de Spark SQL ?

Les fonctions de Spark SQL sont les suivantes :

  • Spark SQL peut charger les données à partir de plusieurs sources structurées.
  • Spark SQL peut effectuer des requêtes de données à l'aide des instructions SQL, à la fois dans les programmes Spark et via des outils externes connectés à Spark SQL à l'aide de connecteurs de base de données standard, par exemple, en utilisant de nombreux outils Big Data comme un tableau.
  • Il fournit une intégration entre le code python/Java/Scala régulier et SQL.

16. Qu'entendez-vous par YARN dans Apache Spark ?

Une autre question courante d'entretien avec Apache Spark qui peut être posée lors d'un entretien est la définition de YARN. L'une des principales fonctionnalités de Spark est YARN, il est similaire à Hadoop et fournit une plate-forme de gestion des ressources qui fournit des opérations évolutives sur l'ensemble du cluster. De plus, si vous exécutez Apache Spark sur YARN, vous avez besoin d'une distribution binaire de Spark basée sur le support YARN.

Voir également Comment ajouter une pochette d'album au MP3

17. Que voulez-vous dire par Spark Executor ?

Lorsque vous connectez le contexte Spark au gestionnaire de cluster, il obtient un exécuteur sur les nœuds du cluster. Les exécuteurs Spark facilitent l'exécution des calculs et stockent les données sur les nœuds de travail. Les dernières fonctions par contexte spark sont déplacées vers les exécuteurs pour leur exécution.

18. Mentionner les différents types de cluster managers dans spark ?

Il existe trois types de gestionnaires de cluster pris en charge par le framework Spark.

  1. Autonome - il s'agit d'un gestionnaire de cluster de base qui aide à configurer un cluster.
  2. Apache Mesos - il s'agit du gestionnaire de cluster le plus couramment utilisé dans Hadoop MapReduce et l'application Spark.
  3. YARN - il s'agit d'un gestionnaire de cluster responsable de la gestion des ressources dans Hadoop.

19. Qu'entendez-vous par dossier Parquet ?

Un fichier au format colonnaire est connu sous le nom de fichier parquet, qui est pris en charge par plusieurs autres systèmes de traitement de données. Avec l'aide du fichier parquet, Spark SQL effectue les opérations de lecture et d'écriture et considère le fichier parquet comme le meilleur format d'analyse de données à ce jour.

20. Est-il nécessaire d'installer spark sur tous les nœuds du cluster YARN pendant que vous exécutez apache spark sur YARN ?

Il n'est pas nécessaire d'installer spark sur tous les nœuds du cluster YARN car apache-spark s'exécute au-dessus de YARN.

21. Indiquez les composants de l'écosystème des étincelles ?

Voici les composants de l'écosystème d'étincelles.

  1. MLib- C'est la bibliothèque d'apprentissage automatique pour l'apprentissage automatique.
  2. GraphX ​​- Il sert à implémenter des graphes et des calculs parallèles aux graphes.
  3. Spark core- c'est le moteur de base, qui est utilisé pour le traitement de données parallèle et distribué à grande échelle.
  4. Spark streaming - Spark streaming aide au traitement en temps réel des données de streaming.
  5. Spark SQL - il aide à intégrer l'API de programmation fonctionnelle de Spark avec un traitement rationnel.

22. Pouvez-vous utiliser apache spark pour analyser et accéder aux données stockées sur la base de données Cassandra ?

L'utilisation de spark pour analyser et accéder aux données stockées sur la base de données Cassandra est possible en utilisant le connecteur spark Cassandra. Vous devez connecter Cassandra au projet Spark. Par conséquent, lorsque vous connectez Cassandra à apache-spark, cela vous permet d'effectuer des requêtes beaucoup plus rapidement en réduisant l'utilisation du réseau pour l'envoi de données entre les nœuds Cassandra et les exécuteurs Spark.

23. Définir le noeud worker ?

Un nœud de travail est un nœud capable d'exécuter le code dans un cluster. Par conséquent, le programme du pilote doit écouter et accepter la même chose des exécuteurs pour les connexions entrantes. De plus, le programme du pilote doit être adressable par le réseau à partir des nœuds de travail.

24. Quelle est la procédure pour connecter apache spark avec apache mesos ?

La procédure pour connecter apache spark avec apache Mesos est la suivante :

  1. La première étape consiste à mesos configurer le programme du pilote spark pour le connecter avec apache mesos.
  2. Vous devez placer le paquet binaire spark à un emplacement accessible par apache mesos.
  3. Installez maintenant apache-spark au même endroit que apache mesos.
  4. Pour pointer vers l'emplacement où apache spark est installé, vous devez configurer la propriété home de l'exécuteur spark Mesos.

25. Quels sont les moyens de minimiser les transferts de données lorsque vous travaillez avec spark ?

Pour écrire des programmes Spark capables de s'exécuter rapidement et fiables, il est important de minimiser les transferts de données. Ce sont les moyens de minimiser les transferts de données pendant que vous travaillez avec apache spark.

  • Utilisez des accumulateurs - pour minimiser les transferts de données, vous pouvez utiliser des accumulateurs car ils permettent de mettre à jour les valeurs des variables pendant que vous les exécutez en parallèle.
  • Éviter - Vous pouvez minimiser les transferts de données en évitant la répartition, les opérations Bykey et d'autres opérations responsables du déclenchement des mélanges.
  • Utilisez des variables de diffusion - vous pouvez améliorer l'efficacité des jointures entre le petit et le grand RDD en utilisant les variables de diffusion.

26. Expliquez les variables de diffusion dans apache-spark et quelles sont leurs utilisations ?

L'une des questions les plus posées lors des entretiens avec Apache Spark concerne les variables de diffusion. Les variables de diffusion dans apache spark sont très utiles car au lieu d'expédier une copie d'une variable avec des tâches; une variable de diffusion permet de conserver une version en cache en lecture seule de la variable.

De plus, chaque nœud reçoit une copie d'un grand ensemble de données d'entrée tel qu'il est fourni par les variables de diffusion. Pour réduire les coûts de communication, apache-spark utilise des algorithmes de diffusion efficaces pour distribuer les variables de diffusion.

Une autre utilisation des variables de diffusion consiste à réduire le besoin d'expédier les copies d'une variable de chaque tâche. Pour améliorer l'efficacité de la récupération, les variables de diffusion aident également à stocker une table de recherche dans la mémoire par rapport à RDD lookup().

27. Les points de contrôle sont-ils fournis par Apache Spark ?

Les points de contrôle sont fournis par apache spark. Les points de contrôle permettent à un programme de fonctionner 24h/24 et 7j/7 et le rendent résistant aux pannes. Afin de récupérer les RDD après une panne, des graphiques de lignage sont utilisés.

De plus, pour ajouter et gérer les points de contrôle, apache-spark est équipé d'une API. L'utilisateur peut ainsi décider quelles données ajouter au point de contrôle. De plus, les points de contrôle sont davantage préférés aux graphiques de lignage, car les graphiques de lignage ont des dépendances plus larges.

28. Mentionnez les niveaux de persistance dans Apache Spark ?

Il existe différents niveaux de persistance dans Apache Spark pour stocker les RDD sur le disque, la mémoire ou une combinaison de disque et de mémoire avec différents niveaux de réplication. Voici les niveaux de persistance dans l'étincelle :

  • Mémoire et disque - La mémoire et le disque stockent le RDD dans la JVM en tant qu'objets JAVA désérialisés. Si le RDD ne rentre pas dans la mémoire, certaines parties du RDD sont stockées sur le disque.
  • DISQUE uniquement - Comme son nom l'indique, le niveau de persistance du disque uniquement stocke les partitions RDD sur le disque uniquement.
  • Mémoire uniquement ser- La mémoire uniquement ser stocke RDD avec un tableau d'un octet par partition et en tant qu'objets JAVA sérialisés.
  • Serr de mémoire et de disque- Ce niveau de persistance est assez similaire au ser de mémoire uniquement avec une différence de partitions stockées sur le disque lorsqu'ils sont incapables de tenir dans la mémoire.
  • Mémoire uniquement - Il stocke le RDD dans la JVM en tant qu'objets JAVA désérialisés. Dans le cas où le RDD ne rentre pas dans la mémoire, certaines parties du RDD ne seront pas mises en cache et devront être recalculées à la volée.
  • Hors tas - Ce niveau de persistance est similaire à la mémoire uniquement ser, mais il stocke les données sur la mémoire hors tas.
Voir également 11 correctifs pour Recaptcha ne fonctionnant pas dans Chrome, Firefox ou n'importe quel navigateur

29. Quelles sont les limites de l'utilisation d'Apache Spark ?

Certaines des limitations de l'utilisation d'Apache Spark sont les suivantes :

  • Apache Spark n'a pas de système de gestion de fichiers intégré. Par conséquent, vous devez intégrer Spark à d'autres plates-formes telles que Hadoop pour un système de gestion de fichiers.
  • Le processus de diffusion de données en temps réel n'est pas pris en charge. Dans apache-spark, le flux de données en direct est partitionné en lots et, même après traitement, est converti en lots. Par conséquent, nous pouvons dire que le Spark Streaming est un traitement par micro-lots et ne prend pas en charge le traitement des données en temps réel.
  • Le nombre d'algorithmes disponibles sur spark est moindre.
  • Les critères de fenêtre basés sur les enregistrements ne prennent pas en charge la diffusion Spark.
  • Vous ne pouvez pas tout exécuter sur un seul nœud et le travail doit être réparti sur plusieurs clusters.
  • Si vous utilisez Spark pour un traitement Big Data rentable, la capacité de mémoire intégrée devient difficile.

30. Indiquez la manière de déclencher des nettoyages automatisés dans apache spark autre que « spark.cleaner.ttl » ?

Une autre façon de déclencher des nettoyages automatisés dans Spark consiste à répartir les tâches de longue durée en différents lots et à écrire le résultat intermédiaire sur le disque.

31. Mentionnez le rôle d'Akka dans Spark?

Akka effectue le processus de planification dans Spark. À l'aide d'un processus de planification, les travailleurs et les supérieurs peuvent envoyer ou recevoir des messages pour les tâches.

32. Expliquer schemaRDD dans apache spark RDD ?

Le RDD qui transporte plusieurs objets de ligne comme des wrappers autour de la chaîne régulière ou des tableaux d'entiers avec les informations de schéma sur le type de données dans chaque colonne est appelé ShemaRDD. Cependant, il est renommé en tant qu'API DataFrame maintenant.

33. Quelle est la raison de la conception de schemaRDD ?

La raison de la conception de SchemaRDD est d'aider les développeurs dans le débogage de code et les tests unitaires sur le module principal sparkSQL.

34. Quelle est la procédure pour supprimer les éléments lorsque la clé est présente dans tout autre RDD ?

Vous pouvez facilement supprimer les éléments lorsque la clé est présente dans n'importe quel autre RDD à l'aide de la fonction soustraire la clé ().

35. Indiquez la différence entre persist () et cache ()

Les utilisateurs peuvent spécifier le niveau de stockage à l'aide de persist (), et d'autre part, cache () utilise le niveau de stockage par défaut.

36. Qu'entendez-vous par mémoire Executor dans une application Spark ?

Pour un exécuteur d'étincelles, chaque application d'étincelles a un nombre fixe de taille de noyau et de tas. La mémoire de l'exécuteur Spark, que la propriété spark.executor.memory de l'indicateur -executor-memory contrôle, est appelée taille de tas.

Chaque nœud de travail aura un exécuteur sur l'application Spark. L'application utilise une partie de la mémoire du nœud de travail et la mémoire de l'exécuteur aide à mesurer la quantité de mémoire utilisée par l'application.

37. Quels sont les moyens d'identifier l'opération donnée comme une transformation ou une action dans un programme Spark ?

Les utilisateurs peuvent facilement identifier l'opération comme étant une transformation ou une action basée sur le type de retour.

  • Une opération est une transformation lorsque le type de retour est le même que le RDD.
  • Une opération est une action lorsque le type de retour n'est pas le même que RDD.

38. Selon vous, quelles sont les erreurs courantes commises par les développeurs Spark ?

Certaines des erreurs courantes commises par les développeurs d'étincelles sont les suivantes :

  • Les développeurs Spark peuvent faire des erreurs lors de la gestion des graphes acycliques dirigés (DAG).
  • Les développeurs d'étincelles peuvent également faire des erreurs tout en conservant la taille requise pour les blocs aléatoires.

39. Mentionnez certaines entreprises qui utilisent le Spark Streaming ?

Certaines des entreprises qui utilisent le Spark Streaming sont les suivantes :

  • Uber
  • Netflix
  • Pinterest
  • Alibaba
  • Amazone

40. Pouvons-nous utiliser Apache Spark pour l'apprentissage par renforcement ?

Apache Spark n'est pas préféré pour l'apprentissage par renforcement car il ne convient qu'aux algorithmes d'apprentissage automatique simples tels que le clustering, la régression et la classification.

41. Comment Spark gère-t-il la surveillance et la journalisation en mode autonome ?

Apache Spark utilise une interface utilisateur Web pour surveiller le cluster en mode autonome, qui affiche les statistiques du cluster et des tâches. De plus, le résultat du journal pour chaque tâche est écrit dans le répertoire de travail des nœuds esclaves.

42. Énoncez le flux de travail commun d'un programme Spark.

Le flux de travail commun d'un programme Spark est le suivant :

  1. La première étape d'un programme Spark consiste à créer des RDD d'entrée à partir des données externes.
  2. Création de nouveaux RDD transformés basés sur la logique métier en utilisant plusieurs transformations RDD comme Filter().
  3. Persist() tous les RDD intermédiaires qui devront peut-être être réutilisés à l'avenir.
  4. Pour démarrer le calcul parallèle, utilisez diverses actions RDD telles que first(), count(). Spark optimisera et exécutera ainsi ces actions.

43. Quelles sont les différences entre Spark SQL et Hive ?

Voici les différences entre Spark SQL et Hive.

  • Si vous utilisez Spark SQL, vous savez peut-être qu'il est plus rapide que Hive.
  • Vous pouvez exécuter un Ruche requête dans Spark SQL. Cependant, vous ne pouvez pas exécuter la requête SQL dans HIVe.
  • Hive est un framework, alors que Spark SQL est une bibliothèque.
  • Il n'est pas nécessaire pour créer un metastore en SQL. Cependant, il est obligatoire de créer un metastore dans Hive.
  • Spark SQL peut déduire automatiquement le schéma, mais dans Hive, vous devez le faire manuellement car le schéma doit être explicitement déclaré.

44. Qu'entendez-vous par récepteurs dans Spark Streaming ?

Les entités spéciales du streaming Spark sont appelées récepteurs car elles consomment des données provenant de plusieurs sources de données et les localisent dans Apache Spark. Les contextes de diffusion créent les récepteurs car les tâches de longue durée sont programmées pour s'exécuter de manière circulaire, chaque récepteur obtenant un seul cœur.

45. Que voulez-vous dire par une fenêtre coulissante en étincelle ? Expliquez avec un exemple.

Une fenêtre coulissante dans spark est utilisée pour spécifier chaque lot de flux d'étincelles, qui doit passer par le traitement. Par exemple, à l'aide d'une fenêtre coulissante, vous pouvez définir les intervalles de traitement par lots, et les lots spécifiques seront traités dans ces intervalles.

Conclusion

Nous espérons que vous avez apprécié les questions et réponses de l'entretien avec Apache Spark mentionnées ci-dessus. Maintenant, vous pouvez facilement déchiffrer toutes vos questions d'entretien d'embauche Big Data. Parcourez toutes les questions et réponses de l'entretien d'Apache Spark pour avoir une idée du type de questions d'entretien qui sont posées lors d'un entretien d'embauche Big Data.