Top 60 des questions et réponses des entretiens avec les analystes de données

2 janvier 2022

L'analyse des données est définie comme un processus d'inspection, de transformation, de nettoyage et de modélisation des données dans le but de découvrir des informations utiles et d'aider à la prise de décision.

Qu'est-ce qu'un analyste de données ? L'analyste de données agit comme un gardien des données ou des informations de l'organisation afin que les parties prenantes puissent comprendre les données et les utiliser pour prendre des décisions commerciales stratégiques. C'est une sorte de rôle technique qui nécessite un diplôme de premier cycle ou une maîtrise en analyse, modélisation informatique, mathématiques ou sciences.

Les outils d'analyse de données sont principalement utilisés pour extraire des informations utiles des données commerciales et aider les analystes de données à faciliter le processus d'analyse des données.



Nous avons noté les questions et réponses les plus fréquemment posées aux analystes de données dans notre blog. Assurez-vous de passer par nos 60 meilleures questions et réponses d'entrevue d'analyste de données.

Table des matières

TOP Questions et réponses de l'entretien d'embauche d'un analyste de données

1. Pouvez-vous nous parler de quelques problèmes que rencontrent généralement les analystes de données lors de l'analyse ?

Voici quelques-uns des défis auxquels les analystes de données sont confrontés :

    La quantité de données collectées: L'organisation ou l'entreprise reçoit quotidiennement des informations sur chaque incident et interaction, laissant aux analystes des milliers d'ensembles de données imbriqués.Collecter des données significatives et en temps réel: Avec beaucoup de données disponibles, il est difficile pour les analystes de creuser toutes les données et d'accéder aux informations les plus nécessaires.Représentation visuelle des données: Des systèmes de données solides doivent permettre la création de rapports en un clic. Les Employés et les décideurs auront accès aux informations en temps réel dont ils ont besoin dans un format attrayant et pédagogique.Données provenant de plusieurs sources: Ensuite, un problème que nous avons est d'essayer d'analyser les données à travers diverses sources multiples et disjointes. Ici, différentes données sont souvent hébergées dans différents systèmes.Données inaccessibles: Déplacer les données dans un système centralisé a un impact si elles ne sont pas facilement accessibles aux utilisateurs qui en ont besoin.Données de mauvaise qualité :Sans une bonne entrée, la sortie ne sera pas fiable. Donc, ce qu'ils recueillent doit être exact.Manque de soutien: L'analyse des données ne peut être efficace sans le soutien de l'organisation, à la fois des employés de niveau supérieur et inférieur.

2. Pouvez-vous expliquer l'agrégation et la désagrégation des données ?

Données réunies fait référence aux informations numériques ou non numériques qui sont collectées à partir de plusieurs sources ou sur plusieurs mesures, variables ou individus et compilées dans les résumés de données ou les rapports de synthèse, principalement à des fins de rapport public ou d'analyse statistique.

Données désagrégées sont les données ventilées par sous-catégories détaillées, par exemple, par groupe marginalisé, région, sexe ou niveau d'éducation. Les données désagrégées peuvent révéler les privations et les inégalités qui peuvent ne pas être pleinement reflétées dans les données agrégées.

3. Pouvez-vous expliquer les étapes à suivre pour gérer les classeurs Excel lents ?

Les étapes suivies pour gérer les classeurs Excel lents sont indiquées ci-dessous :

  1. Utilisez des tableaux Excel et des plages nommées.
  2. Utilisez le mode de calcul manuel dans la mesure du possible.
  3. Évitez les fonctions volatiles.
  4. Évitez les formules matricielles.
  5. Évitez d'utiliser une ligne ou une colonne entière dans les références.
  6. Convertir les formules inutilisées en valeurs.
  7. Utilisez des techniques de formule plus rapides.
  8. Assurez-vous de conserver toutes les données référencées dans une seule feuille.
Voir également Top 100 des questions et réponses d'entrevue Ansible

4. Pouvez-vous expliquer comment fonctionne PROC SQL ?

PROC SQL est défini comme une puissante procédure de base SAS7 qui combine à la fois les fonctionnalités des étapes PROC et DATA en une seule étape. PROC SQL est utilisé pour trier, résumer, créer des sous-ensembles, joindre et concaténer les ensembles de données, créer de nouvelles variables, et il imprime également les résultats ou crée une nouvelle table ou affiche tout en une seule étape.

5. Pouvez-vous me dire comment créer des histoires dans Tableau ?

Nous utilisons des histoires pour rendre notre cas plus convaincant en montrant comment les faits sont liés et comment les décisions sont liées aux résultats. Nous pouvons ensuite publier l'histoire sur le web, ou nous pouvons la présenter au public.

Ici, chaque point du reportage peut se rapporter à une vue ou à un tableau de bord différent, ou le récit entier peut se rapporter à la même visualisation vue à différentes étapes, avec des annotations et des filtres différents.

Pour créer une histoire, suivez les étapes ci-dessous :

  1. Cliquez sur l'onglet Nouvelle histoire. Puis, Tableau ouvre une nouvelle histoire pour vous comme point de départ.
  2. Dans le coin inférieur gauche de l'écran, vous devez choisir une taille pour votre histoire. Ensuite, choisissez parmi l'une des tailles prédéfinies ou parmi l'ensemble d'une taille personnalisée en pixels.
  3. Votre récit tire son nom du titre du nom de feuille par défaut. Pour modifier le nom, vous devez cliquer avec le bouton droit sur l'onglet de la feuille, puis choisir Renommer la feuille.
  4. Pour commencer à construire votre histoire, vous devez double-cliquer sur une feuille sur le côté gauche pour l'ajouter à votre point d'histoire.
  5. Maintenant, vous devez cliquer sur ajouter une légende pour résumer le point de l'histoire.
  6. Pour mettre davantage en évidence l'idée principale de ce plan de reportage, vous pouvez modifier le filtre ou trier sur le champ dans la vue. Ensuite, vous pouvez enregistrer vos modifications en cliquant sur mettre à jour dans la barre d'outils de l'histoire qui est présente au-dessus de la boîte de navigation.

Découvrez notre Questions et réponses de l'entretien Tableau pour plus d'informations sur Tableau.

Questions et réponses de l'entrevue d'analyste de données

6. Nommez les différents types de tests d'hypothèses ?

Quelques-uns des types de tests d'hypothèse sont énumérés ci-dessous :

    Test de normalité :Ce test est utilisé pour la distribution normale dans un échantillon de population.Test du chi carré pour l'indépendance :Il est utilisé pour l'association de signification entre les deux variables catégorielles dans un échantillon de population donné.Test T :Il est utilisé dans une population distribuée normalement où l'écart type est inconnu et la taille de l'échantillon est comparativement plus petite.Test T de Welch :Il est utilisé pour tester l'égalité des moyennes entre les deux échantillons de population. Il est également appelé test t des variances inégales de Welch.

7. Qu'entendez-vous par zone d'impression et comment pouvez-vous la définir dans Excel ?

La zone d'impression dans Excel est la plage de cellules que vous souhaitez imprimer chaque fois que vous imprimez cette feuille de calcul particulière.

Pour définir la zone d'impression dans Excel, suivez les étapes ci-dessous :

  1. Vous devez sélectionner les cellules pour lesquelles vous souhaitez définir la zone d'impression.
  2. Ensuite, vous devez cliquer sur l'onglet Mise en page.
  3. Ensuite, cliquez sur la zone d'impression.
  4. Cliquez sur Définir la zone d'impression.

8. Pouvez-vous nous dire quels sont les critères pour dire si un modèle de données développé est bon ou non ?

Ci-dessous sont mentionnés les critères à dire sur le modèle, qu'il soit bon ou mauvais (Note : La réponse à cette question peut varier d'une personne à l'autre).

  1. Les données d'un bon modèle doivent être facilement consommées.
  2. Les données doivent être évolutives pour un bon modèle de données.
  3. Un bon modèle de données doit fournir des performances prévisibles.
  4. Il devrait facilement s'adapter à l'évolution des exigences.

9. Pouvez-vous nous dire comment sélectionner toutes les cellules vides dans Excel ?

Vous devez suivre les étapes indiquées pour sélectionner des cellules vides dans Excel :

  1. Tout d'abord, vous devez sélectionner l'ensemble de données complet, puis appuyer sur F5. Cela ouvrira une boîte de dialogue Aller à.
  2. Maintenant, cliquez sur le bouton Spécial, ce qui ouvrira la boîte de dialogue spéciale Go-To.
  3. Là, vous devez sélectionner les blancs et cliquer sur OK.

10. Quels sont les différents types de jointures ?

Les différents types de jointures sont listés ci-dessous :

    Jointure interne: cette jointure renvoie les enregistrements dont les valeurs correspondent dans les deux tables.Jointure externe gauche: Cette jointure renvoie tous les enregistrements de la table de gauche et les enregistrements correspondants de la table de droiteJOINTURE EXTERNE DROITE: Cette jointure renvoie tous les enregistrements de la table de droite et les enregistrements correspondants de la table de gaucheJOINTURE EXTERNE COMPLÈTE: Cette jointure renvoie tous les enregistrements lorsqu'il existe une correspondance dans la table de gauche ou de droite.
Questions d'entretien d'analyste de données - Jointures SQL

Questions et réponses de l'entrevue d'analyste de données

11. Pouvez-vous expliquer la fonction ANYDIGIT dans SAS ?

La fonction ANYDIGIT dans SAS est utilisé pour rechercher dans une chaîne la première occurrence de n'importe quel caractère, qui est un chiffre. Si un tel caractère est trouvé, ANYDIGIT renverra la position dans la chaîne de ce caractère spécifié. Si aucun type de caractère n'est trouvé, alors ANYDIGIT renverra une valeur de 0.

12. Expliquez le tableau croisé dynamique et quelles sont les différentes sections d'un tableau croisé dynamique ?

Un tableau croisé dynamique est une fonctionnalité de Microsoft Excel qui nous permet de résumer rapidement de vastes ensembles de données. Il est facile à utiliser car il nécessite de glisser-déposer des lignes ou des en-têtes de colonne pour créer des rapports.

Nous avons quatre sections dans un tableau croisé dynamique, à savoir,

  1. Zone de ligne
  2. Zone de colonne
  3. Zone de filtrage
  4. Espace Valeurs

13. Expliquez le terme normalisation et les différents types de normalisation ?

Normalisation peut être défini comme une technique de conception de base de données qui vise à réduire la redondance des données et à éliminer toutes les caractéristiques indésirables telles que les anomalies d'insertion, de mise à jour et de suppression. Les règles de normalisation divisent une table plus grande en tables plus petites et les relient à l'aide des relations.

Les types de normalisation sont répertoriés ci-dessous :

    1NF (première forme normale): Ici, chaque cellule du tableau doit contenir une seule valeur et chaque enregistrement doit être unique.2NF (Deuxième forme normale): Il doit être au format 1NF et doit avoir une clé primaire à une seule colonne.3NF (troisième forme normale) :Il n'a pas de dépendances fonctionnelles transitives.BCNF (forme normale de Boyce-Codd):Une table est en BCNF si elle est en 3NF, et pour tout X ->Y, la relation X doit toujours être la super clé de la table.4NF (Quatrième Forme Normale): Si aucune instance de table de base de données ne se compose de deux ou plusieurs données indépendantes et multivaluées spécifiant l'entité pertinente, alors nous disons qu'elle est dans la 4ème forme normale.5NF (cinquième forme normale) :Une table n'est dans la 5e forme normale que si elle est en 4NF, et elle ne peut pas être divisée en un nombre quelconque de tables plus petites sans perte de données.6NF (sixième forme normale): Il est encore en discussion par les experts de la base de données.
Voir également Top 100 des questions et réponses d'entrevue JavaScript

14. Qu'est-ce que l'hypothèse alternative ? Expliquer?

Une hypothèse alternative est énoncée comme une différence entre deux variables ou plus qui sont prédites par les chercheurs; c'est-à-dire que le modèle observé des données n'est pas dû à une occurrence fortuite.

15. Qu'est-ce que l'hypothèse nulle ?

Une hypothèse nulle est définie comme un type de conjecture utilisé dans les statistiques qui propose qu'il n'y a pas de différence entre les caractéristiques spécifiques d'une population ou un processus de génération de données.

Questions et réponses de l'entrevue d'analyste de données

16. Qu'est-ce qu'une collision de table de hachage ?

Une situation dans laquelle les hachages résultants pour deux éléments de données ou plus dans l'ensemble de données U correspondent à un emplacement similaire dans la table de hachage est appelée collision de hachage. Cela signifie qu'il ne permettra pas de stocker deux données différentes dans le même emplacement.

17. Pouvez-vous expliquer les principales différences entre l'analyse de données et l'exploration de données ?

L'analyse des données Exploration de données
Il donne les idées ou teste l'hypothèse ou le modèle à partir d'un ensemble de données.Il identifie et découvre un modèle caché dans d'énormes ensembles de données.
Elle est effectuée à la fois sur des données structurées, semi-structurées ou non structuréesSon Les études sont principalement basées sur des données structurées.
Le principal est d'améliorer des hypothèses ou de prendre des décisions commerciales.Le Data Mining vise à rendre les données plus utilisables.
L'analyse des données utilise des modèles d'intelligence d'affaires et d'analyse.L'exploration de données est principalement basée sur des méthodes mathématiques et scientifiques pour identifier des modèles ou des tendances.

18. Pouvez-vous expliquer le nettoyage des données en bref ?

Le nettoyage des données est défini comme le processus de préparation des données pour l'analyse en supprimant ou en modifiant les données qui sont incorrectes, dupliquées, incomplètes, non pertinentes ou mal formatées.

Voici quelques façons de nettoyer les données :

  1. Supprimer les observations en double ou non pertinentes
  2. Corriger les erreurs structurelles
  3. Filtrer les valeurs aberrantes indésirables
  4. Gérer les données manquantes
  5. Valider et AQ

19. Qu'est-ce que le profilage des données ?

Le profilage des données est le mécanisme d'examen des données disponibles à partir d'une source d'informations existante comme une base de données ou le fichier et de collecte des statistiques ou des résumés informatifs sur ces données spécifiques.

vingt. Qu'est-ce que la validation des données ?

La validation des données est un processus de vérification de l'exactitude et de la qualité de nos données, principalement effectué avant l'importation et le traitement. Il est également considéré comme une forme de nettoyage des données. Il nous assure que lorsque vous effectuez une analyse, vos résultats seront exacts.

Questions et réponses de l'entrevue d'analyste de données

21. Pouvez-vous citer quelques-uns des meilleurs outils utilisés pour effectuer l'analyse de données ?

Certains des meilleurs outils utilisés pour effectuer l'analyse des données sont répertoriés ci-dessous :

  1. Python
  2. R
  3. SAS
  4. Exceller
  5. Power BI
  6. Tableau
  7. Apache Étincelle

22. Pouvez-vous nommer les étapes impliquées lorsque vous travaillez avec un projet d'analyse de données ?

Quelques-unes des étapes importantes sont énumérées ci-dessous :

  1. Énoncé du problème
  2. Nettoyage/prétraitement des données
  3. Exploration de données
  4. La modélisation
  5. La validation des données
  6. Mise en œuvre
  7. Vérification

23. Pouvez-vous citer quelques-uns des outils populaires utilisés dans le Big Data ?

Il existe de nombreux outils disponibles pour le Big data. Nous en avons listé quelques-uns :

  1. CHP
  2. Qubolé
  3. Statwing
  4. Pentaho
  5. HadoopName

24. Qu'est-ce que l'analyse des séries chronologiques et où l'utilisons-nous ?

L'analyse de séries chronologiques est définie comme une technique statistique qui traite principalement des données de séries chronologiques ou de l'analyse des tendances. En termes simples, les données de la série chronologique sont les données qui se trouvent dans une série de périodes ou d'intervalles de temps spécifiques.

L'analyse des séries chronologiques est utilisée dans :

  1. Économique
  2. Prévision
  3. Prévision des ventes.
  4. Analyse budgétaire.

25. Pouvez-vous nommer certaines des propriétés des algorithmes de clustering ?

Les propriétés des algorithmes de cluster sont les suivantes :

  1. Itératif
  2. Disjonctif
  3. Dur et doux
  4. Plat ou hiérarchique

Questions et réponses de l'entrevue d'analyste de données

26. Pouvez-vous nous dire quelles sont les valeurs aberrantes et comment elles sont détectées ?

Une valeur aberrante dans l'analyse des données est définie comme une observation qui se situe à une distance irrégulière d'autres valeurs différentes dans un échantillon aléatoire d'une population donnée.

Examen des données pour les observations inhabituelles qui sont retirées de la masse de données, ces points sont souvent appelés valeurs aberrantes.

Voici quelques-unes des méthodologies utilisées pour détecter les valeurs aberrantes :

  1. Méthode de l'écart type
  2. Méthode de la boîte à moustaches

27. Pouvez-vous expliquer les inconvénients de Data Analytics ?

Les inconvénients de Data Analytics sont donnés ci-dessous :

  1. Les informations obtenues à l'aide de l'analyse de données peuvent être utilisées à mauvais escient.
  2. L'une des tâches les plus difficiles dans l'analyse de données consiste à sélectionner le bon outil d'analyse.
  3. Le prix des outils dépend généralement des fonctionnalités et des applications qu'ils prennent en charge. Peu d'outils sont complexes et nécessitent une formation adéquate.

28. Expliquer le filtrage collaboratif ?

Le filtrage collaboratif a la capacité de générer des recommandations plus personnalisées en analysant les informations de l'activité passée d'un utilisateur particulier ou l'historique d'autres utilisateurs qui ont un goût similaire à celui d'un utilisateur donné.

29. Pouvez-vous citer quelques méthodologies statistiques utilisées par les analystes de données ?

Quelques-unes des méthodologies statistiques utilisées par les analystes de données sont présentées ci-dessous :

  1. L'analyse par grappes
  2. Imputation techniques
  3. Statistique de classement
  4. Méthodologies bayésiennes
  5. Processus de Markov

30. Expliquez l'algorithme des K-moyennes ?

Le clustering K-Means est défini comme un algorithme d'apprentissage non supervisé qui regroupe l'ensemble de données non étiqueté en différents clusters. Il peut être défini comme un algorithme itératif qui divise l'ensemble de données non étiqueté en k groupes différents de manière à ce que chaque ensemble de données appartienne à un seul groupe ayant les mêmes propriétés.

Questions et réponses de l'entrevue d'analyste de données

31. Expliquez la méthode d'imputation KNN ?

Avec l'aide de la méthode KNN, une valeur manquante catégorique peut être imputée (assignée) avec la majorité parmi ses k plus proches voisins. La valeur moyenne des k plus proches voisins est considérée comme la prédiction d'une valeur numérique manquante, connue sous le nom de règle de la majorité de la moyenne.

32. Qu'est-ce qu'un N-gramme ?

Un n-gramme est défini comme une séquence connexe de n éléments dans le texte ou le discours donné. Un N-gramme est un modèle de langage probabiliste qui est utilisé pour prédire l'élément suivant dans une séquence particulière, comme dans (n-1).

33. Pouvez-vous nommer certaines des méthodologies de validation des données utilisées dans l'analyse des données ?

Certaines des méthodologies de validation des données utilisées pour l'analyse des données sont indiquées ci-dessous :

  1. Validation au niveau du formulaire
  2. Validation au niveau du terrain
  3. Validation des critères de recherche
  4. Validation de la sauvegarde des données

3. 4. Expliquer la distribution normale ?

La distribution normale, également appelée distribution gaussienne, est une distribution de probabilité symétrique par rapport à la moyenne, montrant que les données proches de la moyenne sont plus fréquentes que les données éloignées de la moyenne. La distribution normale, lorsqu'elle est représentée dans un graphique, apparaît sous la forme d'une courbe en cloche.

Voir également Top 100 des questions et réponses d'entrevue Ansible

35. Pouvez-vous expliquer le avantages du contrôle de version ?

Le contrôle de version nous permet d'identifier les différences, de comparer les fichiers et de fusionner les modifications avant de valider le code.

Quelques avantages du contrôle de version sont énumérés ci-dessous :

  1. Cela nous aide à garder une trace des versions d'applications car nous serons en mesure d'identifier quelle version est utilisée dans le développement, l'assurance qualité et la production.
  2. Cela nous aide à conserver un historique complet des fichiers de projet afin qu'il soit utile en cas de panne du serveur central.
  3. Il nous permet de voir les modifications apportées au contenu des différents fichiers.
  4. Il est excellent lorsqu'il s'agit de stocker et de maintenir plusieurs versions et variantes de fichiers de code en toute sécurité.

36. Pouvez-vous faire la différence entre la variance et la covariance ?

Variance Covariance
Elle est définie comme l'étalement d'un ensemble de données autour de sa valeur moyenne.C'est la mesure de la relation directionnelle entre les deux variables aléatoires.
Il est utilisé pour mesurer la volatilité d'un actif.Il spécifie les rendements de deux investissements différents sur la période de temps lorsqu'il est comparé à différentes variables.

37. Pouvez-vous nous dire comment résoudre des problèmes multi-sources ?

  1. Vous devez savoir quelles données combiner
  2. Utiliser la visualisation des données
  3. Tournez-vous vers les outils de fusion de données.
  4. Créer des services de base de données virtuelle via l'abstraction

38. Pouvez-vous faire la différence entre le profilage de données et l'exploration de données ?

Profilage des données Exploration de données
Cela se fait à différentes étapes des étapes de développement de l'entrepôt de données.Il s'agit d'un processus d'identification des modèles dans la base de données prédéfinie.
L'objectif principal du profilage des données est d'identifier les données corrompues au stade initial des données afin que nous puissions les corriger au bon moment.C'est le mécanisme d'évaluation de la base de données existante et de transformation des données brutes en informations utiles.

39. Pouvez-vous nous dire quelques responsabilités importantes d'un analyste de données ?

  1. Ils doivent collecter et interpréter les données.
  2. Il faut analyser les résultats.
  3. Ils doivent rendre compte des résultats aux membres concernés de l'entreprise.
  4. Ils doivent identifier des modèles et des tendances dans les ensembles de données.
  5. Ils doivent définir de nouveaux processus de collecte et d'analyse des données.

40. Pouvez-vous expliquer le Diagramme d'affinité?

Le diagramme d'affinité organise un grand nombre d'idées dans leurs relations naturelles. Il s'agit d'un résultat organisé d'une séance de remue-méninges. Nous l'utilisons principalement pour générer, consolider et organiser des informations liées à un produit, à une question complexe ou à un problème.

Questions et réponses de l'entrevue d'analyste de données

41. Pouvez-vous nous parler de Data visualisation ?

La visualisation des données est définie comme le processus consistant à mettre les données sous la forme d'un tableau, d'un graphique ou d'autres formats visuels qui facilitent l'analyse et l'interprétation des informations. Les visuels de données aident à présenter les données analysées de manière à ce qu'elles soient accessibles et impliquent diverses parties prenantes.

42. Qu'est-ce qu'un plan de collecte de données ?

Un plan de collecte de données nous assure que les données collectées lors de l'analyse ou du projet d'amélioration sont utiles et correctement collectées.

43. Pouvez-vous expliquer Écosystème Hadoop ?

Hadoop Ecosystem est une plate-forme qui fournit divers services pour résoudre les problèmes de Big Data. Il comprend les projets Apache et différents outils et solutions commerciaux.

Nous avons quatre éléments majeurs de Hadoop, à savoir,

  1. HDFS
  2. CarteRéduire
  3. FIL
  4. Commun Hadoop

44. Expliquez le terme Imputation ?

L'imputation est la technique qui consiste à remplacer les données manquantes par des valeurs substituées. Lors de l'analyse des données, les données manquantes peuvent poser problème.

Les méthodes d'imputation courantes sont les suivantes :

  1. Imputation unique
  2. Imputation moyenne
  3. Imputation à froid
  4. Imputation par régression
  5. Imputation par régression stochastique
  6. Substitution
  7. Imputation à froid

45. Pouvez-vous nous dire style de syntaxe de base pour écrire du code dans SAS ?

  1. Utilisez l'espace approprié pour séparer les composants dans une instruction de programme SAS.
  2. Assurez-vous de terminer toutes les instructions par un point-virgule.
  3. Écrivez une instruction DATA pour nommer l'ensemble de données.
  4. Écrivez une instruction INPUT pour nommer les variables dans l'ensemble de données donné.
  5. Terminez le programme SAS avec une instruction RUN.

46. Qu'est-ce que l'entrelacement dans SAS ?

L'entrelacement dans SAS est défini comme la combinaison des ensembles de données SAS triés individuels en un seul grand ensemble de données triées. Les ensembles de données peuvent être entrelacés à l'aide de l'instruction SET et de l'instruction BY.

47. Expliquez le terme Regroupement ?

Regroupement

Le clustering est le mécanisme de division de la population ou des points de données en un certain nombre d'ensembles de sorte que les points de données dans les mêmes groupes soient similaires à ceux des autres points de données du même groupe.

48. Quelle est la condition pour utiliser le test T ou le test Z ?

Le test T est utilisé lorsque nous avons une taille d'échantillon inférieure à 30, et un test Z est utilisé lorsque nous avons un test d'échantillon supérieur à 30.

49. Qu'est-ce que la table de vérité ?

La table de vérité est une collection de faits qui détermine la vérité ou la fausseté d'une proposition.

Nous avons trois types, à savoir,

  1. Tableau de vérité photographique
  2. Tableau des faits sans vérité
  3. Table de vérité cumulative

cinquante. Qu'est-ce que l'écart type ?

L'écart type est utilisé pour mesurer tout degré de variation dans un ensemble de données. Il mesure avec précision la propagation moyenne des données autour de la moyenne.

Questions et réponses de l'entrevue d'analyste de données

51. Que sont les collisions dans les tables de hachage ?

On dit qu'une collision se produit lorsqu'une fonction de hachage correspond à deux clés différentes à la même adresse de table. Il s'agit d'un schéma de re-hachage simple dans lequel le prochain emplacement de la table est vérifié en cas de collision.

52. Pourquoi le 'naïf Bayes' est-il naïf ?

Il est naïf car il suppose que tous les ensembles de données sont également importants et indépendants, ce qui n'est pas le cas dans le scénario du monde réel.

53. Expliquez le terme Data Wrangling ?

La gestion des données peut être définie comme le processus de nettoyage et d'unification d'ensembles de données désordonnés et complexes pour un accès et une analyse faciles.

54. Expliquez le terme Data blending ?

Le mélange de données est la technique consistant à combiner des données provenant de diverses sources dans un ensemble de données fonctionnel.

55. Expliquez le terme Data Joining?

La jointure de données est effectuée lorsque les données proviennent de la même source.

56. Expliquez l'analyse descriptive ?

L'analyse descriptive est définie comme l'interprétation des données historiques pour mieux comprendre les changements qui se sont produits dans une entreprise. Il décrit l'utilisation d'une gamme de données historiques pour établir des comparaisons.

Cela vous donne une idée de la distribution des données. Il vous aide à détecter les valeurs aberrantes et les fautes de frappe et vous permet d'identifier les associations entre les variables, vous préparant ainsi à effectuer d'autres analyses statistiques.

57. Expliquez Analyse prédictive ?

L'analyse prédictive est définie comme l'utilisation de données, d'algorithmes statistiques et de techniques d'apprentissage automatique pour identifier la probabilité de résultats futurs basés sur des données historiques.

58. Expliquez l'analyse prescriptive ?

L'analyse prescriptive utilise apprentissage automatique pour aider les entreprises à décider du plan d'action en fonction des prédictions du programme informatique. Ce fonctionne avec l'analyse prédictive, qui utilise les données pour déterminer les résultats à court terme.

59. Nommez les différents types de techniques d'échantillonnage ?

Les différents types de techniques d'échantillonnage sont énumérés ci-dessous.

  1. Échantillonnage aléatoire simple
  2. Échantillonnage systématique
  3. Échantillonnage en grappes
  4. Échantillonnage stratifié
  5. Échantillonnage au jugement ou raisonné

60. Expliquez le terme Sur-ajustement ?

Le surajustement fait référence au modèle qui modélise très bien les données d'entraînement. Cela signifie que le bruit ou les fluctuations aléatoires dans les données d'apprentissage sont captés et qu'ils sont appris en tant que concepts par le modèle. Le problème ici est que ces concepts ne s'appliquent pas aux nouvelles données, et cela a un impact négatif sur la capacité du modèle à généraliser.

Bonne chance avec votre entretien d'analyste de données. Nous espérons que nos questions et réponses d'entretien sur l'analyse des données vous ont été utiles. Vous pouvez également consulter Analyste d'affaires Questions et réponses d'entrevue , ce qui pourrait vous être utile.