Top 100 des questions et réponses d'entrevue en science des données

2 janvier 2022

La science des données, en termes simples, peut être définie comme un domaine interdisciplinaire qui utilise des processus, des systèmes, des méthodes scientifiques et des algorithmes pour extraire des informations à partir de données structurées et non structurées.

La science des données est appliquée dans divers secteurs tels que les recommandations en matière de soins de santé, la prédiction des maladies, l'automatisation des publicités numériques, l'optimisation en temps réel des expéditions, les itinéraires logistiques et la détection des fraudes, etc.

Les emplois en science des données sont l'un des emplois les mieux rémunérés de l'industrie et rapportent en moyenne 116 100 $ par an. Vous pouvez trouver de nombreuses opportunités d'emploi car il y a une pénurie de ressources qualifiées dans ce domaine.



Nous avons répertorié les questions et réponses les plus fréquemment posées lors des entretiens avec Data Science. Assurez-vous de parcourir notre article complet afin de ne manquer aucune des questions et réponses de l'entrevue Data Science.

Table des matières

Questions et réponses de l'entrevue en science des données

1. Pouvez-vous expliquer la différence entre les données au format long et large ?

Format large : Ici, les réponses répétées du sujet seront définies dans une seule ligne, et chaque réponse est spécifiée dans une colonne séparée.

Format long : Ici, chaque ligne est définie comme un point ponctuel par sujet.

2. Expliquer la machine Boltzmann ?

Boltzmann Machine implémente un algorithme d'apprentissage simple qui permet à l'utilisateur de découvrir des fonctionnalités intéressantes qui représentent des régularités complexes dans les données d'entraînement. Nous utilisons la machine Boltzmann pour optimiser les quantités et les poids pour un problème donné. Ils sont utiles pour résoudre deux problèmes de calcul différents.

3. Expliquer la descente de gradient ?

Sachons d'abord ce qu'est un dégradé :

Pente : Il est utilisé pour mesurer les changements de tous les poids qui sont liés au changement de l'erreur. Vous pouvez également imaginer le gradient comme la pente d'une fonction.

Gradient Descent peut être défini comme descendre au fond d'une vallée au lieu de gravir une colline. C'est un algorithme de minimisation qui minimise la fonction donnée.

4. Qu'est-ce qu'un encodeur automatique ?

Auto-Encoder vise à transformer les entrées en sorties avec le minimum d'erreurs. Cela signifie que l'utilisateur souhaite que la sortie soit aussi proche que possible de l'entrée. Ici, nous devons ajouter quelques couches entre l'entrée et la sortie et nous assurer que les tailles des couches sont plus petites que les couches d'entrée. Il reçoit une entrée non étiquetée qui est ensuite codée pour reconstruire l'entrée.

5. Expliquer les différentes couches sur CNN ?

Nous avons quatre couches dans CNN, à savoir,

  1. Couche de convolution : elle effectue des opérations de convolution, crée plusieurs petites fenêtres d'image pour parcourir les données.
  2. Couche ReLu : cette couche aide à apporter de la non-linéarité au réseau et convertit les pixels négatifs (tous) en zéro. La sortie obtenue est une carte d'entités rectifiée.
  3. Couche de mise en commun : elle réduit la dimensionnalité de la carte des fonctionnalités.
  4. Couche entièrement connectée : elle reconnaît et classe les objets dans l'image donnée.

6. Pouvez-vous citer quelques bibliothèques d'apprentissage automatique à des fins diverses ?

Quelques bibliothèques d'apprentissage automatique à des fins diverses sont répertoriées ci-dessous :

  1. TensorFlow
  2. NumPy
  3. SciPy
  4. pandas
  5. Matplotlib
  6. Dur
  7. SciKit-Learn
  8. TorchePy
  9. Scrapy
  10. BelleSoupe

7. Expliquez les réseaux de neurones artificiels ?

Les réseaux de neurones artificiels peuvent être définis comme un ensemble spécifique d'algorithmes qui ont révolutionné l'apprentissage automatique. Ces réseaux sont inspirés des Biological Neural Networks. Les réseaux de neurones sont adaptés aux entrées changeantes afin que le réseau génère le meilleur résultat sans reconcevoir les critères de sortie.

8. Nommez les différents frameworks de Deep Learning ?

  1. Chaîneur
  2. Dur
  3. Café
  4. Pytorche
  5. TensorFlow
  6. Boîte à outils cognitive Microsoft

9. Expliquer le Perceptron multicouche (MLP) ?

MLP (perceptron multicouche) est une classe d'ANN (réseau de neurones artificiels). Il comprend principalement la couche d'entrée, la couche masquée et la couche de sortie. Chaque nœud, à l'exception du nœud d'entrée, utilise une fonction d'activation non linéaire.

MLP utilise une technique d'apprentissage supervisé connue sous le nom de rétropropagation pour la formation. Elle se distingue de la perception linéaire en raison de ses multiples couches et de la fonction d'activation non linéaire. Il est utilisé pour distinguer les données qui ne sont pas linéairement séparables.

10. Expliquez les différences entre Epoch, Batch et Iteration dans Deep Learning ?

Epoch est utilisé pour représenter une itération sur l'ensemble de données.

Grouper : Ici, l'ensemble de données est divisé en plusieurs lots chaque fois que nous ne pouvons pas transmettre l'ensemble de données dans le réseau de neurones en une seule fois.

Itérations : Il peut être défini comme le nombre de lots de données que l'algorithme a vus.

Questions et réponses de l'entrevue en science des données

11. Expliquer l'apprentissage par renforcement ?

L'apprentissage par renforcement est défini comme un domaine de Apprentissage automatique . Il s'agit principalement de prendre les mesures nécessaires pour maximiser la récompense dans une situation spécifique. Il est utilisé par différents logiciels et machines pour déterminer le meilleur comportement possible ou le chemin ou la voie à suivre dans une situation donnée.

Certains des principaux points de l'apprentissage par renforcement sont énumérés ci-dessous :

  1. Entrée : l'entrée doit être définie comme un état initial à partir duquel le modèle commencera
  2. Sortie : Il y a beaucoup de sorties possibles car il existe une variété de solutions à un problème spécifié
  3. Formation : la formation est principalement basée sur l'entrée, le modèle renvoie un état et l'utilisateur doit décider de récompenser ou de punir le modèle en fonction de la sortie.
  4. Le modèle continue d'apprendre.
  5. La meilleure solution est ensuite décidée en fonction des récompenses maximales.

12. Que sont les dégradés de fuite ?

Les gradients de disparition se produisent généralement lors de la formation des réseaux de neurones profonds à l'aide d'une méthode d'optimisation basée sur les gradients. Cela se produit principalement en raison de la nature de l'algorithme de rétropropagation utilisé pour former le réseau de neurones.

13. Expliquez les réseaux de neurones récurrents (RNN) ?

Un réseau de neurones récurrent est défini comme un réseau de neurones spécialisé pour traiter la séquence de données x(t)= x(1), . . . , x(τ) avec l'indice de pas de temps t qui va de 1 à τ. Pour les tâches données qui impliquent des entrées séquentielles, comme la parole et le langage, il est préférable d'utiliser des RNN.

Les RNN sont également appelés récurrents car ils exécutent la même tâche spécifiée pour chaque élément de la séquence, la sortie dépendant des calculs précédents.

14. Expliquez les variantes de la rétropropagation ?

  1. Stochastic Gradient Descent : Ici, nous utilisons un seul exemple d'entraînement pour le calcul des paramètres de gradient et de mise à jour.
  2. Batch Gradient Descent : Ici, nous calculons le gradient pour l'ensemble de données et nous effectuons la mise à jour à chaque itération.
  3. Mini-batch Gradient Descent : C'est l'un des algorithmes d'optimisation les plus connus. C'est une variante de Stochastic Gradient Descent, et ici, au lieu d'un seul exemple de formation, un mini-lot d'échantillons est utilisé.

15. Expliquez la régression linéaire ?

La régression linéaire utilise la méthode des moindres carrés. Le concept ici est de tracer une ligne à travers tous les points de données tracés. La ligne est positionnée de manière à minimiser la distance à tous les points de données. La distance est appelée résidus ou erreurs.

16. Expliquer l'élagage dans l'arbre de décision ?

L'élagage est défini comme une technique de compression de données dans l'apprentissage automatique et les algorithmes de recherche qui peut réduire la taille des arbres de décision donnés en supprimant les parties ou sections de l'arbre qui ne sont pas critiques et redondantes pour classer les instances.

L'élagage aide à réduire la complexité de la finale classificateur et améliore ainsi la précision prédictive en réduisant sur-ajustement .

17. Nommez les différents noyaux dans SVM ?

Nous avons quatre types de noyaux dans SVM, à savoir,

  1. Noyau linéaire
  2. Noyau polynomial
  3. Noyau à base radiale
  4. Noyau sigmoïde

18. Pouvez-vous nous dire les inconvénients du modèle linéaire ?

Voici quelques-uns des inconvénients du modèle linéaire :

  1. Les prédictions de linéarité entre variables indépendantes et dépendantes
  2. Il ne peut pas être utilisé pour les résultats de comptage ou les résultats binaires
  3. Il existe de nombreux problèmes de surajustement qu'il ne peut pas résoudre.
Voir également Top 100 des questions et réponses d'entrevue JavaScript

19. Pouvez-vous expliquer en détail l'algorithme de l'arbre de décision ?

L'algorithme Decision Tree est un algorithme qui appartient à la famille des algorithmes d'apprentissage supervisé. Contrairement aux autres algorithmes d'apprentissage supervisé, l'algorithme d'arbre de décision est utilisé pour résoudre des problèmes de classification et des problèmes de régression.

Dans les arbres de décision, pour prédire une étiquette de classe spécifiée pour un enregistrement, nous devons commencer à partir de la racine de l'arbre. Nous devons comparer les valeurs de l'attribut racine avec l'attribut de l'enregistrement. Sur la base des comparaisons, nous devons suivre la branche liée à cette valeur et passer au nœud suivant.

L'objectif principal de l'utilisation d'un arbre de décision est de créer un modèle de formation qui peut être utilisé pour prédire la valeur ou la classe de la variable cible en apprenant les règles de décision simples déduites des données de formation (données antérieures).

20. Que sont l'entropie et le gain d'information dans l'algorithme de l'arbre de décision ?

Entropie : l'arbre de décision est construit de haut en bas à partir d'un nœud racine et implique le partitionnement des données données dans les sous-ensembles constitués d'instances avec des valeurs similaires. L'algorithme ID3 utilise l'entropie pour calculer l'homogénéité de l'échantillon donné. Si l'échantillon collecté est complètement homogène, alors l'entropie est nulle, et si l'échantillon est également divisé, il a une entropie de un.

Gain d'information : le gain d'information est principalement basé sur la diminution de l'entropie après que l'ensemble de données a été divisé sur un attribut. Construire un arbre de décision consiste à trouver un attribut qui renvoie le gain d'information le plus élevé.

Gain(T, X) = Entropie(T) – Entropie(T,X)

Questions et réponses de l'entrevue en science des données

21. Qu'est-ce que le filtrage collaboratif ?

Le filtrage collaboratif peut être défini comme le processus de filtrage des informations ou des modèles en utilisant des techniques impliquant la collaboration entre plusieurs agents, sources de données, points de vue, etc.

Les applications de filtrage collaboratif impliquent essentiellement de très grands ensembles de données.

Des méthodes de filtrage collaboratives ont été appliquées à divers types de données, y compris les données de détection et de surveillance, telles que l'exploration minière, la détection environnementale sur de vastes zones ou plusieurs capteurs.

22. Que sont les systèmes de recommandation ? Expliquer?

Un système de recommandation est également connu sous le nom de système de recommandation, est une sous-classe du système de filtrage d'informations qui prédit la note ou la préférence qu'un utilisateur donnerait à un élément.

Les systèmes de recommandation sont les plus largement utilisés dans les films, les articles de recherche, les balises sociales, les actualités, la musique, les produits, etc.

Les systèmes de recommandation sont également populaires pour des sujets spécifiques tels que les restaurants et les rencontres en ligne.

23. Qu'est-ce que le biais de sélection ?

Le biais de sélection est le biais introduit par la sélection d'individus, de groupes ou de données à analyser d'une manière où une randomisation appropriée n'est pas réalisée, garantissant ainsi que l'échantillon donné obtenu n'est pas représentatif de la population destinée à être analysé. On parle aussi d'effet de sélection. C'est la distorsion de l'analyse statistique qui résulte de la méthode de collecte des échantillons. Si nous ne tenons pas compte du biais de sélection, certaines conclusions de l'étude pourraient ne pas être exactes.

Les types de biais de sélection sont :

  1. Biais d'échantillonnage: Il est défini comme une erreur systématique qui s'est produite en raison d'un échantillon non aléatoire d'une population qui fait que peu de membres de la population sont moins susceptibles d'être inclus que d'autres, ce qui entraîne un échantillon biaisé.
  2. Intervalle de temps : un essai peut être terminé tôt à une valeur extrême, mais la valeur principale est atteinte par la variable avec la plus grande variance, même si toutes les variables ont une moyenne liée.
  3. Données : Lorsque les sous-ensembles spécifiques de données sont choisis pour étayer la conclusion ou le rejet des mauvaises données sur des bases arbitraires, au lieu de se conformer à des critères précédemment énoncés ou généralement convenus.
  4. Attrition : Le biais d'attrition est défini comme une sorte de biais de sélection causé par la perte de participants.

24. Pouvez-vous écrire une fonction qui prend en compte deux listes triées et génère une liste triée qui est leur union ?

|__+_| |__+_|

25. Qu'est-ce que la réduction de dimensionnalité ?

Le nombre de variables ou de caractéristiques d'entrée données pour un jeu de données est appelé dimensionnalité. La réduction de la dimensionnalité est une technique ou un processus qui réduit le nombre de variables d'entrée dans un ensemble de données particulier.

26. Qu'est-ce qu'une matrice de confusion ?

Il est défini comme une mesure de performance pour un problème de classification d'apprentissage automatique où la sortie peut être de deux classes ou plus. Il s'agit essentiellement d'un tableau avec quatre combinaisons différentes des valeurs prédites et réelles.

Entretien avec la science des données - Matrice de confusion

Il est principalement utile pour mesurer le rappel, l'exactitude, la précision, la spécificité et, surtout, la courbe AUC-ROC.

Vrai positif : ici, il désigne tous les enregistrements où les valeurs réelles données sont vraies, et même les valeurs prédites sont également vraies. Par conséquent, il désigne tous les vrais positifs.

Faux négatif : Il désigne tous les enregistrements où les valeurs réelles données sont vraies, mais les valeurs prédites données sont fausses.

Faux positif : ici, les valeurs réelles données sont fausses, mais les valeurs prédites données sont vraies.

Vrai négatif : Ici, les valeurs réelles données sont fausses et les valeurs prédites données sont également fausses.

27. Pouvez-vous expliquer la vectorisation TF/IDF ?

TF-IDF est abrégé en Term Frequency / Inverse Document Frequency, qui est un algorithme très populaire pour transformer le texte donné en une représentation significative des nombres qui est ensuite utilisée pour s'adapter à un algorithme de machine pour la prédiction.

28. Pouvez-vous écrire une fonction qui, lorsqu'elle est appelée avec une matrice de confusion pour un modèle de classification binaire, renvoie un dictionnaire avec sa précision et son rappel ?

|__+_|

29. Pouvez-vous écrire le code pour calculer la précision d'un algorithme de classification binaire en utilisant sa matrice de confusion ?

|__+_|

30. Pouvez-vous expliquer l'empilement en Data Science ?

L'empilement de modèles est défini comme une méthode d'ensemble efficace dans laquelle les prédictions générées à l'aide de différents algorithmes d'apprentissage automatique peuvent être utilisées comme entrées dans l'algorithme d'apprentissage de deuxième couche. Cet algorithme de deuxième couche est ensuite formé pour combiner de manière optimale les prédictions du modèle pour former un nouvel ensemble de prédictions.

Questions et réponses de l'entrevue en science des données

31. Pouvez-vous expliquer le filtrage basé sur le contenu dans les systèmes de recommandation ?

Le filtrage basé sur le contenu utilise les fonctionnalités de l'élément pour recommander d'autres éléments similaires que l'utilisateur aime, en fonction de ses actions précédentes ou des commentaires explicites.

32. Expliquez comment gérer les données manquantes en science des données ?

Lors du traitement des données manquantes, scientifiques des données utiliser deux méthodes principales pour résoudre l'erreur.

La méthode d'imputation développe une estimation raisonnable pour les données manquantes. Il est surtout utilisé lorsque le pourcentage de données manquantes est faible. Si la partie des données manquantes est très élevée, les résultats n'ont pas la variation naturelle qui se traduit par un modèle efficace.

L'option suivante consiste à supprimer les données. Lorsque nous traitons des données qui manquent au hasard, les données correspondantes peuvent être supprimées pour réduire le biais. La suppression des données n'est pas la meilleure option s'il n'y a pas suffisamment d'observations pour aboutir à une analyse fiable. Dans certaines situations, l'observation d'événements ou de facteurs particuliers peut être nécessaire.

33. Expliquez les différences entre une erreur et une erreur résiduelle ?

Une erreur est définie comme les différences entre les valeurs observées et les valeurs réelles.

Un résidu est défini comme les différences entre les valeurs observées et les valeurs prédites (par le modèle).

L'erreur est un concept théorique qui n'est jamais observé, tandis que le résidu est une valeur réelle qui est calculée chaque fois qu'une régression est effectuée.

34. Pouvez-vous expliquer l'algorithme SVM en détail ?

Support Vector Machine, c'est-à-dire (SVM), est défini comme un algorithme d'apprentissage automatique supervisé qui peut être utilisé pour des défis de classification ou de régression. Il est couramment utilisé dans les problèmes de classification. Dans l'algorithme SVM, nous devons tracer chaque élément de données sous la forme d'un point dans un espace à n dimensions (où n désigne le nombre de caractéristiques que vous possédez) avec la valeur de chaque caractéristique qui est la valeur d'une coordonnée spécifique. Ensuite, il faut effectuer la classification en trouvant l'hyper-plan qui distingue très bien les deux classes.

35. Qu'est-ce que la précision ?

La précision en science des données peut être définie comme le nombre de vrais positifs divisé par le nombre (n) de vrais positifs plus le nombre de faux positifs.

36. Qu'est-ce que l'apprentissage en profondeur ?

L'apprentissage en profondeur est défini comme un sous-ensemble de l'apprentissage automatique dans lequel les données subissent diverses transformations non linéaires pour obtenir une sortie spécifiée. Deep ici fait référence à plusieurs étapes dans ce cas. La sortie obtenue dans une étape est l'entrée d'une autre étape, et ceci est fait en continu pour obtenir la sortie finale spécifiée.

L'apprentissage en profondeur est également appelé réseaux de neurones profonds (DNN) car il utilise des réseaux de neurones artificiels multicouches pour appliquer l'apprentissage en profondeur.

37. Quel est l'avantage de la réduction de la dimensionnalité ?

Les avantages de la réduction de la dimensionnalité sont énumérés ci-dessous :

  1. Il est utilisé pour réduire le temps et l'espace de stockage requis.
  2. La suppression de la multicolinéarité par réduction de la dimensionnalité améliore l'interprétation des paramètres du modèle d'apprentissage automatique.
  3. Il a facilité la visualisation des données chaque fois qu'elles sont réduites à une très petite dimension comme la 2D ou la 3D.
  4. Il supprime le bruit, fournit ainsi une explication plus simple.
  5. Il atténue la malédiction de la dimensionnalité.

38. Qu'est-ce que la courbe ROC ?

Une courbe caractéristique de fonctionnement du récepteur connue sous le nom de courbe ROC est définie comme le tracé graphique qui démontre la capacité de diagnostic d'un système de classificateur binaire lorsque son seuil de discrimination est différent. Cette méthode a été développée pour les opérateurs de récepteurs radar militaires, c'est pourquoi elle est appelée courbe ROC.

39. Qu'est-ce qu'une distribution normale ?

La distribution normale peut être définie comme le concept de base en statistique. C'est l'épine dorsale de la science des données. Pendant que nous effectuons l'analyse exploratoire des données, nous explorons d'abord les données, puis cherchons à trouver leur distribution de probabilité, n'est-ce pas ? La distribution de probabilité la plus couramment utilisée est la distribution normale.

La distribution normale se présente sous la forme d'une courbe en cloche où la distribution a ici sa moyenne égale à la médiane.

Questions et réponses de l'entrevue en science des données

40. Expliquer la validation croisée k-fold ?

La validation croisée K-fold est un moyen d'améliorer la méthode d'exclusion. Cette méthode est utilisée pour garantir le score de notre modèle qui ne dépend pas de la manière dont nous avons choisi le train et l'ensemble de test. L'ensemble de données ici est divisé en un nombre k de sous-ensembles, et la méthode d'exclusion doit être répétée un nombre k de fois. Il est utilisé pour évaluer les modèles d'apprentissage automatique sur un échantillon de données donné limité

Validation croisée K-fold

41. Pouvez-vous expliquer pourquoi nous devons utiliser la fonction de résumé ?

Les fonctions de résumé sont utilisées pour produire un résumé de tous les enregistrements trouvés dans l'ensemble de données ou les valeurs de sous-récapitulatif pour les enregistrements dans divers groupes. Les formules peuvent contenir plusieurs fonctions récapitulatives. Comparées à d'autres fonctions, les fonctions récapitulatives calculent plus lentement car elles génèrent des valeurs pour une plage d'enregistrements.

42. Pourquoi utilisons-nous la valeur p ?

Une valeur p est définie comme une mesure de la probabilité qu'une différence observée ait pu se produire simplement par hasard. La valeur P est utilisée comme alternative ou en plus des niveaux de confiance présélectionnés pour les tests d'hypothèse.

43. Pouvez-vous expliquer la fonction du noyau dans SVM ?

Les algorithmes SVM utilisent un ensemble de fonctions mathématiques connues sous le nom de noyau. La fonction du noyau est de prendre les données en entrée et de les transformer sous la forme requise, par exemple, linéaire, non linéaire, fonction de base radiale (RBF), polynomiale et sigmoïde.

44. Expliquez les compétences qui sont importantes pour devenir un Data Scientist certifié ?

Les compétences qu'un data scientist certifié doit posséder sont listées ci-dessous :

  1. Fondamentaux de la science des données
  2. Bonne maîtrise des statistiques. La statistique est définie comme la grammaire de la science des données.
  3. Solide connaissance de la programmation : elle fournit un moyen de communiquer avec le langage machine.
  4. Manipulation et analyse des données
  5. Visualisation des données : il faut se familiariser avec les graphiques tels que l'histogramme, les graphiques à secteurs, les graphiques à barres, puis passer aux graphiques avancés tels que les graphiques en cascade, les graphiques de thermomètre, etc.
  6. Machine Learning : Il est utilisé pour construire des modèles prédictifs, et c'est l'une des compétences de base qu'un data scientist doit posséder.
  7. L'apprentissage en profondeur
  8. Big Data : En raison de la grande quantité de données générées par Internet, nous essayons de gérer ces données en adoptant la technologie Big Data afin que ces données soient stockées correctement et efficacement et utilisées chaque fois que nécessaire.
  9. Génie logiciel
  10. Déploiement du modèle : il s'agit de l'une des étapes les plus sous-estimées du cycle de vie de l'apprentissage automatique.
  11. Compétences en communication
  12. Compétences en narration : il s'agit de la compétence acquise la plus importante par un scientifique des données.
  13. Pensée structurée : un scientifique des données doit toujours examiner les problèmes sous différents angles.
  14. Curiosité : Il faut avoir la curiosité d'en savoir plus et de découvrir de nouvelles choses.
Voir également Top 100 des questions et réponses d'entrevue Ansible

45. Quelle est la forme complète de LSTM ? Expliquez sa fonction ?

La forme complète de LSTM est la mémoire longue à court terme. LSTM est défini comme un artificiel réseau neuronal récurrent (RNN) qui est utilisée dans le domaine de l'apprentissage en profondeur. LSTM a des connexions de rétroaction qui ne ressemblent pas aux réseaux de neurones à anticipation standard.

LSTM peut non seulement traiter les points de données uniques comme les images, mais également les séquences entières de données comme la parole ou la vidéo.

Par exemple, LSTM est applicable à des tâches telles que la détection non segmentée, connectée et d'anomalies dans trafic réseau ou l'IDS, c'est-à-dire les systèmes de détection d'intrusion ou la reconnaissance de l'écriture manuscrite.

46. ​​Qu'est-ce que le terme variance en science des données ?

La variance en science des données peut être définie comme une valeur numérique qui montre la taille des chiffres individuels dans un ensemble ou un groupe de données se répartissent entre eux autour de la moyenne et spécifie ainsi les différences de chaque valeur dans l'ensemble de données par rapport à la valeur moyenne.

47. Qu'est-ce que la fonction de coût en science des données ?

La fonction de coût en science des données est une fonction utilisée pour mesurer les performances du modèle d'apprentissage automatique pour des données données. La fonction de coût quantifie l'erreur entre les valeurs prédites et les valeurs attendues et la présente finalement en un seul nombre réel.

48. Pouvez-vous expliquer le terme régression logistique ?

La régression logistique en science des données est un algorithme de classification utilisé pour attribuer des observations à un groupe discret de classes. Quelques exemples de problèmes de classification sont les transactions en ligne, fraude ou non fraude, tumeur maligne ou bénigne, Courrier indésirable ou pas de spam. La régression logistique transforme sa sortie en utilisant la fonction sigmoïde logistique afin de renvoyer la valeur de probabilité.

49. Expliquez le terme Modèle de forêt aléatoire ?

La forêt aléatoire est définie comme un algorithme d'apprentissage supervisé. La forêt qu'il construit est définie comme un ensemble d'arbres de décision qui sont généralement entraînés avec la méthode du bagging. L'idée générale derrière la méthode d'ensachage est une combinaison de modèles d'apprentissage qui augmente le résultat global

50. Expliquez le compromis biais-variance en science des données ?

  1. Le biais est défini comme les hypothèses simplificatrices qui sont faites par le modèle pour rendre la fonction cible facile à approximer.
  2. La variance est définie comme la quantité de changement de l'estimation de la fonction cible donnée avec différentes données d'apprentissage.
  3. Le compromis est défini comme la tension entre l'erreur introduite par le biais et la variance.

Questions et réponses de l'entrevue en science des données

51. Pouvez-vous expliquer l'analyse univariée ?

L'analyse univariée peut être définie comme la forme la plus élémentaire de la technique d'analyse des données statistiques. Lorsque les données ou informations ne contiennent qu'une seule variable et ne traitent pas de la cause ou de l'effet de la relation, nous utilisons la technique d'analyse univariée.

Par exemple, dans une enquête, le chercheur peut chercher à compter le nombre d'adultes et d'enfants. Dans cet exemple, les données reflètent le nombre (une seule variable) et sa quantité, comme indiqué dans le tableau ci-dessous.

L'objectif de l'analyse univariée est de décrire simplement les données pour trouver les modèles dans les données. Ici, cela se fait en examinant la moyenne, la médiane, le mode, la dispersion, la variance, la plage, l'écart type, etc.

Analyse univariée

L'analyse univariée est menée de plusieurs manières, qui sont principalement de nature descriptive.

  1. Tableaux de répartition des fréquences
  2. Histogrammes
  3. Polygones de fréquence
  4. Camemberts
  5. Diagramme à barres

52. Pouvez-vous expliquer l'analyse bivariée ?

L'analyse bivariée est un peu plus analytique que l'analyse univariée. Lorsque l'ensemble de données se compose de deux variables et que les chercheurs visent à entreprendre les comparaisons entre les deux ensembles de données, nous pouvons alors opter pour l'analyse bivariée.

Par exemple, dans une enquête, le chercheur peut chercher à analyser le ratio d'étudiants ayant obtenu un score supérieur à 95 % en fonction de leur sexe. Dans ce cas, nous avons deux variables à savoir, sexe = X (variable indépendante) et résultat = Y (variable dépendante). L'analyse bivariée mesurera alors les corrélations entre les deux variables, comme indiqué dans le tableau ci-dessous.

analyse bivariée

53. Pouvez-vous expliquer l'analyse multivariée ?

L'analyse multivariée peut être définie comme une forme plus complexe de la technique d'analyse statistique, et elle est principalement utilisée lorsqu'il existe plusieurs variables dans l'ensemble de données.

54. Pouvez-vous nommer la technique d'analyse multivariée couramment utilisée ?

Les techniques d'analyse multivariée les plus couramment utilisées sont énumérées ci-dessous :

  1. Analyse factorielle
  2. L'analyse par grappes
  3. Analyse de variance
  4. Analyse discriminante
  5. Échelle multidimensionnelle
  6. Analyse des composants principaux
  7. Analyse de redondance

55. Expliquez l'analyse de régression ?

L'analyse de régression est principalement utilisée pour estimer les relations entre deux variables différentes. Il comprend les techniques de modélisation et d'analyse de plusieurs variables lorsque l'accent est mis sur l'interrelation entre la variable dépendante et une ou plusieurs (multiples) variables indépendantes.

Cela nous aide à comprendre comment la valeur de la variable dépendante est modifiée lorsque l'une des variables indépendantes est modifiée.

Il est principalement utilisé à des fins de modélisation de données avancées telles que la prédiction et la prévision.

Quelques-unes des techniques de régression utilisées sont énumérées ci-dessous :

  1. Régression linéaire
  2. Régression simple
  3. Régression polynomiale
  4. Modèle linéaire général
  5. Choix discret
  6. Régression binomiale
  7. Régression binaire
  8. Régression logistique

56. En quoi la modélisation des données est-elle différente de la conception de la base de données ? Expliquer?

Le Modèle de Données est défini comme un ensemble de mécanismes d'abstraction utilisés pour représenter la partie de la réalité pour construire une base de données. Par exemple, dans le modèle de données Entity-Relationship, nous pouvons représenter la réalité avec les entités et les relations entre elles ; dans le modèle de données orienté objet, nous pouvons représenter la réalité à travers des objets et les mécanismes associés de classe d'agrégation et d'héritage ; dans le Modèle Relationnel de Données, la réalité est représentée par des tables à l'aide de clés, de clés étrangères et d'autres types de contraintes, etc.

Le modèle de base de données est le nom du modèle de réalité, construit avec un modèle de données spécifique, ce qui signifie qu'il est lié à un schéma particulier dans un certain système de gestion de base de données qui représente une réalité spécifique. Par exemple, dans un modèle de base de données pour une école, vous avez les entités Étudiants, Faculté, avec plusieurs autres associations entre elles, et chacune d'elles contient un certain ensemble d'attributs.

57. Pouvez-vous expliquer comment la science des données et l'apprentissage automatique sont liés ?

La science des données est un domaine qui vise à utiliser une approche scientifique pour extraire le sens et les idées des données fournies. En termes simples, la science des données est définie comme une combinaison de technologies de l'information, de gestion d'entreprise et de modélisation.

L'apprentissage automatique fait référence à un groupe de techniques utilisées par les scientifiques des données, qui permettent aux ordinateurs d'apprendre à partir des données. Ces techniques sont conçues pour produire des résultats de manière à fonctionner correctement sans règles de programmation explicites.

58. Pouvez-vous nous dire la forme complète du GAN ? Expliquez GAN ?

La forme complète du GAN est la suivante : Réseau antagoniste génératif. Il s'agit d'une nouvelle innovation passionnante dans l'apprentissage automatique. Les GAN sont définis comme des modèles génératifs qui créent de nouvelles instances de données similaires aux données de formation.

Par exemple, les GAN créent des images qui ressembleront à des photographies de visages humains, même si les visages n'appartiennent en réalité à personne.

59. Qu'est-ce que le terme apprentissage d'ensemble dans Machine Learning ?

Les méthodes d'ensemble peuvent être définies comme des techniques d'apprentissage automatique qui sont utilisées pour combiner plusieurs modèles de base afin de produire un modèle prédictif optimal.

60. Expliquez le terme Fonction d'activation ?

Dans les réseaux de neurones, la fonction d'activation est utilisée pour transformer l'entrée pondérée sommée du nœud donné en activation du nœud ou de la sortie pour cette entrée. Ici, la fonction d'activation linéaire rectifiée aide à surmonter le problème du gradient de fuite, permettant ainsi aux modèles de mieux fonctionner.

Les types de fonctions d'activation sont répertoriés ci-dessous :

Fonction d'étape : C'est le type de fonction d'activation le plus simple.

Ici, nous devrions considérer la valeur de seuil, et si la valeur de l'entrée nette, par exemple, y, est supérieure à celle du seuil, alors nous activons le neurone.

Mathématiquement, il est représenté par :

f(x) = 1, si x>=0

f(x) = 0, si x<0

Fonction sigmoïde : elle est définie comme Fonction d'activation

ReLu :Il est défini comme f(x)= max(0,x)

Leaky ReLU : Il est défini comme

f(x) = ax, x<0

f(x) = x, sinon

Questions et réponses de l'entrevue en science des données

61. Expliquez le terme Normalisation par lots en Data Science ?

L'idée ici est qu'au lieu de simplement normaliser les entrées du réseau, nous normalisons généralement les entrées des couches à l'intérieur ou à l'intérieur du réseau, ce que l'on appelle la normalisation par lots car, pendant la formation, nous normalisons généralement les entrées de chaque couche en utilisant le moyenne et variance des valeurs du présent mini-lot.

62. Expliquez-vous les auto-encodeurs ?

L'auto-encodeur est défini comme un réseau de neurones artificiels non supervisé qui apprend à compresser et à coder avec précision les données, puis à reconstruire les données de la représentation codée miniaturisée à la représentation suffisamment proche de l'entrée d'origine.

Ils sont utilisés soit pour la réduction de la dimensionnalité, soit comme modèle génératif, ce qui signifie qu'ils peuvent générer de nouvelles données à partir des données d'entrée données.

63. Nommez les différents types d'apprentissage d'Ensemble ?

Les différents types d'apprentissage d'Ensemble sont donnés ci-dessous :

  1. Classificateur optimal de Bayes
  2. Agrégation bootstrap
  3. Booster. Article principal : Boost
  4. Moyenne du modèle bayésien
  5. Combinaison de modèles bayésiens
  6. Seau de modèles
  7. Empilage
  8. Télédétection

64. Pouvez-vous expliquer le rôle du nettoyage des données dans l'analyse des données ?

Le nettoyage des données peut être défini comme le processus de préparation des données pour l'analyse en modifiant ou en supprimant les données qui sont incorrectes, non pertinentes, incomplètes, dupliquées ou mal formatées. Ces données ne sont généralement pas utiles lorsqu'il s'agit d'analyser les données car elles entravent le processus et fournissent des résultats inexacts ou faux.

65. Expliquez le terme hyperparamètres ?

Dans l'apprentissage automatique, un hyperparamètre peut être défini comme un paramètre dont la valeur contrôle le processus d'apprentissage. En revanche, les valeurs des autres paramètres sont dérivées par la formation.

66. Expliquez les différentes étapes de LSTM ?

Les différentes étapes de LSTM sont listées ci-dessous :

  1. Définir le réseau : les réseaux de neurones définis dans Keras sont dans une séquence de couches. Le conteneur de ces couches est présent dans la classe Sequential. La première étape consiste à créer une instance de la classe Sequential. Ensuite, nous devons créer les couches et nous devons les ajouter dans l'ordre afin qu'elles soient connectées.
  2. Compiler le réseau : la compilation est ici une étape efficace. Il est utilisé pour transformer la simple séquence de couches définies en une série très efficace de transformations matricielles dans un format exécuté dans votre GPU ou CPU, selon la configuration de Keras.
  3. Fit Network : Une fois que nous avons compilé le réseau, il peut être fit, ce qui signifie adapter les pondérations sur un ensemble de données d'entraînement.
  4. Évaluer le réseau : une fois le réseau formé, il doit être évalué. Le réseau est évalué sur les données d'apprentissage où il ne fournit pas une indication utile de la performance du réseau en tant que modèle prédictif.
  5. Faire des prédictions : lorsque nous sommes satisfaits des performances du modèle d'ajustement, nous pouvons l'utiliser pour faire des prédictions sur des données nouvellement établies. Cela se fait facilement en appelant la fonction predict().

67. Pouvez-vous faire une comparaison entre le jeu de validation et le jeu de test ?

Un ensemble de validation est utilisé pour sélectionner les paramètres appropriés du système. Il fait partie de l'ensemble de formation.

L'ensemble de test est utilisé pour tester et dire la précision du système.

68. Pourriez-vous, s'il vous plaît, établir une comparaison entre le sur-ajustement et le sous-ajustement ?

Le surajustement est lié à un modèle qui modélise trop bien les données d'entraînement. Le surajustement se produit généralement lorsque le modèle apprend les détails et le bruit dans les données d'apprentissage dans une certaine mesure, ce qui a un impact négatif sur les performances du modèle sur les nouvelles données.

Cela signifie que le bruit ou les fluctuations aléatoires présentes dans les données d'apprentissage sont captées et apprises en tant que concepts par le modèle.

Le problème ici est que ces concepts ne s'appliquent pas aux nouvelles données et qu'ils ont un impact négatif sur la capacité de généralisation du modèle.

Voir également Top 100 des questions et réponses d'entrevue JavaScript

Le sous-ajustement peut être qualifié de modèle qui ne modélise pas les données d'apprentissage ni ne peut se généraliser aux nouvelles données. Un modèle d'apprentissage automatique sous-ajusté n'est pas considéré comme un modèle approprié et ses performances sur les données d'apprentissage seront médiocres.

69. Pouvez-vous expliquer les différentes étapes d'un projet analytique ?

Il y a sept étapes fondamentales pour mener à bien un projet d'analyse de données, et elles sont énumérées ci-dessous :

  1. Comprendre le métier
  2. Obtenez vos données
  3. Explorez et nettoyez vos données
  4. Enrichissez votre jeu de données.
  5. Créer des visualisations utiles
  6. Soyez prédictif
  7. Itérer, Itérer, Itérer.

70. Pouvez-vous expliquer les vecteurs propres et les valeurs propres ?

Les valeurs propres et les vecteurs propres sont les bases de l'informatique et des mathématiques. Ils sont fréquemment utilisés par les scientifiques.

Les vecteurs propres sont définis comme des vecteurs unitaires, qui spécifient que leur longueur ou amplitude est égale à 1.

Les valeurs propres sont définies comme les coefficients appliqués aux vecteurs propres qui donnent aux vecteurs leur longueur ou amplitude requise.

Questions et réponses de l'entrevue en science des données

71. Expliquez l'objectif des tests A/B ?

Le test A/B est défini comme un test d'hypothèse statistique destiné à une expérience randomisée comportant deux variables, A et B. L'objectif principal du test A/B est de maximiser la possibilité d'obtenir un résultat intéressant en identifiant s'il y a toute modification apportée à une page Web. Le test A/B est utilisé pour tout tester, allant des e-mails de vente à la copie du site Web et aux annonces de recherche.

72. Expliquez les termes échantillonnage en grappes et échantillonnage systématique ?

L'échantillonnage systématique sélectionne le point de départ aléatoire à partir de la population donnée, puis un échantillon est prélevé à partir des intervalles fixes réguliers de la population donnée en fonction de sa taille.

L'échantillonnage en grappes divise généralement la population en grappes, puis prend un échantillon aléatoire simple de chacune des grappes.

Nous avons deux types d'échantillonnage en grappes :

  1. échantillonnage en grappes à un degré
  2. échantillonnage en grappes à deux degrés.

73. Que sont les tenseurs ?

Les tenseurs sont définis comme un type de structure de données utilisé en algèbre linéaire, et comme les vecteurs et les matrices, on peut calculer les opérations arithmétiques avec des tenseurs.

Il s'agit d'une généralisation des matrices et elles sont représentées à l'aide de tableaux à n dimensions.

74. Expliquez les valeurs aberrantes et comment les traitez-vous ?

Les valeurs aberrantes sont définies comme les points de données dans les statistiques qui n'appartiennent à aucune population donnée. Une valeur aberrante est définie comme une observation anormale qui est différente des autres valeurs appartenant à l'ensemble.

Pour traiter les valeurs aberrantes, vous devez suivre les étapes :

  1. Vous devez mettre en place un filtre dans votre outil de test
  2. Supprimer ou modifier les valeurs aberrantes lors de l'analyse post-test
  3. Modifier la valeur des valeurs aberrantes
  4. Considérez la distribution sous-jacente
  5. Considérez la valeur des valeurs aberrantes légères

75. Nommez les composants vitaux du GAN ?

Les composants essentiels du GAN sont énumérés ci-dessous :

  1. Générateur
  2. Discriminateur

76. Pouvez-vous expliquer la différence entre Batch et Stochastic Gradient Descent ?

Descente de dégradé par lotsDescente de gradient stochastique
Le volume est important à des fins d'analyse.Le volume est moindre à des fins d'analyse par rapport à Batch.
Il met à jour le poids lentement.Il met à jour le poids plus fréquemment.
Il aide à calculer le gradient en utilisant l'ensemble de données complet disponible.Cela aide à calculer le gradient en utilisant un seul échantillon.

77. Python ou R Lequel d'entre eux préférez-vous pour l'analyse de texte ?

Python en raison de sa bibliothèque Pandas qui fournit des structures de données faciles à utiliser et des outils d'analyse de données performants.

78. Qu'est-ce que le graphe computationnel ?

Un graphe informatique est une manière de représenter la fonction mathématique dans le langage de la théorie des graphes. Les nœuds ici sont les valeurs d'entrée ou les fonctions pour les combiner ; au fur et à mesure que les données circulent dans le graphique, les arêtes reçoivent leurs poids respectifs.

79. Expliquez les termes Interpolation et Extrapolation ?

L'extrapolation est définie comme une estimation de la valeur basée sur l'extension de la séquence connue de valeurs ou des faits au-delà de la zone qui est certainement connue.

L'interpolation est une estimation de la valeur entre les deux valeurs connues dans la séquence de valeurs.

80. Pouvez-vous expliquer ce que la valeur P signifie à propos des données statistiques ?

  1. Si P-Value > 0,05, cela indique la preuve faible contre l'hypothèse nulle, ce qui signifie que vous ne pouvez pas rejeter l'hypothèse nulle.
  2. Si valeur P<= 0.05, then it denotes a piece of strong evidence against the null hypothesis, which you can reject the NULL hypothesis.
  3. Si P-value = 0,05 alors, c'est la valeur marginale indiquant qu'il est possible d'aller dans les deux sens.

Questions et réponses de l'entrevue en science des données

81. Pouvez-vous expliquer la transformation de box cox dans les modèles de régression ?

L'objectif principal des transformations de Box-Cox dans la régression n'est pas de faire en sorte que les variables de la régression suivent la distribution normale, mais plutôt de rendre les effets des variables additifs.

Une transformation de Box Cox peut être définie comme une technique statistique qui transforme les variables dépendantes non morula en la forme normale. Si les données fournies ne sont pas normales, la plupart des techniques statistiques supposent qu'elles sont normales. L'application de la transformation box cox indique que vous pouvez exécuter un plus grand nombre de tests.

82. Pouvez-vous nous dire les avantages et les inconvénients d'utiliser des méthodes de régularisation comme Ridge Regression ?

Les avantages de l'utilisation de la régression Ridge sont :

  1. Vous pouvez éviter de sur-ajuster le modèle.
  2. Ils ne nécessitent pas d'estimateurs sans biais.
  3. Ils ajoutent suffisamment de biais pour faire des estimations des approximations raisonnablement fiables des valeurs réelles de la population.
  4. Ils fonctionnent toujours bien dans le cas de données multivariées volumineuses avec un nombre de prédicteurs supérieur au nombre d'observations.

Les inconvénients de la régression Ridge sont :

  1. L'informatique inclut tous les prédicteurs qui sont créés dans le modèle final.
  2. Ils ne sont pas en mesure d'effectuer la sélection des fonctionnalités.
  3. Ils réduisent les coefficients vers zéro.
  4. Ils échangent la variance contre un biais.

83. Comment évaluer un bon modèle logistique ?

  1. Vous pouvez utiliser la matrice de classification pour examiner les vrais négatifs et les faux positifs.
  2. Une concordance permet d'identifier la capacité du modèle logistique à faire la différence entre l'événement qui se produit et l'événement qui ne se produit pas.
  3. Lift nous aide à évaluer le modèle logistique en le comparant à une sélection aléatoire.

84. Expliquez la multicolinéarité et comment vous pouvez la surmonter ?

La multicolinéarité se produit lorsque les variables indépendantes d'un modèle de régression sont corrélées. Ici, la corrélation devient un problème car les variables indépendantes doivent être indépendantes.

Les éléments mentionnés ci-dessous sont les correctifs de la multicolinéarité :

  1. La gravité des problèmes augmente avec le degré de multicolinéarité. Par conséquent, assurez-vous de n'avoir qu'une multicolinéarité modérée afin de ne pas avoir à la résoudre.
  2. La multicolinéarité n'affecte que les variables indépendantes spécifiques qui sont interdépendantes. Ainsi, si la multicolinéarité n'est pas présente pour les variables indépendantes qui vous intéressent particulièrement, il n'est pas nécessaire de la résoudre.
  3. La multicolinéarité affecte les coefficients et les p-values, mais elle n'a pas son influence sur les prédictions, la précision des prédictions. Si votre objectif principal est de faire des prédictions et que vous n'avez pas à comprendre le rôle de chaque variable indépendante, vous n'avez pas à réduire la multicolinéarité sévère.

85. Pouvez-vous faire la différence entre func et func() ?

une fonctionfonction ()
Une fonction peut être définie comme un bloc de code pour effectuer une tâche spécifique.Il est associé à des objets/classes.
def nom_fonction( arg1, arg2,….): ……. # Function_body ……..class Nom_classe : def nom_méthode() : ………….. # Corps_méthode ………………

86. Qu'entendez-vous par le terme décapage en Python ?

Le décapage est défini comme le processus par lequel la hiérarchie d'objets Python est convertie en un flux d'octets, et le décapage est défini comme l'opération inverse, où un flux d'octets est reconverti en une hiérarchie d'objets.

87. Nommez les différents algorithmes de classement ?

L'apprentissage du classement (LTR) est défini comme une classe de techniques qui appliquent généralement l'apprentissage automatique supervisé (ML) pour résoudre les problèmes de classement.

Les différents algorithmes de classement sont listés ci-dessous :

RankNet : les fonctions de coût pour RankNet visent à minimiser le nombre d'inversions dans le classement. L'inversion signifie ici un ordre incorrect parmi la paire de résultats, c'est-à-dire lorsque nous classons un résultat moins bien noté au-dessus d'un résultat mieux noté dans une liste classée. Il optimise la fonction de coût en utilisant la descente de gradient stochastique.

LambdaRank : Ici, vous n'avez pas besoin des coûts. Vous n'avez besoin que des gradients (λ) du coût par rapport au score du modèle. Nous considérons ces dégradés comme de petites flèches qui sont attachées à chaque document dans la liste classée, indiquant ainsi la direction dans laquelle nous aimerions que ces documents se déplacent.

LambdaMart : il s'agit d'une combinaison de LambdaRank et de MART, c'est-à-dire d'arbres de régression additive multiple. Là où le MART utilise des arbres de décision à gradient boosté pour les tâches de prédiction, LambdaMART utilise les arbres de décision à gradient boosté à l'aide d'une fonction de coût dérivée de LambdaRank pour résoudre la tâche de classement. Sur la base d'ensembles de données expérimentaux, LambdaMART a montré de meilleures performances que le LambdaRank et le RankNet original.

88. Pouvez-vous faire la différence entre une boîte à moustaches et un histogramme ?

Les histogrammes et les boîtes à moustaches sont les représentations graphiques de la fréquence des valeurs de données numériques.

Leur objectif principal est de décrire les données ou les informations et d'explorer la tendance centrale et la variabilité avant d'utiliser des techniques d'analyse statistique avancées.

Les histogrammes sont généralement les diagrammes à barres qui nous montrent la fréquence des valeurs d'une variable numérique, et ils sont utilisés pour approximer la distribution de probabilité de la variable. Cela nous permet de comprendre rapidement la forme de la distribution, les valeurs aberrantes potentielles et la variation.

Les boîtes à moustaches sont utilisées pour communiquer différents aspects de la distribution des données.

89. Qu'est-ce que la validation croisée ?

La validation croisée est définie comme une technique utilisée pour évaluer comment l'analyse statistique se généralise à l'ensemble de données indépendant. Il s'agit d'une technique utilisée pour évaluer les modèles d'apprentissage automatique en formant plusieurs modèles sur les sous-ensembles donnés des informations d'entrée disponibles et en les évaluant sur la base d'un sous-ensemble complémentaire des données.

90. Comment définir ou sélectionner des métriques ?

Les mesures dépendent de divers facteurs tels que :

  1. S'agit-il d'une tâche de régression ou de classification ?
  2. Quel est votre objectif commercial ?
  3. Quelle serait la distribution de la variable cible ?

Questions et réponses de l'entrevue en science des données

90. Expliquez le terme PNL ?

NLP signifie traitement du langage naturel. C'est un sous-domaine de la linguistique, de l'intelligence artificielle et de l'informatique qui s'intéresse aux interactions entre les ordinateurs et le langage humain, en particulier comment programmer les ordinateurs pour traiter et analyser d'énormes quantités d'informations en langage naturel.

91. Expliquez les avantages de la réduction de dimensionnalité ?

Les avantages de la réduction de dimensionnalité sont énumérés ci-dessous :

  1. Il réduit le temps de calcul.
  2. Il prend en charge la multicolinéarité, ce qui améliore les performances du modèle
  3. Cela aide également à supprimer les fonctionnalités redondantes,
  4. Il accélère le temps nécessaire pour effectuer des calculs similaires.

92. Qu'est-ce qu'un noyau ?

Le noyau est généralement appelé l'astuce du noyau, une méthode qui utilise un classificateur linéaire pour résoudre le problème non linéaire. Il aide à transformer des données linéairement inséparables en données linéairement séparables.

93. Expliquez le terme booster ?

Dans l'apprentissage automatique, le boosting est un concept qui est un méta-algorithme d'ensemble pour réduire principalement les biais et également la variance dans l'apprentissage supervisé. Il appartient à une famille d'algorithmes d'apprentissage automatique qui convertit les apprenants faibles en apprenants plus forts.

94. Pouvez-vous décrire les chaînes de Markov ?

Une chaîne de Markov est définie comme un modèle stochastique qui décrit une séquence d'événements possibles où la probabilité de chaque événement dépend principalement de l'état atteint lors de l'événement précédent.

95. Définir le théorème central limite ?

Le théorème central limite définit que si nous avons une population avec une moyenne μ et un écart type σ qui peut prendre des échantillons aléatoires suffisamment grands de la population donnée avec remise, alors la dispense des moyennes d'échantillon sera approximativement distribuée normalement.

96. Expliquez le terme puissance statistique ?

La puissance statistique fait référence à la puissance d'un test d'hypothèse, qui est définie comme la probabilité que le test rejette correctement l'hypothèse nulle. Ici, c'est la probabilité d'un vrai résultat positif. Il n'est utile que lorsque l'hypothèse nulle est rejetée.

97. Pouvez-vous nommer les trois types de biais qui peuvent survenir lors de l'échantillonnage ?

  1. Biais de séléction
  2. Biais de sous-couverture
  3. Biais de survie

98. Qu'est-ce que la partialité ?

En science des données, le biais est défini comme un écart par rapport aux attentes dans les données données. En termes simples, le biais fait référence à une erreur dans les données. Mais l'erreur passe souvent inaperçue.

99. Pouvez-vous expliquer « naïf » dans un algorithme naïf de Bayes ?

Le modèle de l'algorithme Naive Bayes est principalement basé sur le théorème de Bayes. Il spécifie la probabilité d'un événement. Il est basé sur la connaissance préalable des conditions qui pourraient être liées à cet événement spécifié.

100. Qu'est-ce que la rétropropagation ?

La rétro-propagation est l'essence même de tout entraînement de réseau neuronal. C'est la méthode qui règle les poids d'un réseau neuronal qui dépend du taux d'erreur obtenu à l'époque précédente. Un réglage approprié nous aide à réduire les taux d'erreur et à en faire un modèle plus fiable en augmentant sa généralisation.

Questions fréquemment posées

Nommez les algorithmes d'apprentissage supervisé couramment utilisés ?

arbres de décision, régression logistique, machine à vecteurs de support

Conclusion

Bonne chance pour votre entretien Data Science, et nous espérons que nos questions et réponses d'entretien Data Science vous ont été utiles. Vous pouvez également consulter notre Questions et réponses pour les entretiens avec le centre d'appels , qui pourrait vous aider.