Méthodologie proposée pour établir un algorithme de scoring

Données quantifiables (fame et innovation)

  1. Etablir une base des données issue des résultats de la recherche sur un panel d’entreprises

  2. Pour chaque source:

  • établir la répartition du panel de test

  • normaliser les résultats sur une échelle de 0 à 1

  • 0 correspond au résultat minimum

  • 1 correspond au résultat maximum

  • une régression linéaire sur les percentiles permettra de calculer une formule de normalisation

    note de 0.5 si le nombre de brevet équivaut à la médiane.
    note > 0.75 si 75 pour cent des entreprises du panel a une quantité inférieur.
  1. Au besoin établir une pondération des sources (inpi plus importante que google par exemple).

  2. Calculer le résultat (entre 0 et 1) en fonction du score normalisé et de la pondération.

  3. On peut déjà attribuer une note pour chaque critère.

Données non quantifiables (parcours professionnel du dirigent)

Liste des critères qui peuvent participer à la note finale:

  1. Diplôme obtenu (notation en fonction du nombre d’années d’études)

  2. Ecoles d’obtention du diplôme (établir une notation en utilisant un classement type l’étudiant)

http://www.letudiant.fr/palmares/palmares-des-grandes-ecoles-de-commerce/excellence-academique-1.html
http://www.letudiant.fr/palmares/palmares-des-ecoles-d-ingenieurs/excellence-academique-2.html
  1. Nombre de relations linkedin.

  2. Compétences (lister les compétences en rapport avec l’entreprenariat, compter les recommandations)

  3. Nombre de recommandations.

  4. Note obtenue dans notre algorithme pour chacune des entreprises où la personne a travaillé.

  5. Présence de mots clefs dans chaque recommandations.

  6. Période d’inactivité.

Pour chacun des critères, on doit

  • récupérer une valeur numérique

  • Etablir sa répartition

  • normaliser la valeur pour obtenir une note entre 0 et 1.

Une pondération doit être appliquée à chaque critère pour que la note finale soit plus influencée par les critères majeurs que par les critères mineurs. La pondération peut être faite à la main dans un premier temps, en déterminant de façon intuitive quels critères mettre en valeur.

La note finale peut être une moyenne des notes établies pour chaque critère. On peut, ici encore, pondérer les critères selon leur importance.

Pour automatiser cette pondération, tout en se basant sur des critères factuels, on pourrait utiliser un réseau de neurones avec:

  • en entrée la liste des différents résultats normalisés.

  • en sortie la note finale.

Si on estime que la note d’une agence de notation est un critère statistiquement fiable pour juger de la solvabilité d’une entreprise, on pourrrait entrainer le réseau de neurones à obtenir des résultats proches de ceux des agences de notations. Si on parvient, à partir de critères qualitatifs, dans la plupart des cas à obtenir une note équivalente de celle calculée grâce à des critères quantitatifs, on peut estimer que le modèle est bon.

Questions ouvertes

  • Peut-on établir un critère de notation à partir de recherche de mots clefs, dans les articles de presses ou les

recommandations linked-in? Ce genre d’algorithme existe-t-il déjà tout fait?

  • Quelle est la meilleure manière de normaliser les données issues du panel de test?

Peut-être que la régression linéaire n’est pas toujours le meilleur modèle. Apparemment pour être exploitables, la répartition des données normalisées doit suivre une distribution normale. D’après ce que j’ai vu la détermination de la transformation à effectuer se fait en essayant plusieurs methodes jusqu’à trouver celle qui donne une répartition normale:

(ln(x), ln(x+1), racine carré(x), racine quatrième de x...)
  • Comment établir le pannel de test (taille des entreprises que l’on souhaite étudier, localisation, …)?