j'ai besoin de tuner mon travail de traitement et la traçabilité est une approche importante pour structurer le big data.

big data
2
8

3 réponses

il y a 3 ans par PascalW
Bonsoir, Je dois assisté la semaine prochaine à un colloque sur le Big Data et le décisionnel .
J'essaierai de poser la question si je peux
Par ce que là... à part d'envisager de métadonnées indexées... Mais cela me semble irréaliste.
3
il y a 3 ans par PascalW
J'ai posé la question à Messieurs V.FORET de CGI et JM FRANCO de TALEND.
Pour eux il existe des bien des outils pour cela mais j'attends par mail qu'ils me redonnent les noms (mes notes n'ont pas survécu au cocktail...)
1
il y a 3 ans par FabriceT
Après avoir récemment mis les pieds dans un système ETL + un server Business Object qui posait quelques problèmes. Afin d'éviter de me perdre dans le cheminement de l'information, j'ai appliqué quelques méthodes simples :
- (se) documenter
- essayer de rester le plus proche de l'origine (au moins dans l'idée), c'est parlant quand on connaît la source.
- ne pas hésiter à avoir des presque doublons pour certaines tables générées car l'espace disque n'est pas si important et parce que ça permet de ne pas trop isoler des données de leur contexte.
- si les données de deux sources fusionnées ne sont pas dissociables, ajouter un champs pour en indiquer l'origine. On travaille sur une base de données, non ?!

Ça n'a pas pété, on a pu pointer des erreurs et supprimer quelques artefacts.
2
il y a 3 ans par djoke
j'ai rien pigé de ta description. Pourtant j'ai relu.
1
il y a 3 ans par CherineGHOULI
Je reformule donc, le
Lors d analyse big data, des jointures ou croisements multiples de donnees et de tables sont faites, des extractions de bases de donnees et des recoupements sont faits qui donnent lieu à d autres bases de donnees plus exploitables. Le cas echeant les differentes tables ou bases intermediaires peuvent meme etre stockees en differents endroits de la chaine de traitement (points d acces, backbone, backend/plates formes de services,...).
Du coup, en fin de chaine on ne sait plus d où vient la donnee car elle a ete traitee plein de fois et extraite/isolee de son environnement/contexte de depart.

La tracabilité aurait pour objectif de renseigner quelque part à chaque jointure ou extraction l information de source de la donnée.
Je me demandais si quelqu'un avait déjà travaillé sur cette problématique pourrait eventuellement m'aider à la developper, en suivant une architecture spécifique.
3

Vous aimez Skiller?

Rejoignez la communauté.