Bonjour à tous, nous sommes un cabinet de conseil et travaillons de temps en temps sur des bases de données publiques, pour produire des analyses. Nous travaillons à partir d'Excel et Access, classique, mais nous sommes maintenant confrontés à des tailles de bases de données qui explosent. J'ai ainsi récupérer une base en csv de plus d'1go. Bien trop pour Excel et très limite pour Access.

Comment exploiter ces bases de données ? Existe-il des outils pour non informaticien ? Faut-il faire développer quelque chose ?

J'ai besoin de faire des retraitements (exclure des données selon des critères définis), des sommes et moyennes, des graphiques (pas forcément besoin d'avoir les graphiques dans l'outil si on peut exporter vers Excel). La base de données est figée (pas de nouvelles entrées).

Merci pour vos conseils !

bigdata bases de données
5
6

5 réponses

il y a 1 an par PascalW

Bonjour,

Je suis un peu surpris qu'un 1GB dépasse la capacité d'Excel (specifications). Je pense que la difficulté tient davantage à l'organisation des données elle-même ou de la puissance de votre PC.

Dans un premier temps, j'utiliserai des outils de BI comme Qlik sense (ou Qlik view) ou Tableau. Quand on est pas des spécialistes des outils décisionnels, ils sont trés intuitif... (les autres outils comme B.O. ou Cognos me semble moins facile d'accés.

Je commencerai donc par télécharger la version Qlik Sense Desktop qui est gratuite. Si cela fonctionne vous oublierez Excel

Si cela ne fonctionne pas et j'utiliserai une base MySQL à la place d'Access. Le plus simple pour un test est de télécharger un environnement comme XAMPP qui vous proposera en local un serveur Apache, PHP et MySQL clé en main. L'interface PHPmyadmin vous aidera pour les requêtes sur la base et les outils comme Qlik ou Tableau fonctionnent très bien. Mais à ce point, le nécessité d'un développement commencera à se faire plus pressante...parce que même si cela marche, c'est quand même "spartiate"

Je ne vous cache pas que les performances de votre machine en particulier la RAM vont faire la différence.

5
il y a 1 an par HoferPO

Merci pour votre réponse, je vais teter Qlik et Tableau. Concernat Excel, j'avais déjà remarqué que les fichiers de plus de 80mo étaient ingérables chez nous, du fait de temps de réponse beaucoup trop long et de nombreux plantages.

2
il y a 1 an par HoferPO

Des nouvelles : j'ai testé Qlik, cela rame à l'ouverture de la base, au bout de 8 minutes de chargement, j'ai laissé tomber. J'ai essayé aussi Tableau et il est époustouflant : la base s'ouvre en moins d'1 minute, et il est très facile d'utilisation pour nous car de fonctionnement très similaire à Access. On peut faire du tri, des calculs entre plusieurs colonnes triées, ça correspond parfaitement à nos besoins.

Merci beaucoup de nous l'avoir fait découvrir !

1
il y a 1 an par PascalW

Tableau et Qlik sont des outils de décisionnel et de dataviz très puissant.

Heureux d'avoir pu vous aider

1
il y a 1 an par FredericLibaud

Bonjour,

Il est clair que Access et/ou Excel on des limites techniques et ce entre autres sur la capacité volumétrique. Donc quid des bases de données big data.

Sauf que ce sont de bon outils pour faire de l'analyse de données spécifiques et/ou de l'extraction depuis des bases données relationnels. Quand je parle de base de données relationnel, je parle de système en mesure de gérer des contraintes relationnel et en la matière il existe de très nombreux produits.

Tous sont plus ou moins capables de gérer des volumétries conséquentes, il s'agit plus souvent d'une question d'organisation et de manière intrinsèque d'infrastructure informatique.

N'hésitez pas à revenir vers moi, si vous souhaitez échanger pour avancer sur votre problématique.

3
il y a 1 an par ChristopheFantoni

La solution la plus simple quand on doit traiter de gros fichiers, c'est tout simplement de les découper. Il existe une multitude de programmes pour cela. Des commerciaux. Des gratuits. Il n'y a qu'à se servir.

Par exemple, pour votre fichier CSV, vous pourriez utiliser dessus le programme gratuit HJSplit  ( www.hjsplit.org/ ) dont il existe aussi bien des versions Windows, Linux et Mac (et même PHP, OS/2, Amiga, etc.). Bien qu’en anglais, le programme reste très simple d’utilisation, même pour le non-informaticien.

Je rappelle, au besoin, que le format CSV, ce n'est ni plus ni moins qu'un fichier texte dont les données ont été organisées d'une certaine manière. Il peut donc très facilement être découpé par n'importe quel programme dédié, justement, à la coupe. C'est moins vrai avec les formats Excel et Access qui sont, à la base, des formats propriétaires. Ils nécessitent donc la présence d'un entête spécifique pour pouvoir être lus correctement. Quant au format CSV, sachez qu’il a été pensé dès le début dans une optique de portabilité. C’est donc plus un format de transition qu'un format d'exploitation (comme peut l'être le DOC, le XLS, etc).

Voilà. J’espère avoir répondu à votre question.
Je reste au besoin à votre disposition si vous avez besoin de plus amples précisions.

2
il y a 1 an par HoferPO

Merci pour votre réponse, je vais tester Jhsplit, j'avais sous access déjà réussi à découper le fichier en 2, mais les temps de réponses étaient encore très long. Je vais le découper un plus de parties.

1
il y a 1 an par ChristopheFantoni

Pour vous donner une bonne base, je vous invite à découper vos gros fichiers CVS pour avoir des petits fichiers ayant la capacité maximale des CDs, soit de 650 à 700 MB. Vous faciliterez ainsi la gestion de vos sauvegardes. Toutefois, vous vous apercevrez bien vite que la mémoire de votre PC/Mac (sans doute de 4GB) peut également saturer avec des fichiers d'une telle taille. La raison est que le fichier CVS doit se charger intégralement dans la mémoire de votre PC/Mac pour pouvoir être lu/édité. Alors, comment faire ? C'est bien simple : il faut les découper à nouveau. Par expérience, je sais que les fichiers de 100/150 MB s'éditent assez bien sur une machine possédant uniquement 4GB de mémoire. Par contre, dès qu'on commence à franchir ce seuil, effectivement, il n'est pas rare que la machine rame ou plante.

1
il y a 1 an par FabriceT

Il existe PowerQuery pour Excel qui permet de le booster dans le traitement de données.

support.office.com/fr-fr/article/Pr%C3%A9senta...

Par contre, l'add-on ne fonctionne pas avec certaines versions d'Excel.

1
il y a 1 an par EtienneZulauf

Bonjour,

Comme les collègues ont déjà donné de très bonnes réponses sur les outils disponibles pour traiter des fichiers au cas par cas, je vais me concentrer sur l'étape suivante : quand on veut gérer ces fichiers avec une continuité dans le temps (gérer les versions).

Nous utilisons pour beaucoup d'application la solution ElasticSearch qui est spécialisée en BigData. Couplée à Kibana qui est un outil de visualisation adhoc (développé par la même société), vous avez un outil d'une très grande puissance pour interroger vos données et même programmer des tableaux de bord. Les temps de réponse sont bluffants !

En utilisant des solution de gestion de flux (ETL comme Talend ou le plus récent Airflow par exemple), vous pourrez gérer les imports successifs au gré des versions.

Néanmoins, cette approche requiert des développements et de l'hébergement.

1
il y a 1 an par PascalW

Je vais essayé Elacticsearch et kibana. Merci du tuyau

1

Vous aimez Skiller?

Rejoignez la communauté.