trouver-une-fresque-scraper

Le scraper de Trouver une Fresque est un outil open source permettant de détecter les ateliers disponibles dans votre département.

Les données sont extraites des billetteries officielles via la technique du scraping. La validité des adresses est vérifiée en utilisant les données d'OpenStreetMap.

Si vous utilisez ce code, merci de respecter la charte de Nominatim.

🌍 Organisateurs: signaler un problème

Si vous êtes l'organisateur d'un atelier Fresque et que votre évènement n'apparaît pas sur la plateforme Trouver une Fresque, merci de lire le tutoriel à destination des organisateurs de fresques.

Ouvrez une issue Github si vous souhaitez signaler un problème non couvert dans le tutoriel, ou suggérer l'intégration d'un nouvel atelier.

Les ateliers actuellement supportés sont listés sur la feuille de route.

🤖 Développeurs: installation

Le scraping est effectué en utilisant Selenium, qui s'appuie sur geckodriver pour afficher les données à récupérer. Notre outil peut être installé sur un Raspberry Pi sans problème.

Avec `flox` (méthode recommandée)

Flox est un gestionnaire de paquets multiplateforme qui vise à permettre la reproducibilité, la robustesse, la portabilité et la stabilité des systèmes d'information. Cette approche permet d'installer les paquets Python et dépendances système en une seule fois.

Suivez les instructions pour installer Flox sur votre système ici. Tout est prêt ! Utilisez la commande flox activate dans ce dossier pour commencer à développer.

Vérifiez que tout fonctionne:

python -c "import trouver_une_fresque_scraper as m; print(m.__file__)"

Manuellement avec `uv`

Cette méthode d'installation n'est pas recommandée. Préférez l'utilisation de Flox, qui vous facilitera la tâche et garantira d'avoir toutes les dépendances nécessaires pour lancer le scraper.

Téléchargez la version la plus récente de geckodriver, puis extrayez le binaire geckodriver dans un dossier bin/ (ou n'importe où sur votre système).

Les librairies suivantes doivent être installées sur votre système:

apt install firefox-esr libpq-dev python3-dev

Enfin, suivez les instructions pour installer uv ici et créez un environnement Python:

uv venv .venv --python 3.13

Activez l'environnement:

source .venv/bin/activate

Installez le scraper avec:

uv sync

Vérifiez que tout fonctionne:

python -c "import trouver_une_fresque_scraper as m; print(m.__file__)"

🤖 Développeurs: utilisation

Avant de contribuer au projet, assurez-vous d'avoir lu le document CONTRIBUTING.md.

Configuration

Renommez le fichier de configuration config.json.dist en config.json et renseignez les champs.

{
    "webdriver": "",
    "host" : "",
    "port" : "",
    "user" : "",
    "psw"  : "",
    "database": "",
    "timezone": "Europe/Paris"
}

Le champ webdriver est à renseigner avec le chemin vers le binaire geckodriver dans le cas d'une installation sans Flox (= manuelle avec uv uniquement) uniquement.

Lancer le scraping

python -m trouver_une_fresque_scraper.scrape
# or
python -m trouver_une_fresque_scraper.scrape --headless --country ch --skip-dirty-check

À la fin du scraping, un fichier JSON nommé avec le format events_20230814_153752.json est créé dans le dossier results/.

L'option --headless exécute le scraping en mode headless, et --push-to-db pousse les résultats du fichier json de sortie dans la base de données en utilisant les identifiants définis dans config.json.

Base de données

Nous utilisons Supabase pour persister les données scrapées, une alternative open source à Firebase qui fournit une base de données Postgres gratuitement.

Login to the CLI and start the database. When starting the database, if file supabase/seed.sql is present, the INSERT statements will be executed to populate the database with testing data.

supabase login
supabase init
supabase start

The supabase/tables.sql contains SQL statements allowing to create the required tables.

To push some data into the database, use the following command:

python push_to_db.py --input results/output.json

This command will perform the following actions:

All events are inserted into the historical table events_scraped. Setting most_recent=False, but maybe the call to update_most_recent() below will change this.
Delete all events from events_future before inserting them again, so that they are updated. Setting most_recent=True.
The most_recent attribute of events in events_scraped are set to True if the following conditions are met:
- A query identifies rows in the events_scraped table that do not have a corresponding entry in the events_future table.
- For these rows, it finds the most recent scrape_date for each id and workshop_type.
- It then updates the most_recent column to TRUE for these rows, but only if the start_date of the event is in the past.

Lancer les tests

cd tests
python scrape_tests.py

Comment contribuer

Pour proposer une modification, un ajout, ou décrire un bug sur l'outil de détection, vous pouvez ouvrir une issue ou une Pull Request avec vos modifications.

Avant de développer, merci d'installer le hook git en suivant les instructions listées dans le fichier CONTRIBUTING. Pour le code en Python, veillez à respecter le standard PEP8 avant de soumettre une Pull Request. La plupart des IDEs et éditeurs de code modernes proposent des outils permettant de mettre en page votre code en suivant ce standard automatiquement.

Name		Name	Last commit message	Last commit date
Latest commit History 251 Commits
.flox		.flox
.github		.github
bin		bin
countries		countries
results		results
src/trouver_une_fresque_scraper		src/trouver_une_fresque_scraper
supabase		supabase
tests		tests
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
TUTORIAL.md		TUTORIAL.md
TUTORIAL_OSM.md		TUTORIAL_OSM.md
WORKSHOPS.md		WORKSHOPS.md
compare.py		compare.py
config.json.dist		config.json.dist
loop.sh		loop.sh
push_to_db.py		push_to_db.py
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Repository files navigation

trouver-une-fresque-scraper

🌍 Organisateurs: signaler un problème

🤖 Développeurs: installation

Avec `flox` (méthode recommandée)

Manuellement avec `uv`

🤖 Développeurs: utilisation

Configuration

Lancer le scraping

Base de données

Lancer les tests

Comment contribuer

About

Uh oh!

Releases

Sponsor this project

Uh oh!

Packages

Uh oh!

Contributors 3

Uh oh!

Languages

Uh oh!

License

openfresque/trouver-une-fresque-scraper

Folders and files

Latest commit

History

Repository files navigation

trouver-une-fresque-scraper

🌍 Organisateurs: signaler un problème

🤖 Développeurs: installation

Avec flox (méthode recommandée)

Manuellement avec uv

🤖 Développeurs: utilisation

Configuration

Lancer le scraping

Base de données

Lancer les tests

Comment contribuer

About

Topics

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Sponsor this project

Uh oh!

Packages 0

Uh oh!

Contributors 3

Uh oh!

Languages

Avec `flox` (méthode recommandée)

Manuellement avec `uv`

Packages