aboutsummaryrefslogtreecommitdiff
path: root/management/parsers/ups2017.py
diff options
context:
space:
mode:
Diffstat (limited to 'management/parsers/ups2017.py')
-rw-r--r--management/parsers/ups2017.py162
1 files changed, 162 insertions, 0 deletions
diff --git a/management/parsers/ups2017.py b/management/parsers/ups2017.py
new file mode 100644
index 0000000..99ce34d
--- /dev/null
+++ b/management/parsers/ups2017.py
@@ -0,0 +1,162 @@
+# Copyright (C) 2017-2018 Alban Gruin
+#
+# celcatsanitizer is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as published
+# by the Free Software Foundation, either version 3 of the License, or
+# (at your option) any later version.
+#
+# celcatsanitizer is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
+# GNU Affero General Public License for more details.
+#
+# You should have received a copy of the GNU Affero General Public License
+# along with celcatsanitizer. If not, see <http://www.gnu.org/licenses/>.
+
+import datetime
+import re
+
+from bs4 import BeautifulSoup
+from django.utils import timezone
+
+from ...models import Course, Group, Room
+from .abstractparser import AbstractParser
+
+
+def add_time(date, time):
+ ptime = datetime.datetime.strptime(time, "%H:%M")
+ delta = datetime.timedelta(hours=ptime.hour, minutes=ptime.minute)
+ return date + delta
+
+
+class Parser(AbstractParser):
+ def __get_event(self, event, event_week, today):
+ """Renvoie une classe Course à partir d’un événement lu par BS4"""
+ # On récupère la date de l’évènement à partir de la semaine
+ # et de la semaine référencée, puis l’heure de début et de fin
+ date = event_week + datetime.timedelta(int(event.day.text))
+ begin = add_time(date, event.starttime.text)
+ end = add_time(date, event.endtime.text)
+
+ # On ne traite pas le cours si il commence après le moment du
+ # traitement
+ if today is not None and begin < today:
+ return
+
+ # Création de l’objet cours
+ course = Course.objects.create(source=self.source, begin=begin,
+ end=end)
+
+ # On récupère les groupes concernés par les cours
+ groups = [
+ Group.objects.get_or_create(
+ source=self.source, celcat_name=item.text
+ )[0]
+ for item in event.resources.group.find_all("item")
+ ]
+ course.groups.add(*groups)
+
+ # On récupère le champ « remarque »
+ if event.notes is not None:
+ course.notes = "\n".join(event.notes.find_all(text=True))
+
+ # On récupère le champ « nom »
+ if event.resources.module is not None:
+ course.name = event.resources.module.item.text
+ elif event.category is not None:
+ # Il est possible qu’un cours n’ait pas de nom. Dans ce
+ # cas, si le cours a un type, il devient son nom.
+ course.type = event.category.text
+ # Si il n’a pas de type, il obtiendra une valeur par
+ # défaut définie à l’avance.
+
+ # Récupération du type de cours
+ if event.category is not None:
+ course.type = event.category.text
+
+ # Si un cours a une salle attribuée, on les insère dans la
+ # base de données, et on les ajoute dans l’objet cours
+ if event.resources.room is not None:
+ rooms = [
+ Room.objects.get_or_create(name=item.text)[0]
+ for item in event.resources.room.find_all("item")
+ ]
+ course.rooms.add(*rooms)
+
+ return course
+
+ def get_events(self, today, year=None, week=None):
+ """Récupère tous les cours disponibles dans l’emploi du temps Celcat.
+ Le traîtement se limitera à la semaine indiquée si il y en a une."""
+ for event in self.soup.find_all("event"):
+ event_week = self.weeks[event.rawweeks.text]
+ event_week_num = event_week.isocalendar()[1] # Numéro de semaine
+
+ # On passe le traitement si la semaine de l’événement ne
+ # correspond pas à la semaine passée, ou qu’il ne contient
+ # pas de groupe ou n’a pas de date de début ou de fin.
+ if (
+ (
+ event_week_num == week
+ and event_week.year == year
+ or year is None
+ or week is None
+ )
+ and event.resources.group is not None
+ and event.starttime is not None
+ and event.endtime is not None
+ ):
+ course = self.__get_event(event, event_week, today)
+
+ # On renvoie le cours si il n’est pas nul
+ if course is not None:
+ yield course
+
+ def get_update_date(self):
+ # Explication de la regex
+ #
+ # (\d+)/(\d+)/(\d+)\s+(\d+):(\d+):(\d+)
+ # (\d+) au moins un nombre
+ # / un slash
+ # (\d+) au moins un nombre
+ # / un slash
+ # (\d+) au moins un nombre
+ # \s+ au moins un espace
+ # (\d+) au moins un nombre
+ # : un deux-points
+ # (\d+) au moins un nombre
+ # : un deux-points
+ # (\d+) au moins un nombre
+ datetime_regex = re.compile(r"(\d+)/(\d+)/(\d+)\s+(\d+):(\d+):(\d+)")
+ search = datetime_regex.search(self.soup.footer.text)
+ if search is None:
+ return None
+
+ day, month, year, hour, minute, second = [
+ int(v) for v in search.groups()
+ ]
+ date = datetime.datetime(year, month, day, hour, minute, second)
+ return timezone.make_aware(date)
+
+ def get_weeks(self):
+ # Les semaines présentes dans l’emploi du temps sont toutes
+ # stockées dans un élément span. Il contient une chaîne de
+ # caractère qui correspond à une forme d’ID, et un champ date,
+ # qui correspond au lundi de cette semaine. Un cours contient
+ # un ID correspondant à une semaine, puis le nombre de jours
+ # après le début de cette semaine.
+ self.weeks = {}
+
+ # Liste de toutes les semaines définies
+ for span in self.soup.find_all("span"):
+ # On parse la date et on la fait correspondre à l’ID
+ self.weeks[span.alleventweeks.text] = timezone.make_aware(
+ datetime.datetime.strptime(span["date"], "%d/%m/%Y")
+ )
+
+ return self.weeks
+
+ def get_source(self):
+ req = super(Parser, self).get_source()
+ self.soup = BeautifulSoup(req.content, "html.parser")
+ return self.soup