Merge branch 'stable/0.14.z' into prod/pa1ch/0.y.zv0.14.0-pa1ch prod/pa1ch/0.y.z

author: Alban Gruin 2018-09-06 21:46:51 +0200
committer: Alban Gruin 2018-09-06 21:46:51 +0200
commit: 676345434415d40363c80960484abf0295ca800a (patch)
tree: 76c0f71fd86f19962812a63da109bf79ebd2d43c /management/parsers/ups2017.py
parent: 6b8ea6615de6000ea14396fc2d31eb5c6cb159f9 (diff)
parent: b4fde18263de491650c71bd31dffe3c324e97879 (diff)
1 files changed, 162 insertions, 0 deletions
diff --git a/management/parsers/ups2017.py b/management/parsers/ups2017.py
new file mode 100644
index 0000000..99ce34d
--- /dev/null
+++ b/management/parsers/ups2017.py
@@ -0,0 +1,162 @@
+#    Copyright (C) 2017-2018  Alban Gruin
+#
+#    celcatsanitizer is free software: you can redistribute it and/or modify
+#    it under the terms of the GNU Affero General Public License as published
+#    by the Free Software Foundation, either version 3 of the License, or
+#    (at your option) any later version.
+#
+#    celcatsanitizer is distributed in the hope that it will be useful,
+#    but WITHOUT ANY WARRANTY; without even the implied warranty of
+#    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+#    GNU Affero General Public License for more details.
+#
+#    You should have received a copy of the GNU Affero General Public License
+#    along with celcatsanitizer.  If not, see <http://www.gnu.org/licenses/>.
+
+import datetime
+import re
+
+from bs4 import BeautifulSoup
+from django.utils import timezone
+
+from ...models import Course, Group, Room
+from .abstractparser import AbstractParser
+
+
+def add_time(date, time):
+    ptime = datetime.datetime.strptime(time, "%H:%M")
+    delta = datetime.timedelta(hours=ptime.hour, minutes=ptime.minute)
+    return date + delta
+
+
+class Parser(AbstractParser):
+    def __get_event(self, event, event_week, today):
+        """Renvoie une classe Course à partir d’un événement lu par BS4"""
+        # On récupère la date de l’évènement à partir de la semaine
+        # et de la semaine référencée, puis l’heure de début et de fin
+        date = event_week + datetime.timedelta(int(event.day.text))
+        begin = add_time(date, event.starttime.text)
+        end = add_time(date, event.endtime.text)
+
+        # On ne traite pas le cours si il commence après le moment du
+        # traitement
+        if today is not None and begin < today:
+            return
+
+        # Création de l’objet cours
+        course = Course.objects.create(source=self.source, begin=begin,
+                                       end=end)
+
+        # On récupère les groupes concernés par les cours
+        groups = [
+            Group.objects.get_or_create(
+                source=self.source, celcat_name=item.text
+            )[0]
+            for item in event.resources.group.find_all("item")
+        ]
+        course.groups.add(*groups)
+
+        # On récupère le champ « remarque »
+        if event.notes is not None:
+            course.notes = "\n".join(event.notes.find_all(text=True))
+
+        # On récupère le champ « nom »
+        if event.resources.module is not None:
+            course.name = event.resources.module.item.text
+        elif event.category is not None:
+            # Il est possible qu’un cours n’ait pas de nom.  Dans ce
+            # cas, si le cours a un type, il devient son nom.
+            course.type = event.category.text
+            # Si il n’a pas de type, il obtiendra une valeur par
+            # défaut définie à l’avance.
+
+        # Récupération du type de cours
+        if event.category is not None:
+            course.type = event.category.text
+
+        # Si un cours a une salle attribuée, on les insère dans la
+        # base de données, et on les ajoute dans l’objet cours
+        if event.resources.room is not None:
+            rooms = [
+                Room.objects.get_or_create(name=item.text)[0]
+                for item in event.resources.room.find_all("item")
+            ]
+            course.rooms.add(*rooms)
+
+        return course
+
+    def get_events(self, today, year=None, week=None):
+        """Récupère tous les cours disponibles dans l’emploi du temps Celcat.
+        Le traîtement se limitera à la semaine indiquée si il y en a une."""
+        for event in self.soup.find_all("event"):
+            event_week = self.weeks[event.rawweeks.text]
+            event_week_num = event_week.isocalendar()[1]  # Numéro de semaine
+
+            # On passe le traitement si la semaine de l’événement ne
+            # correspond pas à la semaine passée, ou qu’il ne contient
+            # pas de groupe ou n’a pas de date de début ou de fin.
+            if (
+                (
+                    event_week_num == week
+                    and event_week.year == year
+                    or year is None
+                    or week is None
+                )
+                and event.resources.group is not None
+                and event.starttime is not None
+                and event.endtime is not None
+            ):
+                course = self.__get_event(event, event_week, today)
+
+                # On renvoie le cours si il n’est pas nul
+                if course is not None:
+                    yield course
+
+    def get_update_date(self):
+        # Explication de la regex
+        #
+        # (\d+)/(\d+)/(\d+)\s+(\d+):(\d+):(\d+)
+        # (\d+)                                 au moins un nombre
+        #      /                                un slash
+        #       (\d+)                           au moins un nombre
+        #            /                          un slash
+        #             (\d+)                     au moins un nombre
+        #                  \s+                  au moins un espace
+        #                     (\d+)             au moins un nombre
+        #                          :            un deux-points
+        #                           (\d+)       au moins un nombre
+        #                                :      un deux-points
+        #                                 (\d+) au moins un nombre
+        datetime_regex = re.compile(r"(\d+)/(\d+)/(\d+)\s+(\d+):(\d+):(\d+)")
+        search = datetime_regex.search(self.soup.footer.text)
+        if search is None:
+            return None
+
+        day, month, year, hour, minute, second = [
+            int(v) for v in search.groups()
+        ]
+        date = datetime.datetime(year, month, day, hour, minute, second)
+        return timezone.make_aware(date)
+
+    def get_weeks(self):
+        # Les semaines présentes dans l’emploi du temps sont toutes
+        # stockées dans un élément span.  Il contient une chaîne de
+        # caractère qui correspond à une forme d’ID, et un champ date,
+        # qui correspond au lundi de cette semaine.  Un cours contient
+        # un ID correspondant à une semaine, puis le nombre de jours
+        # après le début de cette semaine.
+        self.weeks = {}
+
+        # Liste de toutes les semaines définies
+        for span in self.soup.find_all("span"):
+            # On parse la date et on la fait correspondre à l’ID
+            self.weeks[span.alleventweeks.text] = timezone.make_aware(
+                datetime.datetime.strptime(span["date"], "%d/%m/%Y")
+            )
+
+        return self.weeks
+
+    def get_source(self):
+        req = super(Parser, self).get_source()
+        self.soup = BeautifulSoup(req.content, "html.parser")
+        return self.soup
author	Alban Gruin	2018-09-06 21:46:51 +0200
committer	Alban Gruin	2018-09-06 21:46:51 +0200
commit	676345434415d40363c80960484abf0295ca800a (patch)
tree	76c0f71fd86f19962812a63da109bf79ebd2d43c /management/parsers/ups2017.py
parent	6b8ea6615de6000ea14396fc2d31eb5c6cb159f9 (diff)
parent	b4fde18263de491650c71bd31dffe3c324e97879 (diff)