[ Pobierz całość w formacie PDF ]
MONIKA CHUCHRO * Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni Słowa kluczowe środowiskowe szeregi czasowe – ścieki – oczyszczalnie ścieków Streszczenie Predykcja zjawisk jest jednym z podstawowych zagadnień analizy środowiskowych szeregów czasowych. Wybranie najlepszej metody przewidywania przyszłych wartości na podstawie posiadanych danych jest pro- cesem skomplikowanym. Rozbieżność między przewidywanymi, a rzeczywistymi wartościami może być wysoka. Jest to spowodowane zaszumieniem danych, które jest powszechnym zjawiskiem występującym w środowiskowych szeregach czasowych. Dodatkowo na jakość predykcji wpływa fakt, że szeregi czasowe mogą posiadać trend, cykliczność i sezonowość. Charakter środowiskowych szeregów czasowych, posiadają- cych skomplikowaną strukturę i zaszumienie, wpływa znacznie na obniżenie jakości predykcji. Zastosowanie licznych wariantów analiz oraz testów, połączone z obszerną wiedzą o danym szeregu czasowym umożliwia uzyskanie dobrych wyników predykcji. W artykule zastosowano podstawowe metody predykcji szeregów czasowych oraz sprawdzono ich skuteczność na przykładzie danych dotyczących natężenia dopływu ścieków do oczyszczalni ścieków. 1. Wstęp Prognoza pogody, temperatura ciała pacjentów notowana codziennie w szpitalu, waga odpadów dowożonych w ciągu doby na wysypiska odpadów, to są przykłady szeregów czasowych. Dane zbierane systematycznie w określonych przedziałach czasu mogą dostarczyć przydatnych informa- cji o zmianach nasilenia zjawiska, a także okresowości występującej w danych. Szeregi czasowe umożliwiają predykcje tych zjawisk. Prognozowanie przyszłych wartości interesującego nas zja- wiska jest rzeczą skomplikowaną, gdyż wymaga poznania struktury danych opisujących zjawisko. W zrozumieniu czynników kształtujących szereg czasowy pomaga wyodrębnienie składowych sze- regu, do których należy trend, wahania sezonowe i okresowe oraz zjawiska losowe [3]. Większość środowiskowych szeregów czasowych opisuje zjawiska skomplikowane, które są kształtowane przez wiele czynników [6]. Przykładem takich szeregów czasowych jest średniodobowe natężenie dopływu ścieków do oczyszczalni ścieków. Na kształtowanie natężenia dopływu mają wpływ: ilość * Katedra Geoinformatyki i Informatyki Stosowanej, Wydział Geologii, Geofizyki i Ochrony Środowiska, AGH, Kraków e-mail: Chuchro@geol.agh.edu.pl 299 Chuchro M.: Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni ścieków wyprodukowanych przez gospodarstwa domowe, ilość ścieków wygenerowanych przez zakłady przemysłowe, opady atmosferyczne i pora roku. Ilość ścieków wyprodukowanych przez gospodarstwa domowe oraz przemysł jest natomiast uzależniona od dnia tygodnia oraz struktury miesiąca. Wiedza o strukturze szeregu czasowego umożliwia wybranie modeli predykcji. W zależności od wymaganej dokładności modelu oraz posiadanych informacji o szeregu czasowym można wyko- rzystać jeden z wielu metod predykcji, do których należy np.: estymacja nieliniowa, predykcja na podstawie modeli autoregresyjnych, sieci neuronowe, prognozowanie na podstawie modeli re- gresji lub modeli adaptacyjnych [3, 8]. Celem projektu było wykonanie dwóch typów analiz umoż- liwiających predykcje szeregów czasowych, określenie ich skuteczności oraz możliwości zastoso- wania. Do analiz wybrano modele estymacji nieliniowej oraz sieci neuronowe. 2. Charakterystyka danych Objętość ścieków dopływających lub dowożonych do oczyszczalni ścieków, w określonej jednostce czasu nazywamy natężeniem dopływu ścieków. Natężenie dopływu ścieków jest jednym z podstawowych parametrów pracy oczyszczalni ścieków. Analizowane dane natężenia dopływu ścieków pochodzą z trzech komunalnych oczyszczalni ścieków odbierających ścieki z Krakowa, Sandomierza oraz Warszawy. Największa spośród analizowanych oczyszczalni ścieków – Czajka, znajduje się w Warszawie. Została oddana do eksploatacji w 1991 roku, w celu odbierania ścieków z prawobrzeżnej części stolicy. Do oczyszczalni dopływa 200 tyś. metrów sześciennych w ciągu doby. Drugą, co do wielkości analizowaną oczyszczalnią ścieków jest obiekt należący do Miejskie- go Przedsiębiorstwa Wodociągów i Kanalizacji w Krakowie – „Kujawy”. Obiekt ten został otwarty w 1999 roku. W „Kujawach” oczyszczane są ścieki pochodzące od 250 tyś. mieszkańców Nowej Huty. Najmniejszą spośród analizowanych oczyszczalni ścieków jest obiekt zlokalizowany w San- domierzu. W ciągu doby dopływa do niej 3 tys. metrów sześciennych ścieków pochodzących z Sandomierza oraz okolic. Cechą charakterystyczną wybranych szeregów czasowych jest ich dobowa rozdzielczość oraz długość, każdy szereg składa się z 2922 wyrazów. Analizowane dane uwzględniają przedział czasu od 01.01.2000 do 31.12.2007. Ze względu na rozmiar analizowanych wybrano pakiet Statistica 8 z najnowszą aktualizacją modułu analitycznego. Podstawowe analizy wykazały, że szeregi czasowe natężenia dopływu ścieków są niestacjonarne i nieergodyczne [4]. Dane zawierają trend, zmiany cykliczne, okresowe oraz szum [3]. Kolejną cechą charakterystyczną analizowanych szeregów cza- sowych, jest ich wysoka skośność prawostronna (dla o.ś. Sandomierz =3), spowodowana przewagą występowania intensywnych opadów nad incydentami braku wody i awariami w sieci wodno-kana- lizacyjnej. Szeregi czasowe z trzech analizowanych oczyszczalni ścieków wykazują dodatnią liniową kore- lacje, Pearsona wynoszącą 0,6 z dobowymi wartościami opadów. Dodatnia korelacja występuje między danymi z poszczególnych analizowanych oczyszczalni ścieków. Największa wartość kore- lacji występuje między oczyszczalnią „Kujawy” Kraków, a obiektem w Sandomierzu i wynosi 0,5. Najmniejsza wartość korelacji występuje miedzy danymi pochodzącymi z oczyszczalni ścieków w Warszawie i Krakowie, wynosi ona 0,3. Wysoka wartość korelacji liniowej między dwoma oczyszczalniami ścieków może wystąpić, gdy obiekty położone są w niewielkim oddaleniu od siebie oraz przyjmują ścieki o podobnej struk- turze. W takim przypadku możliwe jest wykonanie jednego modelu dla obu obiektów lub też wyko- rzystanie fragmentów modelu z jednej oczyszczalni do wykonania modelu dla drugiej oczyszczalni ścieków. Obliczanie korelacji liniowej Pearsona miało także na celu sprawdzenie czy występuje powią- zanie między opadami a danymi z oczyszczalni. Wysoka wartość tego współczynnika świadczy 300 Krakowska Konferencja Młodych Uczonych 2009 o wysokiej zależności między objętością ścieków dopływających do oczyszczalni a opadami. Wyso- ka dodatnia korelacja może też wystąpić między natężeniem dopływu do oczyszczalni z jednej miejscowości a opadami z innej, blisko położonej miejscowości. Jeśli wartość współczynnika korelacji byłaby wysoka, pozwoliłoby to na uproszczenie modeli a także zmniejszenie nakładów finansowych potrzebnych na zakup danych pogodowych. 3. Estymacja nieliniowa Określenie przyszłego przebiegu szeregu czasowego w sposób ogólny jest możliwe, dzięki za- stosowaniu metod estymacji [1]. Wstępna analiza danych wykazała, że szereg czasowy natężenia dopływu ścieków do oczyszczalni wykazuje fluktuacje występujące wewnątrz tygodnia. Charak- terystyczne są wysokie wartości natężenia dopływu ścieków występujące w środy oraz w soboty. Dodatkowo najniższe wartości natężenia dopływu ścieków można zaobserwować w niedziele. Wahania wielkości natężenia dopływu występują także pomiędzy poszczególnymi tygodniami wewnątrz miesiąca. Fluktuacje wielkości są cechą wspólną dla szeregów czasowych natężenia dopływu ścieków z trzech analizowanych oczyszczalni ścieków. Na podstawie tych wiadomości wybrano metodę estymacji nieliniowej z wykorzystaniem funkcji sinus. Modele estymacji nielinio- wej zostały dopasowane metodą najmniejszych kwadratów, a także przy użyciu funkcji straty określonej przez użytkownika. W przypadku zastosowania kryterium najmniejszych kwadratów do estymacji parametrów modeli nieliniowych wykorzystano algorytmy Levenberga-Marquardta i Gaussa-Newtona [1]. Modele estymacji z funkcją straty zawierały procedurę quasi-Newtona. Jako funkcję straty wykorzystano kilka różnych funkcji opisanych poniżej, których skuteczność następ- nie sprawdzano. Zadaniem funkcji straty było zniwelowanie wpływu wysokich odstających war- tości w danych [2]. Modele estymacji zostały wykonane dla trzech kompletów danych: surowych, zestandaryzowanych oraz znormalizowanych. Celem estymacji nieliniowej było dopasowanie przebiegu modelu do zmian wewnątrz tygod- niowych oraz miesięcznych. 3.1 Wyniki estymacji nieliniowej Z powodu wysokiej liczby danych (2922) oraz ich zaszumienia, procent wytłumaczonej warian- cji danych metodą estymacji nieliniowej jest stosunkowo niski. Najlepsze rezultaty uzyskano dla modeli powstałych z danych zestandaryzowanych a także poddanych filtracji górnoprzepustowej, odcinającej zmienności o okresowości większej niż 2 miesiące. Powstałe modele estymacji nielinio- wej zostały porównane z danymi. Najlepsze dopasowanie do danych jest widoczne dla modelu z danych zestandaryzowanych z funkcją straty w postaci: L = |Obs - Pred| (1) gdzie: L – funkcja straty; Obs – wartości rzeczywiste; Pred – wartości przewidywane modelem estymacji. Dobre dopasowanie do danych występuje też w modelach dla danych przefiltrowanych. W mo- delach tych zastosowano kryterium najmniejszych kwadratów i algorytm Levenberga-Marquardta. Wykonano model tygodnia oraz miesiąca dla każdego zestawu danych. Pierwszymi wykonanymi modelami były modele tygodnia. Najlepsze rezultaty uzyskano dla modeli wykorzystujących zestandaryzowane dane, funkcję straty podaną we wzorze (1), a także zawierających procedurę quasi-Newtona. Tak przygotowany model dla danych pochodzących 301 Chuchro M.: Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni z oczyszczalni ścieków w Krakowie jest widoczny na rysunku 1. Nieznacznie gorsze wyniki uzys- kano dla danych poddanych filtrowi górnoprzepustowemu, poddanych takiej samej procedurze jak podana powyżej. W wybranych modelach dla danych zestandaryzowanych i filtrowanych widoczne są minima funkcji sinus przypadające w niedziele, środowe maksimum funkcji sinus. Dla modelu tygodnia widoczny jest zbliżony przebieg modeli do przebiegu danych zestandaryzowanych. Okresy wyso- kich wartości w danych pokrywają się z podobnym przebiegiem funkcji sinus. Minimum funkcji sinus przypada między sobotą a niedzielą. Porównując model z danymi (rys. 1), można zauważyć niższe wartości natężenia dopływu przypadające w niedziele. Rysunek 1. Model tygodnia metodą estymacji nieliniowej Figure 1. Week’s model made by nonlinear estimation method Modele miesiąca estymacji nieliniowej zostały przygotowane w sposób analogiczny jak modele tygodnia. W tym przypadku modele powstałe z danych zestandaryzowanych osiągnęły najlepsze rezultaty. Dopasowanie do danych modeli metodą najmniejszych kwadratów uzyskało takie same rezultaty jak dopasowanie modeli z funkcją straty i z procedurą quasi-Newtona. W przypadku mo- delu miesiąca (rys. 2) przebieg estymowanej funkcji sinus jest słabo zarysowany. Można zaobser- wować, że ekstrema funkcji sinus pokrywają się z okresami w danych, o niższych lub wyższych wartościach od średniego przebiegu. Metoda ta pozwala na przybliżone określenie wartości parametru natężenia dopływu ścieków. Lepsze rezultaty otrzymuje się dla okresów bezdeszczowych, niż okresów zmiennej pogody. Rysunek 2. Model miesięcznego dopływu ścieków do o.ś. w Krakowie wykonany metodą estymacji nieliniowej Figure 2. Monthly model of flow into WWTP in Cracow made by nonlinear estimation method 302 Krakowska Konferencja Młodych Uczonych 2009 3.2 Korelacja Dla dokładnego określenia jakości modelu wykonano jego korelacje z danymi zestandaryzowa- nymi (rys.3). Jako metodę wybrano korelację z ruchomym oknem gausowskim. Szerokość okien korelacji (Gausowska sigma) wynosiła 5, 10, 30. Jak widać na wykresie korelacji (rys.3) występują okresy z dobrą dodatnią korelacją, po których występują okresy bez korelacji lub z ujemną korela- cją modelu z danymi. Prawdopodobnie zmiany w wielkości korelacji są spowodowane opadami. Zwykle pogorszenie pogody wraz z opadami trwa od kilku do kilkunastu dni, po czym następuje poprawa pogody. Najlepsze rezultaty estymacji nieliniowej osiągnięto przy pogodzie bezdeszczo- wej; wartość korelacji gausowskiej była w tych okresach wyższa od 0,3 (dla Sigmy = 5)[9]. Rysunek 3. Korelacja z ruchomym oknem Gaussa Figure 3. Correlation with moving Gaussian window 4. Sieci neuronowe Drugą metodą analizy były sieci neuronowe. Sieciami neuronowymi nazywamy symulatory modeli matematycznych realizujących pseudorównoległe przetwarzanie danych. Zasada działania sieci odpowiada działaniu komórek neuronów. Zaletą tej metody jest ich tolerancja na nieciągłości, przypadkowe zaburzenia, a także braki danych w zbiorach uczących. Dzięki temu sieci neuronowe są dobrym narzędziem do analizy zaszumionych środowiskowych szeregów czasowych. Sieć skła- da się przynajmniej z trzech warstw. Pierwsza warstwa wejściowa, przekazuje informacje do war- stwy ukrytej. W warstwie ukrytej może znajdować się dowolna ilość neuronów ułożonych w war- stwy. W warstwach pośrednich dane są przetwarzane, aby wypracować wyniki pośrednie, które następnie są podstawą do wyznaczania ostatecznego wyniku na warstwę wyjściową-wynik [7]. 4.1 Wyniki sieci neuronowych Do analizy wybrano typy sieci uczonych z nauczycielem: MLP (percepton wielowarstwowy) i RBF (radialna funkcja bazowa). Liczba warstw sieci i neuronów w poszczególnych warstwach była ustalana automatycznie przez program. Obie wybrane sieci są jednokierunkowe oraz nie wy- stępuje w nich sprzężenie zwrotne [7]. Sieci RBF prowadzą do wykrycia bardziej złożonych związ- ków w danych, w tym celu wymagają jednak większej liczby warstw, przez co obliczenia są bar- dziej czasochłonne [5]. W trakcie poszukiwania najlepszego modelu predykcji środowiskowych szeregów czasowych wykonano kilkadziesiąt modeli sieci neuronowych dla każdej z analizowanych oczyszczalni ście- 303 [ Pobierz całość w formacie PDF ] |