Камчия е най-голямата българска река, вливаща се в Черно море, като отводнява почти цяла Източна Стара планина и малка част от Дунавската равнина. Общата дължина на реката е 244.5 km. Река Камчия се образува от сливането на реките Голяма Камчия (лява съставяща) и Луда Камчия (дясна съставяща) на 26 m н.в., до югозападния ъгъл на село Величково, община Дългопол. Протича в източна посока в широка долина между Авренското (Момино) плато на север и Камчийска планина на юг. По долината ѝ се прокарва границата между Дунавската равнина и Предбалкана. Приустиевите части на долината са блатисти и обрасли с лонгозни гори. Влива се в Черно море при курортния комплекс „Камчия“.
Площта на водосборния басейн на реката е 5357,6 km2, като на северозапад и север граничи с водосборните басейни на реките Русенски Лом и Провадийска река, на запад – с водосборния басейн на река Янтра, а на юг – с водосборните басейни на реките Тунджа, Айтоска, Хаджийска, Двойница и Фъндъклийска, като всички без Тунджа се вливат в Черно море. Водосборният басейн на Камчия обхваща части от 6 административни области в България – южните части на Варненска и Шуменска области, най-северните части на Бургаска област, източната част на Търговишка област, североизточната част на Сливенска област и най-южните части на Разградска област.
Анализът на валежите във водосбора на река Камчия е базиран на данните от
Copernicus Climate Change Service, Climate Data Store (2020)[1]. Данните покриват периода от 1950 до 2020г, като представят среднодневното количество на валежите в [mm/d]. Пространствената резолюция на данните е 0.1° x 0.1° (приблизително 10 x 10 km).
Основната цел на анализа е да се проследят промените в количествата и динамиката на валежите на територията на водосборната област. Данните са обработени по години, месеци и дни, за да може да бъде направен максимално задълбочен анализ на тенденциите при периодите и интензитета на валежите.
Средномногогодишното валежно количество за водосборната област на река Камчия е 494.84 mm. Най-влажната година за периода 1950 - 2020г. е 2010 година с общо количество на валежите 796 mm, а най-сухата наблюдавана година е 2000г. с количество на валежите под 300 мм. Тенденцията при валежите е за незначително повишение на количеството на валежите в периода след 2000г., което кореспондира и на средногодишното покачване на температурите на въздуха на територията на водосбора, следствие от климатичните промени.
Месецът с най-много средномесечно количество на валежите за разглеждания период е месец юни със средномесечно количество на валежите 50.44 mm. Най-голямото количество валежи за даден месец е регистрирано през месец декември 2020г - 162 mm. Месец август е месецът с най-малко средномесечно количество валежи - 29.95 mm. За разглеждания период са регистрирани месеци без никакъв валеж [0 mm] - февруари 1959г., октомври 2010г., март 1990г. и август 1992г. Броят на месеците с валежи до 1 mm е над 10, но за целите на разработване на машинен модел за обучение същите са разгледани като месеци с регистриран валеж.
Анализът на валежите по дни показват, че най-много количество е регистрирано на 1-ви октомври 2013г. - 74 mm. В допълнение данните по дни са статистически обработени, за да бъдат оценени валежните количества по дни от месеца и по дни от седмицата. Резултатите показват, че денят в месеца с най-голям брой дъждовни дни е 29 май (общото количество валежи в този ден са 147 mm), а през месец юни четвъртъците са дните с най-много паднало количество валежи (> 500 mm). Разбира се, трудно може да се твърди, че на 29 май, особено ако е четвъртък, ще вали дъжд, но въпреки това ни кара да се замислим.
Извършен е анализ на вероятностите по отношение на валежите на територията на водосбора на река Камчия. Основната цел е да се определят валежните количества за ден с обезпеченост (вероятност за повторение) P5%, P1% и P0.1%. Хидроложките процеси могат да се разглеждат като случайни с малка или никаква корелация със сходни процеси (т.е. независими от времето и пространството). По този начин резултатите от даден хидроложки процес може да се третират като стохастични (т.е. недетерминистичен процес, състоящ се от предвидими и произволни действия). Вероятностните и статистическите методи се използват за анализ на стохастични процеси и включват различни степени на несигурност. Фокусът на вероятностните и статистическите методи е върху наблюденията, а не върху самия физическия процес. Случайна променлива (X) може да бъде описана чрез вероятностно разпределение, което уточнява, че шансът наблюдаваната стойност на „x“ да попадне в обхвата на X. Например, ако X са дневните валежи в [mm] на определено място, тогава разпределението на X определя вероятността наблюдаваните дневни валежи да бъдат в рамките на определен диапазон, като например по-малко от 10 mm, между 10 и 20 mm, 30 – 40 mm и т.н.
Разработени са три емпирични криви на обезпеченост, съответно по Алексеев, Вейбул и Блум. Резултатите са представени в таблицата. Дневното валежно количество с вероятност за повторение веднъж на 1000 години варира в граници между 147 и 162 mm[2].
Обезпеченост | Алексеев | Вейбул | Блум |
---|---|---|---|
P 5% (1/20 години) | 44 mm | 48 mm | 44 mm |
P 1% (1/1000 години) | 75 mm | 80 mm | 73 mm |
P 0.1% (1/1000 години) | 155 mm | 162 mm | 147 mm |
Машинното обучение (ML) е област на изследване, посветена на разбирането и изграждането на модели (алгоритми), които се „обучават“, т.е. методи, които използват данни за подобряване на производителността на определен набор от задачи. Машинното обучение може да се разглежда като част от работата на изкуствен интелект.
Алгоритмите за машинно обучение изграждат модел въз основа на примерни данни, известни като данни за обучение, за да правят прогнози и/или да взимат решения, без да бъдат изрично създадени за това. Алгоритмите за машинно обучение се използват в голямо разнообразие от приложения, като например в медицината, инфромационните технологии, разпознаването на реч, земеделието и много други, където е трудно или неосъществимо да се разработят конвенционални алгоритми за изпълнение на необходимите задачи.
Данните, които са използвани за разаботването на модела, са данни за минимална, максимална и среднодневна температура на въздуха, данни за относителната влажност на въздуха, данни за скорост и посока на вятър (на 10 и 100 м височина над земната повърхност), данни за слънчевото греене (радиация), геопотенциал и атмосферно налягане. Обхватът на данните е за периода между 2011 - 2020г., което дава възможност за оптимизиране и рекалибриране на модела. Данните, използвани за разработване на модела, са свободнодостъпни на Copernicus Climate Change Service[1].
Моделът е базиран на логистична регресия (класификационен модел) и е фокусиран върху възможността на модела да прогнозира при какви параметри (метеорологични условия) има условия за валежи. Моделът се "обучава" от данните за периода 2011 - 2020г., като в зависимост от случая се работи с между 75 и 85% от редицата. Останалите 15-25% са предвидени за тест и проверка на точността на модела, а при необходимост и за допълнително калибриране (дообучение). Моделът дава резултат под формата на 0 и 1, където 0 - без валеж, а 1 - валеж.
От работата с данните е видно, че най-голямо значение за машинния модел са параметрите - вятър (на височина > 100 m), влажност на въздуха и минимална дневна температура на въздуха.
Точността на модела е представена от получените резултати за площта на характеристичната крива (AUC ROC)[3], коефициента на корелация R2 и средната квадратична грешка (RMSE).
Параметър | Стойност |
---|---|
AUC ROC | 0.899 |
R2 | 0.843 |
RMSE | 0.395 |
Матрицата за объркване (Confusion Matrix) играе специфична роля в машинното обучение и свързаното инженерство. Помага да се покаже прогнозата и да се припомни в система, където стойностите на данните от теста са известни. Обикновено матрицата за объркване третира бинарен процес на класификация. Получената таблица е съставена от два реда и две колони, запълнени с четири стойности - истински положителни /true positive/, лъжливи положителни /false positive/, истински отрицателни /true negative/ и лъжливи отрицания /false negative/.
Confusion Matrix | Predicted Positive | Predicted Negative |
---|---|---|
True Positive | 263 | 19 |
True Negative | 47 | 36 |
Матрицата показва 263 истински положителни стойности (моделът прогнозира валеж при зададените параметри, което кореспондира на регистриран валеж за съответния ден) и 36 истински отрицателни стойности (моделът прогнозира, че няма валеж, което кореспондира на липса на валежи за съответния ден). грешно прогнозираните стойности са общо 66 или 18% от редицата.
Резултати от теста на модела (синьо - реални данни, червено - прогнозни)
Получените резултати от машинния модел могат да бъдат оценени като добри, но е важно да се отбележи, че за прецизното разработване на подобен модел са необходими повече данни, от които да може да бъде обучен модела. Все пак този подход дава възможност за качествено представяне на зависимостта за поява на валеж от различни хидроложки данни. Напредъкът в подобен тип модели и технологии за изкуствен интелект са сериозна предпоставка за по-широкото им приложение в областта на хидрологията и анализа на огромни масиви от данни.
1 - Copernicus Climate Change Service, Climate Data Store, (2020): E-OBS daily gridded meteorological data for Europe from 1950 to present derived from in-situ observations. Copernicus Climate Change Service (C3S) Climate Data Store (CDS). (Accessed on DD-MMM-YYYY), 10.24381/cds.151d3ec6
2 - През юни 2014г. в района на град Варна за няколко дни падат над 170 mm, като според някои автори валежното количество на 19 юни е над 120 mm. Това води до катастрофално наводнение със загинали и огромни щети върху градската инфраструктура
3 - Receiver operating characteristic curve (ROC) - характеристична крива, която се използва за проверка на точността на машинния модел чрез класификация на истински положителните и отрицателните прогнози в модела спрямо първоначално прието случайно разпределение на данните. (https://en.wikipedia.org/wiki/Receiver_operating_characteristic).
Philip Penchev, PhD
Made in Bulgaria