Kroky predbežného spracovania údajov pred použitím Wind Transformer sú kľúčové na zabezpečenie presnosti, účinnosti a spoľahlivosti prevádzky transformátora. Ako dodávateľ Wind Transformer chápem význam týchto krokov pri optimalizácii výkonu našich produktov. V tomto blogu sa ponorím do kľúčových krokov pred spracovaním, ktoré by sa mali vykonať pri práci s údajmi pre Wind Transformers.
1. Zber údajov
Prvým krokom na ceste pred spracovaním je zber údajov. V prípade veterných transformátorov možno údaje získavať z viacerých kanálov. Jedným z primárnych zdrojov sú snímače inštalované priamo na transformátore. Tieto senzory dokážu merať rôzne parametre, ako je teplota, napätie, prúd a hladina oleja. Snímače teploty sú obzvlášť dôležité, pretože dokážu zistiť prehriatie, ktoré by mohlo viesť k vážnemu poškodeniu transformátora. Senzory napätia a prúdu pomáhajú pri monitorovaní elektrického zaťaženia a zabezpečujú, že transformátor pracuje v rámci svojej menovitej kapacity.
Ďalším zdrojom údajov sú historické záznamy o prevádzke transformátora. Tieto záznamy môžu poskytnúť cenné informácie o dlhodobom výkone transformátora, vrátane minulých porúch, plánov údržby a typických prevádzkových podmienok. Okrem toho je možné zhromažďovať aj údaje o prostredí, ako je rýchlosť vetra, vlhkosť a okolitá teplota. Rýchlosť vetra môže napríklad ovplyvniť účinnosť chladenia transformátora a vlhkosť môže ovplyvniť izolačné vlastnosti.
Je nevyhnutné zabezpečiť, aby bol proces zberu údajov presný a konzistentný. Na zachovanie presnosti údajov je potrebná pravidelná kalibrácia snímačov. Okrem toho by sa frekvencia zberu údajov mala starostlivo určiť na základe povahy meraného parametra. Pre rýchlo sa meniace parametre, ako je prúd, môže byť potrebná vyššia frekvencia vzorkovania, zatiaľ čo pre pomaly sa meniace parametre, ako je hladina oleja, môže stačiť nižšia frekvencia.
2. Čistenie dát
Po zhromaždení údajov je ďalším krokom čistenie údajov. Nespracované údaje často obsahujú chyby, chýbajúce hodnoty a odľahlé hodnoty, ktoré môžu výrazne ovplyvniť výkon Wind Transformer, ak nie sú správne adresované.
Chýbajúce hodnoty sú bežným problémom pri zbere údajov. Existuje niekoľko spôsobov, ako vyriešiť chýbajúce hodnoty. Jedným z prístupov je jednoducho odstrániť dátové body s chýbajúcimi hodnotami. Táto metóda však môže viesť k strate cenných informácií, najmä ak je ovplyvnený veľký počet údajových bodov. Ďalšou metódou je imputácia chýbajúcich hodnôt. Pre numerické údaje sa môže použiť imputácia priemeru, mediánu alebo režimu. Ak napríklad údaje o teplote obsahujú niekoľko chýbajúcich hodnôt, na doplnenie medzier možno použiť strednú hodnotu teploty. Pri kategorických údajoch možno na imputáciu použiť režim (najčastejšia hodnota).
Chyby v údajoch sa môžu vyskytnúť v dôsledku porúch snímača alebo problémov s prenosom údajov. Tieto chyby je potrebné identifikovať a opraviť. Jedným zo spôsobov, ako zistiť chyby, je kontrola rozsahu. Napríklad, ak je hodnota napätia zo snímača mimo normálneho prevádzkového rozsahu transformátora, pravdepodobne ide o chybu. Po zistení chyby je možné ju opraviť krížovým odkazom na iné senzory alebo historické údaje.
Odľahlé hodnoty sú dátové body, ktoré sa výrazne odchyľujú od normálneho vzoru dát. Odľahlé hodnoty môžu byť spôsobené abnormálnymi prevádzkovými podmienkami alebo poruchami snímača. V niektorých prípadoch môžu odľahlé hodnoty predstavovať dôležité udalosti, ako napríklad náhly nárast prúdu v dôsledku skratu. Vo väčšine prípadov je však potrebné odstrániť alebo upraviť odľahlé hodnoty. Na identifikáciu odľahlých hodnôt možno použiť štatistické metódy, ako je medzikvartilový rozsah (IQR). Dátové body mimo rozsahu Q1 – 1,5 * IQR a Q3+1,5 * IQR (kde Q1 je prvý kvartil a Q3 je tretí kvartil) možno považovať za odľahlé hodnoty.
3. Normalizácia údajov
Po vyčistení údajov sa vykoná normalizácia údajov. Normalizácia je proces škálovania údajov na spoločný rozsah. Tento krok je dôležitý, pretože rôzne parametre môžu mať rôzne mierky. Napríklad napätie môže byť v rozsahu tisícok voltov, zatiaľ čo teplota môže byť v rozsahu desiatok stupňov Celzia. Ak údaje nie sú normalizované, v analýze môžu dominovať parametre s väčšími mierkami, čo vedie k nepresným výsledkom.


Existuje niekoľko techník normalizácie. Jednou z najbežnejších metód je min - max normalizácia. V min - max normalizácii sú údaje škálované na rozsah medzi 0 a 1. Vzorec pre min - max normalizáciu je: (x_{norm}=\frac{x - x_{min}}{x_{max}-x_{min}}), kde (x) je pôvodný údajový bod, (x_{min}) je minimálna hodnota množiny údajov a (x_{max) maximálnu hodnotu súboru údajov.
Ďalšou populárnou normalizačnou metódou je z - normalizácia skóre. Z - normalizácia skóre štandardizuje údaje odpočítaním priemeru a vydelením štandardnou odchýlkou. Vzorec pre normalizáciu z - skóre je: (z=\frac{x-\mu}{\sigma}), kde (x) je pôvodný údajový bod, (\mu) je stredná hodnota súboru údajov a (\sigma) je štandardná odchýlka. Z - normalizácia skóre je užitočná, keď údaje sledujú normálne rozdelenie.
4. Výber funkcií
Výber prvkov je dôležitým krokom pred spracovaním, ktorého cieľom je identifikovať najdôležitejšie vlastnosti pre analýzu veterného transformátora. Nie všetky zozbierané údaje môžu byť užitočné na predpovedanie výkonu alebo diagnostiku porúch transformátora. Výberom najrelevantnejších funkcií možno znížiť výpočtovú zložitosť a zlepšiť presnosť analýzy.
Existuje niekoľko spôsobov výberu funkcií. Jedným z prístupov je metóda filtrovania. V metóde filtrovania sa funkcie vyberajú na základe ich štatistických vlastností, ako je korelácia s cieľovou premennou. Napríklad, ak je cieľom predpovedať teplotu transformátora, možno vybrať vlastnosti, ktoré majú vysokú koreláciu s teplotou, ako je prúd a rýchlosť vetra.
Metóda obalu je ďalšou technikou výberu prvkov. V metóde wrapper sa na vyhodnotenie rôznych podmnožín funkcií používa algoritmus strojového učenia. Vyberie sa podmnožina funkcií, ktorá vedie k najlepšiemu výkonu algoritmu. Metóda wrapperu je však výpočtovo nákladná, pretože vyžaduje viacnásobné spustenie algoritmu strojového učenia.
Vložená metóda kombinuje výhody filtračnej a obaľovacej metódy. Vyberá funkcie počas procesu trénovania modelu. Na výber vložených prvkov možno použiť regulačné techniky, ako je laso a Ridgeova regresia. Tieto techniky pridávajú do modelu výraz trestu, ktorý povzbudzuje model, aby vybral iba najrelevantnejšie funkcie.
5. Transformácia údajov
Transformácia údajov je často potrebná, aby boli údaje vhodnejšie na analýzu. Napríklad niektoré algoritmy strojového učenia predpokladajú, že údaje majú normálne rozdelenie. Ak údaje nedodržiavajú normálne rozdelenie, je možné použiť transformačné techniky, aby boli normálnejšie.
Logaritmická transformácia je bežnou metódou transformácie údajov. Dá sa použiť na transformáciu údajov so šikmým rozdelením na symetrickejšie rozloženie. Napríklad, ak majú aktuálne údaje dlhodobé rozdelenie, logaritmovanie aktuálnych hodnôt môže urobiť rozdelenie normálnejším.
Box - Coxova transformácia je ďalšou účinnou technikou transformácie údajov. Môže sa použiť na nájdenie optimálnej transformácie výkonu, aby boli údaje normálnejšie. Transformácia Box - Cox používa parameter (\lambda) na transformáciu údajov podľa vzorca: (y_{(\lambda)}=\frac{y^{\lambda}-1}{\lambda}) pre (\lambda\neq0) a (y_{(\lambda)}=\ln(y)) pre (\lambda = 0).
6. Kódovanie údajov
Ak údaje obsahujú kategorické premenné, je potrebné kódovanie údajov. Kategorické premenné nemožno priamo použiť vo väčšine algoritmov strojového učenia, preto je potrebné ich previesť na číselné hodnoty.
One - hot encoding je široko používaná metóda pre kategorické kódovanie dát. V jednom kódovaní je každá kategória reprezentovaná ako binárny vektor. Napríklad, ak má kategorická premenná tri kategórie: A, B a C, potom kategória A môže byť reprezentovaná ako [1, 0, 0], kategória B ako [0, 1, 0] a kategória C ako [0, 0, 1].
Ďalšou metódou je kódovanie štítkov, kde je každej kategórii priradená jedinečná celočíselná hodnota. Kódovanie štítkov však môže do kategorických premenných zaviesť umelé poradie, čo v niektorých prípadoch nemusí byť vhodné.
7. Rozdelenie údajov
Nakoniec je potrebné vopred spracované údaje rozdeliť na tréningové, validačné a testovacie sady. Tréningová množina slúži na trénovanie modelu strojového učenia, validačná množina slúži na ladenie parametrov modelu a testovacia množina sa používa na vyhodnotenie výsledného výkonu modelu.
Bežný pomer rozdelenia je 70:15:15 pre tréningové, validačné a testovacie sady. Pomer však možno upraviť na základe veľkosti súboru údajov. Pre malý súbor údajov môže byť potrebné prideliť väčšiu časť tréningovému súboru, aby sa zabezpečilo, že model má dostatok údajov, z ktorých sa dá učiť.
Ako dodávateľ Wind Transformer chápeme dôležitosť týchto krokov pred spracovaním pri zabezpečovaní optimálneho výkonu našich produktov. Nasledovaním týchto krokov môžeme našim zákazníkom poskytnúť spoľahlivejšie a efektívnejšie veterné transformátory. Ak máte záujem o našeVeterný transformátorproduktov alebo máte akékoľvek otázky týkajúce sa predspracovania údajov pre transformátory, uvítame, ak nás kontaktujete kvôli obstaraniu a ďalšej diskusii. Ponúkame tiež široký sortiment súvisiacich produktov ako naprElektrický transformátoraJednofázový pólový transformátor.
Referencie
- Han, J., Kamber, M., & Pei, J. (2011). Data mining: koncepty a techniky. Morgan Kaufmann.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). Prvky štatistického učenia: Data mining, inferencia a predikcia. Springer.
- Provost, F., & Fawcett, T. (2013). Dátová veda pre podnikanie: Čo potrebujete vedieť o dolovaní údajov a údajoch – analytické myslenie. O'Reilly Media.
