To drugi odcinek tryptyku dźwiękowego. W poprzednim pisałem, jak zrobiono nowe odczyty rejestratora dźwięków CVR feralnego lotu smoleńskiego i dlaczego są lepsze technicznie, niż poprzednie. Podam i dziś kilka dodatkowych ilustracji. Ponieważ jednak mamy w Polsce nadmiar pomysłów, jak prowadzić poprawnie odczyty (a czasami nawet: jakie treści powinny zostać odczytane), to może należałoby najpierw zobaczyć, co robi się na świecie z tego rodzaju nagraniami. Są proste pytania, nie ma tylko prostych odpowiedzi: Kto i jak powinien stenogramować CVR? Kto ma identyfikować głosy? I w końcu, jaka jest pewność, że rozpozna się mówiących? Proponuję przyjrzeć się, jak to było robione w kraju, a jak jest robione w UE i Ameryce: kim są i co robią analizujący kopie CVR, czym się różni analiza dla komisji wypadkowej od pracy dla Temidy? Koniec końców, okazać się może, że polskie podejście nie jest wcale najgorsze!
Rekordery dźwięku (CVR=cockpit voice recorder) są jednymi z najważniejszych źródeł danych o wypadkach lotniczych. Większość wypadków polega przynajmniej częściowo na błędach popełnianych przez załogę, a jak doszło do błędów, to pomagają wyjaśnić CVR-y. Czasami można też odczytać w nagraniach akustyczne dowody awarii samolotu. Lot 427 US Air w 1994 r. zakończył się śmiercią wszystkich 132 osób na pokładzie (szczęśliwym trafem nie doszło do spadku na centrum handlowe) po tym, jak nastąpiła awaria Boeinga 737. W wyniku m.in. badania CVR, przeprojektowano serwomechanizmy i stery pionowe tych samolotów. (Nota bene, w dochodzeniu udowodniono, że rekorder zapisuje dźwięk wydarzeń w strukturze samolotu odległej od kokpitu; przenosi się on tak, jak to miało miejsce w PLF 101, dziesiątki metrów poprzez metal; dlatego m.in. w CVR PLF 101 słychać uderzenia skrzydeł w smoleńskie drzewa).
Dźwięk z lotu kończącego się wypadkiem lotniczym zazwyczaj odczytuje laboratorium policji lub instytut ekspertyz sądowych, na wniosek odpowiednich do śledztwa organów. Ze względu na wspomnianą specyfikę nagrań CVR, w takich odczytach powinny uczestniczyć osoby znające nie tylko metody transkrypcji rozmów, ale i osoby rozumiejące procedury i wyrażenia lotnicze.
Potencjalny problem w tym, że nie istnieją obecnie metody odszumiania nagranego z zakłóceniami tekstu mówionego, gwarantujące statystycznie poprawienie jego zrozumiałości. Jedyne co można łatwo uzyskać, to usunięcie irytujących "linii widmowych", wąskich pasm częstotliwości pochodzących z bardzo głośnej awioniki tupolewa pod podłogą kokpitu, silników, klimatyzacji, czy w końcu z magnetofonu MARS, spowoduje, że odczyt będzie dużo mniej męczący.
A zatem, jeśli odszumianie, to z umiarem. Unikniemy wtedy mocnego tzw. szumu muzycznego, wprowadzanego do nagrania przez większość dostępnych programów.
Od razu powiem, że to samo odnosi się do zdolności automatycznej identyfikacji mówców przez algorytm komputerowy - tu jednak metodyka polska była moim zdaniem zawsze poprawna: nie próbowano jej w żadnych dochodzeniach smoleńskich.
Nowy odczyt CVR dokonany był w 2014 r., a opublikowany w kwietniu 2015 r., w wersji jeszcze nie końcowej. Trochę więc ryzykowne jest formułować wnioski na temat tego odczytu, gdyż obecnie są tymczasowe. Wiadomo jednak, jaka była z grubsza metodyka pracy biegłych prokuratury i to nam dziś w zupełności wystarczy, bo nie interesują nas tu konkretne wyniki w rodzaju: kto i co powiedział w jakieś minucie i sekundzie. Taśmę, zgodnie z oświadczeniem NPW i WPO, badały dwie grupy:
W USA odsłuchuje CVR z wypadku lotniczego (oprócz spowodowanych przez terroryzm, jak 9/11) niezależna instytucja rządowa nie mająca odpowiednika w Polsce: National Transportation Security Board (NTSB, narodowa komisja d/s bezpieczeństwa transportu).
Typowym zdarzeniem, gdzie CVR był ważnym wskazaniem co się stało, czy zawinił człowiek czy technika, był wypadek Airbusa 320 US Airways, lot 1549, dn. 15 stycznia 2009 r. w Weehawken, NJ. Raport numer DCA09MA026, grupy d/s CVR pod przewodnictwem Douglasa P. Brazy, stworzony został w Waszyngtonie (siedzibie Vehicle Recorder Division, NTSB) bardzo szybko, bo 22 kwietnia, 2009. Członkami grupy odsłuchowej oprócz przewodniczącego pracującego dla NTSB byli:
2. Capt. Rudy Canto, Director, Flight Operations Technical, Airbus
3. Jeff Diercksmeier, Accident Investigation Team, US Airline Pilots Association
4. Capt. Chuck Pastene, Check Airman Flight Training, US Airways
5. Floyd James, Air Safety Investigator, Office of Accident Investigation, FAA
6. Andy Mihalchik, Program Mgr. Technical Pilot, Flight Operations Support, GE Transportation – Aircraft Engines (przedstawiciel producenta silników, ważnych w wypadku), oraz
7. Nicholas Marcou, zast. szefa działu dochodzeń francuskiego odpowiednika NTSB, Bureau d’Enquetes et d’Analyses (BEA)
Skład nieco inny, ale liczebność taka, jak w ostatnich odczytach WPO.
Dlaczego, jak w tym przykładzie, NTSB nie korzysta w pracy nad CVR z opinii audiologów, fonologów, językoznawców, biometrów, specjalistów od automatycznej identyfikacji mówców i/lub transkrypcji komputerowej? Gdyż uważa, że nie są potrzebni. NTSB uważa, że ich techniczni specjaliści lotniczy nie tylko wystarczają, ale mogą też uzyskać bardziej sensowny odczyt. Co nie znaczy idealny. Opatruje więc swój stenogram ostrzeżeniem następującej, częściowo już wspomnianej przeze mnie treści:
I po takim ostrzeżeniu, dostajemy na ogół stenogram i zero nagrań audio. A w mniejszych sprawach nawet bywa, że i tego nie. Przynajmniej nie ma się wtedy o co kłócić, jak teraz, kiedy mamy tyle odczytów smoleńskich.
W Europie i Kanadzie postępuje się podobnie jak w Ameryce, tylko praca komisji badania wypadków lotniczych takich jak francuska BEA, angielska AAIB, niemiecka BFU, czy kanadyjska TSB, jest trochę słabiej określona, opisana i skodyfikowana, niż w USA.
Z jedności zasadniczych celów jak najlepszego odczytania treści rozmów w kokpicie nie wynika, iż podobne procedury do wyżej opisanych stosuje się przed sądem.
Systemy sądownictwa (i to różne, bo przecież system prawny w Polsce nie przypomina w szczegółach prawa angielskiego) mają swoje specyficzne wymagania i procedury wynikające z długiej i zagmatwanej historii. Sądy są w większości niesłychanie konserwatywne, w porównaniu z laboratoriami naukowymi, gdzie rozwija się metody DSP (digital signal processing, opracowania cyfrowego danych), jak też z komisjami badania wypadków. Aby uniknąć błędów prawniczych, sądy (sędziowie i ewentualni ławnicy) wymagają, by stosowane metody były dla nich zrozumiałe, jak też chcą mieć rękojmię 'właściwej' prawnie metody pracy z materiałem, aby móc przyjąć odczyty nagrań za dowód w sprawie. Dlatego czasami składają lepszą (być może) jakość odczytu na ołtarzu rutyny, nie dopuszczając jako dowód nowych metod, albo metod wcale nie nowych, ale odbiegających od stosowanych wcześniej w sprawach, których rozstrzygnięć nikt nie zdołał podważyć. Żalą się na to przedstawiciele cywilizacji technicznej pragnącej postępu w metodyce badań - inżynierowie i fonolodzy, tacy jak jak Maher (2009).
W przypadku pracy WPO, zasadnicza część innowacji w odczytach CVR to żadna nowość, tylko po prostu uniknięcie wandalizmu danych przez zbyt niską częstotliwość próbkowania, co jest bardzo łatwe do wykazania. Są niestety specjaliści, nawet zagraniczni biegli sądowi, którzy nie doceniają jak wysoko na skali częstotliwości żyją niektóre głoski (liczne polskie sybilanty ź, z, ś, ć, c, dź), i nie wiedzą, że analogowe systemy audio są w stanie je zapisać i odtworzyć. Sybilanty mieszkają na stałe w zakresie 4-12 kHz, ale widuje się je i na jeszcze wyżej położonych terenach widma. Ich nisza, przestrzeń życiowa, jest przez niektórych okrutnych dźwiękowców brutalnie wycinana.
Popatrzmy teraz na dwa poniższe rysunki. Na obu skala pionowa częstotliwości jest logarytmiczna. Pierwszy to analiza widmowa zmiksownych kanałów mikrofonowego i radiowych z prezentacji MAK CVR PLF 101, mniej więcej od wypowiedzi "Dochodź wolniej!" do kilku pierwszych dzwonków sygnalizacji bliższej radiolatarni (BRL). Drugi to mniej więcej ten sam fragment nagrania CVR, pokazany w Zał. 8 publikacji WPO linkowanej w porzednim felietonie jako rys. 41. To zapis wyłącznie kanału nr 3, z trzech mikrofonów, z próbkowaniem 96 kHz i odszumianiem. Ponieważ opis osi nie jest w materiałach WPO czytelny (skoro taki już jest ten rysunek, może warto udostępnić nie coś, co wygląda na skan, a orginalny PDF), skopiowałem kilka wartości poza prawą ramą rysunku, od 1.5 do 15 kHz. Też użyłem za małej czcionki i wyszły mi nieczytelne (radzę użyć CTRL +)
i klapy trzydzieści sześć,
dwa osiem zero,
(niezroz.)
do klapek trzydzieści sześć,
mamy dwa osiem zero
(Na klapach (?) trzydzieści sześć,
dwa osiem (metra (?))
(niezr.)
na klapach trzydzieści sześć,
mamy dwa osiem zero,
ćśś..ćśś,
na przykład! (niezr.)
Jak widzieliśmy, komisja NTSB nie zatrudnia zazwyczaj nikogo z występujących w sądzie specjalistów (jezykoznawców, stengrafów, fonetyków). Mimo to, w transkrypcie bez zbędnych usprawiedliwień pojawia się identyfikacja funkcji lotniczej mówiącego: to mówi kapitan, to drugi pilot, a to kontroler lotu lub stewardesa. Skąd członkowie amerykańskiej grupy odsłuchowej to wiedzą? Z kontekstu sytuacyjnego, stosując metodę auralno-percepcyjną (odsłuchową). To samo, co amerykańska agencja, lecz wzmocnione powołaniem do pracy w grupie odsłuchowej osoby lub osób znających wcześniej niektóre ofiary wypadku, zrobiła polska prokuratura wojskowa.
Później okazało się, jak wiele rzeczy wpływa na widmo głosu i tempo wypowiedzi. Nawet płeć identyfikującego jest nieobojętna (dla nieco lepszego odczytu, powinna być ta sama, co identyfikowanego). Obecnie nie ma już na świecie szeroko rozprzestrzenionego dawniej problemu z nadmierną ufnością w pewność identyfikacji mówców - za wyjątkiem osób oglądających fikcyjne laboratoria w serialu telewizyjnym "CSI" (crime scene investigation).
Literatura:
• CVR Handbook for Aviation Accident Investigation (NTSB), 2007, Washington, DC
• Loizou, Philipos C., 2013, Speech Enhancement, CRC Press, 689 stron.
• Maher R. C., Audio Forensic Examination IEEE Signal Processing Magazine, INE, 84-94, MARCH 2009
• Neustein, Amy & Patil, Hemant, 2012, Forensic Speaker Recognition. Law enforcement and counter-terrorism, Springer, 540 stron. (Link do większości rozdziałów książki)
____________________________________
Inne części tryptyku fonetycznego:
• Część 1: Dr French, I presume. Rzecz o smoleńskim CVR i klatce z małpami
• Część 3: Mysz w kontenerze. O korygowaniu pomyłek w wiekach XIX-XXI
