Pozwala na lokalne przepisywanie filmów i dźwięków na tekst, 🎶 Nagrywanie i przepisywanie w czasie rzeczywistym z głośnika lub oprogramowania systemowego. 🔒 Cały proces przebiega przy użyciu lokalnego modelu Whisper AI na komputerze Mac.
Dodaj opcję, aby transkrybować tylko pierwsze minuty danych (aby przetestować wpływ parametrów modelu).
Dodaj opcję, aby automatycznie oznaczać podwójne zdania, gdy automatyczne łączenie nie jest używane. Użyj klawisza F2, aby szybko przejść do następnego podwójnego zdania. Możesz wybrać, czy chcesz transkrybować lub łączyć podwójne segmenty w razie potrzeby.
Dodaj możliwość eksportowania wideo i napisów w formacie .mkv.
Rozszerz opcje napisów hardkodowanych.
Dodaj przykłady eksportu dla Final Cut Pro dla modeli w fps30, fps50, fps59.94.
Zaktualizuj interfejs użytkownika, aby wzmocnić funkcjonalność reorganizacji obszarów i oferować wsparcie dla szybkiego aktywowania za pomocą skrótów klawiszowych.
Rozwiąż problem, w którym automatyzacja LLM nie uruchamia się jako tłumacz.
Rozwiąż problem z globalnymi wyszukiwaniami tekstu w napisach.
Rozwiąż problem, w którym niektóre pliki audio generują zduplikowaną zawartość.
V6.0.3
Problem z zamrażaniem interfejsu został rozwiązany.
Teraz możesz kliknąć ikonę koloru na liście projektów, aby go usunąć.
Możesz zmienić ustawienia okna rozmowy LLM w liście projektów. Domyślnie jest wyłączone i możesz je włączyć lub wyłączyć według potrzeb.
Możesz pobrać plik audio z listy projektów jako plik .flac (kliknij prawym przyciskiem myszy na widok główny).
Dodaliśmy więcej skrótów do rozmów w chmurze w zakładce Chmura.
Problemy z uprawnieniami dostępu do plików zostały naprawione.
V6.0
Dodano wsparcie dla funkcji przekształcania tekstu na mowę w celu pobierania mowy.
Dodano usługę tłumaczenia tekstu za pomocą usługi LLM.
Dodano wtyczkę modelu LLM z możliwością dostosowywania inteligentnych skróców. Może być szybko używana do nagrywania audio z spotkań, wywiadów itp.
Dodano przykładowy skrypt JavaScript, który pokazuje, jak łączyć lub dzielić zdania za pomocą specjalnych znaków (np. . ? !). Whisper V2 czasami dzieli zdania na wiele linii, ale ten skrypt automatycznie łączy zdania i pozwala używać niestandardowych instrukcji podziału zdań.
Dodano domyślne opcje dla modeli językowych składanych.
Dodano opcję “flash attention” w sekcji “Strategia modelu” (obsługiwana tylko na urządzeniach Apple Silicon i poprawia jakość transkrypcji o 25%).
Umożliwiono pobieranie plików .wav w formacie .mp3 z projektu.
Zmieniono menu kontekstowe okna edycji tekstu, aby bezpośrednio wywoływać procesor JavaScript.
Wsparcie dla niestandardowych rozmiarów czcionek w oknie edycji tekstu.
Dodano możliwość bezpośredniego pobierania plików modeli za pośrednictwem przeglądarki (opcja jest dostępna w zakładce “Dokumentacja modelu”).
Naprawiono: problem, w którym okno edycji tekstu nie przewijało się automatycznie podczas odtwarzania podglądu.
Naprawiono: problem, w którym wybrane wiersze nie były zawsze poprawnie umieszczane.
Dodanie funkcji transkrypcji w czasie rzeczywistym i nagrywania ekranu wideo.
Dodanie funkcji transkrypcji w czasie rzeczywistym i monitorowania słów kluczowych, z możliwością otrzymywania powiadomień e-mailowych, w Slacku i systemowych.
Dodanie wsparcia dla transkrypcji w czasie rzeczywistym z konfigurowalnymi wycinkami audio, w sekundach i maksymalną liczbą linii.
Dodanie strategii eksportu dla segmentacji Pyannote (opcjonalnie: ręczne eksportowanie dla całego projektu lub z menu kontekstowego).
Aktualizacja transkrypcji w czasie rzeczywistym.
Aktualizacja transkrypcji w czasie rzeczywistym z możliwością użycia nowego modelu Deepgram.
Naprawienie błędu związanego z określonymi plikami multimedialnymi.
❗Uniwersalna wersja może być konieczne ponowne pobranie. Spowodowane to zostanie moim ulepszeniem urządzenia do rozwoju i zapomnieniem o zapisaniu klucza EDKey do uniwersalnego wdrożenia.
Dodaj funkcję automatyzacji do wykonywania zadań po zakończeniu transkrypcji projektu (Scal powtórzenia / Migawka / Skrypt / Tłumaczenie)
Dodaj opcję transkrypcji maksymalnej długości segmentu
Dodaj przykłady modelowych wskazówek
Dodaj zamianę z znakiem ‘\n’ (pojedynczy ukośnik ze znakiem n) na nową linię w funkcji zamiany
Ulepsz interfejs konfiguracji opcji transkrypcji projektu
Dodaj opcję duplikowania projektu w menu kontekstowym projektu
W trybie edycji (⌘+E) zaktualizuj pole mówcy, aby można było wprowadzać bezpośrednio
Napraw problem z kartami okna, gdy liczba kart> 2
Napraw problem z czasami awaryjnego wyświetlania widoku fali dźwiękowej
Napraw problem z tłumaczeniem wybranych wierszy w edytorze napisów
V5.4.2
Dodaj opcję liczenia wątków procesu szeptu konfiguracji. (Używaj mniej wątków, aby komputer mógł wykonywać inne zadania, ale czas przetwarzania będzie dłuższy)
Dodaj obsługę silnika transkrypcji Deepgram, obsługującego również tryb transkrypcji strumieniowej w czasie rzeczywistym.
Dodaj przykład szablonu dla eksportu tylko niestandardowej zawartości mówcy.
Dodaj funkcję wyszukiwania słów kluczowych rozpoczynających się od @ w celu filtrowania wierszy mówcy lub zastępowania wszystkich nazw mówcy inną nazwą (np. @tom–>jack).
Dodaj funkcję zapisywania konfiguracji mówców najnowszego projektu i ponownego wykorzystania ich w nowym projekcie.
Eksport niestandardowego szablonu obsługuje teraz 9 niestandardowych szablonów.
V5.4.1
Dodaj funkcję zdalnego zarządzania Intranetową stroną internetową, umożliwiającą dodawanie plików do przetwarzania i przeglądanie stanów przetwarzania za pomocą telefonu lub innego urządzenia (na pasku stanu dolnej belki głównego okna).
Dodaj parametr AI “suppress punctuation” (tłum. “tłumienie interpunkcji”).
Dodaj JavaScript, aby używać synchronicznego żądania HTTP do pobrania lub wysłania danych (Można go użyć do przesłania danych wiersza napisów do lokalnej usługi LLm, aby uzyskać wynik poprawy przypisów, a następnie wypełnić je ponownie w oryginalnym napisie, lub wysłać do innej usługi systemowej HTTP/HTTPS. Aby dowiedzieć się, jak go użyć, załaduj przykład HTTP z procesora JavaScript).
Napraw błąd denoise wav, który występował, gdy ścieżka pliku zawierała znak spacji.
V5.4
Dodaj funkcję szybkiego cięcia
Dodaj skrót (c) do pokazywania lub ukrywania podglądu edytora napisów
Dodaj skrót do zmiany prędkości podglądu edytora napisów
Zastąp strategię ciszy strategią chunków
Naprawiono błąd opcji odszumiania
Nowa funkcja szybkiego cięcia ma następujące funkcje:
Wizualizacja fali dźwiękowej, aby precyzyjnie zlokalizować i przyciąć filmy.
Podział dłuższych plików multimedialnych na kilka segmentów do osobnego przetwarzania przed transkrypcją.
Użyj strategii chunków do pominięcia cichych lub niemożliwych do przepisania segmentów.
Przycinaj osobno segmenty, które wymagają transkrypcji, do osobnych plików.
V5.3.1
Dodaj atrybut priorytetu projektu w kolejce procesów grupowych, wyższy priorytet zostanie przetworzony jako pierwszy (Opcja dostępna w menu kontekstowym)
Funkcja zamiany tekstu napisów zamienia również dopasowane słowa kluczowe w przetłumaczonym tekście
Naprawiono błąd ponownego transkrybowania z pominięciem strategii bezdźwięcznej i redukcji problemów z hałasem
V5.3
Dodaj więcej dopasowanych modeli (małych / średnich) dla języków
Dodaj strategię transkrypcji, która pomija ciche segmenty (klasyfikowane według decybeli i czasu trwania ciszy)
Dodaj opcję redukcji szumów tła
Dodaj opcję, która powoduje, że transkrypcja ukrywa naprzód napisy przed znacznikiem czasowym (bez spoilera)
Dodaj przykładowy procesor JavaScript do wielbienia napisów segmentowych.
V5.2
Dodano dopasowane do języka modele do wnioskowania różnicowego. język kantoński/chiński/japoński/koreański/niemiecki/francuski/tajski/ukraiński…
Dodano funkcję dodawania lokalnie dostrojonego modelu Whisper AI do Whisper Mate.
Dodano funkcję zbiorczego ustawiania parametrów projektu modelu.
Dodano opcję zapobiegającą rozpoczęciu wygaszacza ekranu, gdy występuje kolejka zadań.
Naprawiono błąd, który powodował zatrzymanie przetwarzania zadania, gdy włączony był wygaszacz ekranu systemu.
Naprawiono błąd, który uniemożliwiał nawigację do pozycji odtwarzacza po kliknięciu w wiersz edytora napisów.
Naprawiono błąd, który uniemożliwiał wywołanie cofania i ponawiania zmodyfikowanego tekstu w edytorze napisów za pomocą menu kontekstowego.
Naprawiono błąd w zbiorczym eksportowaniu, gdy zakres czasu nie pasował do siebie.
V5.1
Dodaj funkcję wsadowego eksportu segmentów/projektów w formacie SRT/szablonu z opcją łączenia w jeden plik.
Dodaj funkcję ponownego przepisania wybranych wierszy z różnymi parametrami sztucznej inteligencji.
Dodaj funkcję cofania lub powtarzania zmian tekstu w treści napisów z ręczną zmianą wprowadzoną przez użytkownika (Skróty klawiszowe ⌘+Z cofnij / ⌘+⇧+Z powtórz).
Dodaj funkcję dodawania nowego pustego wiersza napisów poniżej wybranego wiersza (Skrót klawiszowy ⌘+N).
Dodaj funkcję wysyłania powiadomień o zakończeniu projektu za pomocą webhooka Slack. (Możesz otrzymać powiadomienie na telefon, gdy każdy projekt zostanie przepisany).
Naprawiono położenie kontrolki odtwarzania mediów, które nie było wyśrodkowane w Up-Down.
V5.0
Dodano narzędzia do automatycznego łączenia napisów w kolejnych akapitach
Dodano niestandardowy procesor skryptów do wsadowego dostosowania przepisanych napisów
Dodano funkcję edycji napisów w edytorze. Jest podobna do funkcji dzielenia i łączenia, ale pozwala wybrać wiele wierszy i dostosować je w jednym polu tekstowym linia po linii
Dodano funkcję edytora napisów z większą ilością skrótów klawiaturowych.
Dodano niestandardową czcionkę do panelu konfiguracji stylu podglądu napisów wideo.
Dodano niestandardową czcionkę do panelu konfiguracji wypalania stałych napisów na wideo pochodnego.
Dodano obsługę eksportu do formatu PDF lub DOCX, wystarczy ustawić końcówkę eksportu na plik typu PDF lub DOCX.
Dodano większą ilość predefiniowanych przykładowych formatów eksportu. Można je załadować z przykładu i dostosować według własnych potrzeb.
Dodano funkcję tworzenia migawek aktualnego stanu napisów projektu. Ułatwia przywracanie zapisanych migawek.
Dodano funkcję importowania pliku srt jako migawki aktualnego projektu.
Dodano opcję ustawienia wyświetlania tłumaczonego tekstu napisów pod tekstem źródłowym w podglądzie wideo.
Dodano niestandardowe funkcje eksportu. Losowe liczby, losowy numer identyfikacyjny (GUID), escape XML, zamiana ciągu znaków według niestandardowego formatu.
Dodano niestandardowy typ eksportu (plik lub schowek).
Dodano niestandardową opcję eksportu - czy używać wszystkich napisów do eksportu czy tylko wybrane.
Dodano grupowanie okna edytora projektu z opcją okna głównego.
Dodano dodatkową konfigurację parametrów procesu modelowania szeptu w wyborze modelu (w prawym dolnym rogu), niektóre na pewno nie są łatwe do znalezienia, ponieważ większość przypadków nie wymaga modyfikacji tych parametrów.
Zoptymalizowane zachowanie podglądu pełnoekranowego wideo.
Wyszukiwanie słów kluczowych lub warunków (użyj | jako słowa kluczowego OR . np. “hi | hello | hey”).
Zoptymalizowano logikę wyszukiwania i zamiany. Podczas zamiany słów kluczowych wyszukiwania na słowa kluczowe zamienione zostaną wyświetlone jako słowa kluczowe źródła.
Zoptymalizowano logikę transkrypcji strumieniowej w czasie rzeczywistym.
Naprawiono problem nieprzywoływania niektórych okien podrzędnych na wierzch.
Naprawiono błędy formatu eksportu XML.
Naprawiono niepowodzenie w ekstrakcji audio z plików WAV.
Naprawiono problem automatycznego uruchamiania akcji zamiany, gdy pole słowa kluczowego zamiany pozostaje puste.
Naprawiono kilka problemów związanych z projektem strumieniowym.
V4.0
Dodano funkcję zapamiętywania ustawień układu edytora napisów projektu. Każdy projekt może mieć inny układ i rozmiar odtwarzacza podglądu. (stare projekty muszą zostać otwarte ponownie, aby zapamiętać ustawienia układu)
Dodano opcję wyszukiwania zduplikowanego napisu w edytorze.
Dodano opcję otwierania edytora, nawet jeśli proces przetwarzania skryptu transkrypcji nie został jeszcze uruchomiony.
Dodano eksport napisów do formatu .sbv.
Dodano niestandardowe funkcje szablonów eksportu (takie jak .fcpxml, .itt, .ttml).
Dodano nowy dodatek.
Dodano opcję konfiguracji często używanych słów kluczowych i zamiany dla szybkiego ponownego użycia funkcji wyszukiwania lub zamiany.
Dodano oznaczenie wiersza flagi Mark w widoku postępu odtwarzacza.
Dodano opcję oznaczania w edytorze napisów w menu kontekstowym.
Dodano funkcję dzielenia wiersza w edytorze napisów po wybraniu jednego wiersza.
W wynikach wyszukiwania pokazano nazwę projektu danej linii.
Dodano informację o błędzie, gdy napotkano błąd podczas przetwarzania mediów wstępnych.
Dodano skrót ⌘+S do szybkiego eksportu .srt do pliku.
Naprawiono problem z dwoma kanałami audio w metadanych kanału audio.
Naprawiono błąd wypalania napisów w przypadku zmiany ręcznej nazwy projektu.
Naprawiono niektóre problemy z interfejsem użytkownika w macOS 12.
Naprawiono opcję pozostawania włączonego, która nie blokowała opcji pokazania ikony paska stanu.
Naprawiono niektóre problemy z wyświetlaniem interfejsu w jasnym motywie.
V3.5
Dodano funkcję pobierania plików audio z podpisami. Teraz można wybrać dowolne napisy, a następnie użyć menu kontekstowego, aby pobrać dźwięk. Jeśli zostaną wybrane wiele wierszy, zostaną automatycznie scalone w jeden plik audio.
Dodano styl małego okna dla przechwytywania audio w czasie rzeczywistym.
Dodano menu kontekstowe paska menu, umożliwiające szybkie uruchomienie nagrywania strumieniowego do projektu za pomocą nowego pływającego okna.
Dodano możliwość szybkiego odtworzenia zakresu wierszy audio w wyniku globalnego wyszukiwania lub bezpośredniego pobrania zakresu audio z wyniku wyszukiwania.
Dodano obsługę pobierania modeli teraz z możliwością wznowienia wznawiania.
Dodano funkcje notatek do napisów, teraz można dodać notatkę do dowolnego napisu w edytorze.
Dodano opcję tłumaczenia Azure.
Dodano globalne wyszukiwanie napisów we wszystkich projektach.
Dodano podświetlanie słów kluczowych w wynikach wyszukiwania.
Dodano domyślne skróty klawiaturowe do szybkiej kontroli okna, takie jak Zamknij/Powiększ/Zminimalizuj.
Dodano opcję ukrycia etykietki głównego paska narzędziowego.
Przeniesiono przycisk Rozpocznij pakiet z paska narzędzi głównych do menu kontekstowego.
Naprawiono problem z zamianą na puste ciągi znaków.
Naprawiono brakujące modele small i small-en w serwerach zapasowych.
Dodano eksport wybranych zakresów mediów z napisami do nowego pliku multimedialnego.
Dodano eksport wideo z wypalonymi napisami do oryginalnego wideo i niestandardowego stylu napisów.
Dodano podgląd napisów bezpośrednio wewnątrz podglądu wideo (styl napisów można dostosować w panelu preferencji).
Dodano nagrywanie dźwięku z mikrofonu i obsługę transkrypcji w czasie rzeczywistym (tylko macOS 13+).
Dodano funkcję łączenia napisów. Zakres segmentu i napis są łączone w jeden wiersz.
Dodano automatyczne zapisywanie nagranego dźwięku do pliku i możliwość utworzenia nowego projektu transkrypcji.
Dodano opcję duplikowania wiersza napisów i umożliwienia modyfikacji jego zawartości lub zakresu czasowego do precyzyjnego dostosowania pełnych napisów.
Dodano opcję włączania tłumaczenia z Whisper na angielski w panelu konfiguracji modelu projektu.
Dodano opcję użycia tokenu Whisper Prompt w panelu konfiguracji modelu projektu.
Dodano opcję wyłączania automatycznego przewijania wierszy napisów podczas podglądu wideo.
Dodano obsługę ⌘+V do wklejania skopiowanych plików do kolejki procesów.
Dodano szybkie przełączanie w tryb edycji. Wszystkie napisy można edytować lub wyświetlać za pomocą skrótu klawiaturowego (⌘+E).
Dodano procentowe wykorzystanie procesora podczas przetwarzania Whisper.
Dodano obsługę archiwizacji projektów za pomocą menu kontekstowego (Czyści listę pracujących projektów).
Dodano tłumaczenie napisów Google.
Dodano obsługę większej liczby języków aplikacji.
Dodano podgląd mediów wraz z układem napisów na pełnym ekranie.
Dodano obsługę otwierania plików multimedialnych z funkcji otwierania w poszukiwaczu systemu.
Zoptymalizowano szybkość renderowania dużych ilości wierszy danych w edytorze napisów.
Naprawiono problem z wyborem wielokanałowego dźwięku.
V2.0
Wsparcie dla przechwytywania i transkrypcji dźwięku w innych aplikacjach takich jak (Zoom/Skype/Teams/Meetings, tylko macOS 13.0+).
Dodano wtyczkę do wsadowej konwersji napisów z uproszczonego chińskiego na tradycyjny lub odwrotnie. (Najpierw należy aktywować wtyczkę w panelu preferencji).
Naprawiono problem z niemożnością użycia skrótu spacji w edytorze projektu do odtwarzania lub zatrzymywania mediów.
Naprawiono błąd formatu eksportu SRT i VTT.
V1.0
Transkrypcja plików audio lub wideo
Wykorzystanie darmowego API DeepL do tłumaczenia napisów
Wbudowany edytor napisów do poprawiania transkrypcji
Eksport do formatów SRT, VTT, CSV, JSON, SEGMENT
Możliwość przypisania mówcy do każdego napisu
Większość operacji obsługuje wsadowe zaznaczanie. Na przykład wsadowe uruchamianie zadań, wsadowe tłumaczenie wierszy, wsadowe ustawianie mówcy
Obsługa przeciągania i upuszczania plików w celu rozpoczęcia transkrypcji
Obsługa pisania na polu wyszukiwania napisów
Edytor może synchronizować odtwarzany zakres audio lub wideo
Obsługa konwersji między wieloma językami
Obsługa niestandardowych języków często używanych do konwersji lub tłumaczenia