Jak převést svůj hlas na text pomocí OpenAI’s Whisper pro Windows

OpenAI’s Whisper je nové řešení s umělou inteligencí, které vám může pomoci přeměnit váš hlas na text jedinečným způsobem. Nejlepší ze všeho je, že je to zdarma.

Je tu však relativně malý problém: instalace a používání jsou s běžným nástrojem Windows mnohem obtížnější. Zvláště pokud chcete použít jádra Tensor vaší grafické karty Nvidia, abyste ji pěkně podpořili. Podívejte se na nejlepší nástroje založené na umělé inteligenci, které zdarma promění vaše psaní ve fotografické umění.

Neměli byste však zoufat. Proto jsme tady! Čtěte dále a dozvíte se, jak ji nainstalovat a používat, ale také, pokud vlastníte grafickou kartu Nvidia, ukážeme vám, jak ji může Whisper využít.

Co je Whisper od OpenAI?

ChatGPT rychle získává na popularitě mezi uživateli a už jsme viděli, jak můžete používat ChatGPT od OpenAI. Není to však jediný zajímavý projekt OpenAI.

Whisper, poháněný hlubokým učením a neuronovými sítěmi, je systém pro zpracování přirozeného jazyka, který dokáže „porozumět“ řeči a převést ji na text. Ale také nabízí několik vlastních konfigurací ve svém oboru a překonává všechna srovnatelná řešení díky:

  1. Whisper je řešení umělé inteligence „vycvičené“ v přirozeném jazyce. Takže rozumět „normální“ lidské řeči je lepší než stará řešení.
  2. Whisper se nedodává s rozhraním, ani nemůže nahrávat zvuk. Může používat pouze existující zvukové soubory a spouštět textové soubory.
  3. I když je Whisper dobrý v „rozumění jazyku“, má také absolutně nejlepší strojový překlad.
  4. Whisper není online služba a může fungovat zcela offline.
  5. Pokud máte grafickou kartu Nvidia (GTX970 nebo novější), Whisper může běžet v „hardwarově akcelerovaném režimu“ pro zrychlení odezvy.
  6. Nemusíte se registrovat, kupovat licenci ani kupovat předplatné.

Proč grafická karta AMD není podporována?

Aby GPU byly užitečné pro více než jen grafický výstup, musí fungovat jako plně programovatelné procesory. Proto Nvidia vytvořila architekturu CUDA, což je oficiálně „paralelní výpočetní platforma a programovací model“.

CUDA je patentovaná technologie Nvidia, kompatibilní pouze s GPU Nvidia. Nejlepší alternativy od AMD jsou OpenCL a Radeon Compute Platform.

Ve srovnání s alternativami je CUDA vyzrálejší, výkonnější a snadněji se používá. Většina vývojářů se tedy zaměřuje pouze na CUDA, což zase znamená, že jejich aplikace využívají pouze hardwarové funkce na GPU Nvidia. To zahrnuje Whisper. Podívejte se na naše srovnání grafických karet AMD vs NVIDIA v systému Linux: kterou byste měli použít?

Také číst  Kroky, které by kryptoměnové platformy měly podniknout, aby zastavily podvody

Stáhněte a nainstalujte Whisper

Whisper bohužel není samostatná aplikace, kterou si můžete běžně stáhnout, nainstalovat a spustit. Záleží také na dalších závislostech, které se mají nainstalovat.

Pro Windows, aby byla tato příručka jednoduchá, použijeme k instalaci většiny částí potřebných aplikací široce populární Chocolatey. Chcete-li se dozvědět více o Chocolatey, podívejte se na našeho průvodce nejrychlejším způsobem instalace aplikací pro Windows.

Pro Linux i Mac by měl být instalační proces (kromě proměnné cesty Windows a užitečných dávkových souborů, které vytvoříme) podobný.

  • Chcete-li nainstalovat a používat Whisper, Python a jeho nástroj PIP musí být nainstalován a přidán do proměnné Windows „Path“. Informace o tom najdete v našem článku o instalaci Pythonu PIP na Windows, Mac a Linux.
  • Nainstalujte FFMPEG přes Chocolatey pomocí tohoto příkazu:

choco nainstalovat ffmpeg

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

  • Nainstalujte také verzi Pythonu pomocí:

pip3 nainstalujte python-ffmpeg

  • Nakonec nainstalujte Whisper ze stránky Github pomocí:

pip3 nainstalujte git+

Stáhněte si verzi Whisper s podporou CUDA

Zatímco Whisper primárně nepoužívá GPU Nvidia, balíček Torch, na kterém je založen, nabízí akcelerovanou verzi CUDA. Pokud ji použijete místo „běžné“ verze Whisper, lze přepisy dokončit rychleji pomocí grafické karty Nvidia.

Pro Whisper, který používá Nvidia CUDA:

  • Pokud již máte nainstalovanou „vanilla“ verzi Torch, odinstalujte ji a odstraňte zbývající soubory pomocí:

vyjměte hořák pip3

  • Po dokončení pokračujte následujícím příkazem:

pip vymazat mezipaměť

  • Nainstalujte verzi Torch s podporou CUDA pomocí příkazu:

nainstalovat pip3 torch torchvision torchaudio — extra-index-url

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

  • Chcete-li zkontrolovat, zda Whisper může používat GPU Nvidia:

šeptat — pomoc | findstr -i pytorch

Měli byste vidět (výchozí: cuda) místo (výchozí: cpu). Podívejte se na další důvody, proč ChatGPT nevezme vaši práci psaní obsahu.

Co dělat, když Torch nelze nainstalovat

Pokud při instalaci Torche narazíte na chybu „Nebyla nalezena žádná verze“, možná budete muset nainstalovat starší verzi Pythonu souběžně s vaší aktuální verzí.

Také číst  Jak opravit chybový kód 0x8007045d v systému Windows 10 nebo Windows 11

Chcete-li to provést, použijte tento příkaz:

choco install python — verze OLDER_VERSION — vedle sebe

Nahraďte „OLDER_VERSION“ verzí, například 3.10.

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

Poté použijte cestu vedlejší verze pro všechny „globální“ příkazy Whisper (např. „c:\Python310\Scripts\pip.exe“ místo pouze „pip“).

Jak nahrát svůj hlas

K převodu hlasu do souboru WAV nebo MP3 můžete použít jakoukoli aplikaci pro nahrávání zvuku. Windows takovou aplikaci obsahuje. Další informace najdete v tématu Jak používat aplikaci Hlasový záznamník ve Windows 10.

Vyzkoušejte Audacity pro plnou možnost. Naučte se, jak s naším průvodcem používáním Audacity nahrávat zvuk na Windows a Mac.

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

Jak začít psát s Whisperem

Přestože Whisper nepřichází s jednoduchým grafickým uživatelským rozhraním, jeho používání je velmi plynulé.

Řekněme, že máme ve složce c:\MyAudioFiles soubor řeči LatestNote.mp3 v řečtině a chceme jej přeložit do angličtiny a zkopírovat do textového souboru.

  • Začneme spuštěním příkazového řádku nebo PowerShellu.
  • Tímto příkazem „změníme adresář“, kde je uložen zvukový soubor:

cd C:\MyAudioFiles

  • Spustíme Whisper v souboru s:

whisper — model base — language gr — přeložit zakázku LatestNote.mp3

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

Po zpracování se textový soubor (s názvem „LatestNote.mp3.txt“) objeví ve stejné složce. Chcete-li zobrazit přeložený text, otevřete jej v textovém editoru, jako je Poznámkový blok.

Použili jsme ukázkový překlad, protože anglický přepis je jasnější: stačí použít značky „ztratit“, „ –language“ a „-task“. Takže pro jednoduchý fonetický přepis by výše uvedený příkaz byl:

whisper — modelový základ LatestNote.mp3

Značka „model“ je povinná, protože Whisper používá jednu z několika možností. Pojďme to rozšířit, abychom vám pomohli vybrat ten nejlepší pro vaše potřeby. Zobrazit Co je funkce přepisu? Jaká je jeho role a jak se vám v ní pracuje?

Jaký model vybrat?

Whisper nabízí různé jazykové modely. Čím větší model, tím vyšší přesnost, ale také vyšší hardwarové nároky. co je:

  • Malý.
  • základna.
  • Malý.
  • Střední.
  • Velký.

Formy Tiny nebo Base by měly být pro většinu anglicky mluvících v pořádku. Nerodilí mluvčí angličtiny mohou vidět lepší výsledky s většími modely, jako je střední a velký.

Mějte však na paměti, že střední a velké modely vyžadují více než 8 GB VRAM („paměť vašeho GPU“).

Také číst  Nejlepší aplikace a nástroje pro zahájení vaší cesty podcasty

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

Chcete-li jeden vybrat, zadejte model za klávesou „ — model“ v příkazu:

šeptat — model malý/malý/střední/velký [file]

Například:

šeptat — malý model My_Voice_Note.mp3

Jak zjednodušit přepis

Pokaždé, když budete chtít přepsat nějaký zvuk, musíte zadat celý příkaz Whisper, může být rychle únavné. Pojďme vytvořit globálně přístupný dávkový soubor pro zjednodušení procesu.

  • Spusťte Průzkumníka Windows a navštivte jednotku C:.
  • Vytvořte složku pro skripty a zkopírujte cestu do schránky.
  • Najděte a vyberte cestu z nabídky Start systému Windows Změňte systémové proměnné prostředí.

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

  • K vyhledávání Měnič podložek v uživatelských proměnných pro YOUR_USERNAME. Chcete-li jej změnit, dvakrát na něj klikněte. Klikněte Nový a vložte cestu ke složce skriptů. Klepnutím na tlačítko OK přijměte změny.

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

  • Přejděte zpět do složky skriptů v Průzkumníkovi Windows. Vytvořte tam nový dávkový soubor s názvem „wht.bat“. „Tam“ přidejte tento příkaz:

whisper — model tiny — language cs %1

Jak převést svůj hlas na text pomocí OpenAI's Whisper pro Windows - Windows

  • Vytvořte dva dávkové soubory, „whs“ a „whm“.
  • Přidejte tento příkaz do prvního souboru:

šeptat — malý model — jazyk nl %1

  • Přidejte tento příkaz do druhého souboru:

šepot — střední model — jazyk a %1

Gratulujeme, nyní máte tři soubory pro snadné použití šablon Whisper Small, Medium a Basic s vašimi zvukovými soubory! Chcete-li převést jakýkoli zvukový soubor na text:

  • Vyhledejte soubor pomocí Průzkumníka Windows.
  • Klikněte pravým tlačítkem na prázdné místo a zvolte Otevřít v Terminálu.
  • Zadejte tento příkaz a nahraďte „wht“ za „whs“ nebo „whm“ pro použití malých nebo středních jazykových forem:

co YOUR_AUDIO_FILE.mp3

Pište zvukový obsah rychle pomocí Whisper

Ani ti nejrychlejší písaři se nevyrovnají rychlosti, jakou mluvíme. Mluvení místo psaní však donedávna nebylo pro tvorbu dokumentů optimální.

Většina řešení pro převod zvuku na text přinesla průměrné výsledky. Možná najdete řešení, která stála za vyzkoušení, ale byla příliš složitá na použití nebo příliš drahá. Naštěstí to Whisper změnil.

Po výše uvedených krocích byste měli být připraveni přepsat nebo přeložit svůj hlas ve vysokém rozlišení jediným příkazem. Nyní se můžete podívat na nejlepší audio-textové aplikace pro psaní poznámek, schůzek a přednášek.