Kapitola 5 · Modality · 8 min čtení
Ťukání zdržuje. Nejrychlejší vývojáři Claudovi mluví do mikrofonu, ukazují mu obrazovku a hází mu screenshoty toho, co zrovna viděli — obvykle všechno v jednom promptu. Bez triků, bez vaty.
V minulé kapitole ses naučil iterovat text. Teď přidáš hlas všude, kde se to hodí; multimodální kontext (screenshoty, vložení obrázku, drag-drop) jako rovnocenný signál; a pár drobných úprav, díky kterým hlas funguje stejně dobře jako psaní.
Psaný prompt je věta, co jsi složil. Hlasový prompt je myšlenka, co jsi vyslovil. Mají různé tvary a hodí se na různé věci.
Hlasem to dává smysl, když:
Psaní vyhrává, když:
Většina vývojářů to nakonec střídá větu po větě. Hlasem řekni tu mlhavou myšlenku, naťukej přesnou referenci.
Claude poslouchá na každém povrchu jinak. Klávesová zkratka, latence, kvalita přepisu — každý má svou náladu. Během týdne, co všechny čtyři vyzkoušíš, si vybereš oblíbence.
Hned vedle vstupního pole pro prompt je mikrofon. Klikni, mluv, klikni znovu. Přepis ti naskakuje do promptu, jak mluvíš. Před odesláním si ho ještě můžeš projít.

Tohle je povrch, který většina vývojářů využívá nejvíc. Žádné nastavování, žádné nástroje třetích stran, přepis je už teď dobrý. Jeden trik za to stojí: nadiktuj hrubou myšlenku a před odesláním přepis projdi a uprav — hlas s lehkou úpravou je vždycky lepší než řekni-a-pošli.
/voice je vestavěnéClaude Code má v terminálu diktování zabudované. Spustíš /voice a je zapnuté.
Pak:
Space a mluv, pusť a přepis se vloží. Zkontroluj, případně uprav, Enter odešle./voice tap. Stiskni Space, ať začne nahrávat, stiskni znovu, ať zastaví. Automaticky odešle, jakmile má přepis aspoň tři slova.Dvě věci dělají z /voice lepší volbu než obecný diktovací nástroj:
regex, OAuth, JSON, localhost se přepisují správně. Název tvého aktuálního projektu a název gitové větve se automaticky přidávají jako vodítko pro rozpoznávání./config nebo přímo v souboru s nastavením. Výchozí je angličtina.Audio se posílá k Anthropicu k přepisu (ne lokálně). Zdarma — neubírá ti tokeny ani se nepočítá do limitů v /usage. Funguje jen s účtem Claude.ai (ne přes API klíč / Bedrock / Vertex / Foundry). Nefunguje přes SSH ani ve vzdálené relaci — potřebuje lokální mikrofon. K dispozici od Claude Code v2.1.69; tap mode od v2.1.116.
/voice je správný výchozí nástroj pro terminál. Důvody, proč si k tomu přidat ještě systémový nástroj:
/voice nefungujeWispr Flow ↗ je oblíbená volba — tichý, podržíš zkratku, naťuká přepis do té aplikace, kterou máš v popředí. Bezplatná verze ti vystačí na většinu denní práce.
Super Whisper ↗ běží Whisper lokálně. Stejný princip se zkratkou. Sáhni po něm, když ti soukromí znamená víc než hladší UX od Wispr.
macOS Diktování ↗ je varianta bez instalace (výchozí zkratka Fn Fn). Hodí se na to, abys ověřil, že hardware funguje, než za něco zaplatíš; jako každodenní nástroj to není.
Mobilní aplikace Claude na iOS i Androidu mají nativní diktování. Na mobilu to ale vypadá jinak než na desktopu: obvykle jedna ruka, často při chůzi, spíš zachycuješ myšlenku, než vykonáváš úkol.
Tady se hlas ukáže nejvíc. Ten prompt bys nenapsal, nezvedl bys kvůli němu notebook — hlas je jediný způsob, jak tu myšlenku vůbec uchopit.
Webová aplikace na claude.ai má stejný mikrofon jako desktopová. Použij, jestli jsi na cizím stroji, na Linuxu nebo v prostředí, kde nechceš nic instalovat.
Hlas rozšiřuje, co můžeš Claudovi říct. Multimodální vstup rozšiřuje, co můžeš ukázat.
Vložený screenshot zviditelní to, co bys jinak musel popisovat slovy. Tři situace, kde dopadne líp než jakýkoliv ekvivalentní odstavec:
Přetáhni export z Figmy nebo screenshot stránky do promptu. Zeptej se: „Napoj to na moje existující komponenty." Claude přečte obrázek, pojmenuje komponenty, které vidí, zeptá se na ty, které neumí odhadnout, a napíše JSX. Celý odstavec popisující mockup jsi přeskočil.

Stack trace v terminálu? Panel devtools v prohlížeči se selháním sítě? Neopisuj to. Vyfoť (Cmd+Shift+4), vlož do Claude, zeptej se „co se děje?". Chyba se přečte i s okolním kontextem — čísla řádků, barvy, celé místo volání — co kopírováním textu ztrácíš.
Načrtni UI na papír. Vyfoť mobilem. Vlož do Claude. Dostaneš funkční komponentu. Věrnost není umělecká škola; ten postup funguje a šetří hodinu oproti přepínání s Figmou.
Postup, který se nejvíc vyplatí: hlasem řekni cíl, vlož artefakt, naťukej omezení. Tři modality, jeden prompt:
(hlas) „Přidej dashboard metrik na tuhle stránku." (vlož screenshot aktuální stránky) (naťukej)
Použij existující dotazy z /lib/metrics; nová komponenta jde do app/components/metrics-card.tsx.
Hlas nese záměr. Vložený obrázek nese kontext. Psaní nese přesnou referenci. Žádná z těch tří sama o sobě neudělá to, co všechny tři dohromady.
Hlas mění, jak prompt zní. Podstata se měnit nemá, ale povrch ano.
Jiná práce, jiný povrch:
| Práce | Povrch | Proč |
|---|---|---|
| Denní flow na reálném repu | Terminál + /voice | Agent běží tam; vestavěné diktování zná vývojářský slovník |
| Diktování do desktopu, prohlížeče, Slacku — kamkoli | Wispr Flow / Super Whisper | Jeden systémový nástroj je lepší než mikrofon do každé aplikace zvlášť |
| Procházení diffů, ptaní se „proč" | Desktopová aplikace | Živý přepis, snadný přechod mezi hlasem a psaním |
| Zachycení myšlenky při chůzi | Mobil | Ta myšlenka by se k notebooku nedostala |
| Párování s někým, kdo se dívá | Desktopová aplikace + cast | Hlas s viditelným přepisem se čte přirozeně |
| Debugging UI / Figma / mockup | Desktopová aplikace + paste | Tady je multimodální doma |
Zkus tohle jednou, dnes, na reálném úkolu.
Co si všimneš: vyslovená část trefí cíl tak, jak jsi ho doopravdy myslel. Vložený screenshot ukotví kontext. Úprava chytí nepřesnost. Tři modality, jeden prompt, za míň času, než trvá napsat to samé textem.
Další kapitola — Ekosystém — pokrývá širší stack: skilly, MCP servery, pluginy. Hlas a multimodální vstup jsou vstupní vrstva; ta kapitola je o nástrojích kolem nich.