Kapitola 5 · Modality · 8 min čtení

Na této stránce15

Hlas a modality

Ťukání zdržuje. Nejrychlejší vývojáři Claudovi mluví do mikrofonu, ukazují mu obrazovku a hází mu screenshoty toho, co zrovna viděli — obvykle všechno v jednom promptu. Bez triků, bez vaty.

V minulé kapitole ses naučil iterovat text. Teď přidáš hlas všude, kde se to hodí; multimodální kontext (screenshoty, vložení obrázku, drag-drop) jako rovnocenný signál; a pár drobných úprav, díky kterým hlas funguje stejně dobře jako psaní.

Kdy hlasem víc než psaním

Psaný prompt je věta, co jsi složil. Hlasový prompt je myšlenka, co jsi vyslovil. Mají různé tvary a hodí se na různé věci.

Hlasem to dává smysl, když:

Popisuješ, co vidíš — chybu na obrazovce, tvar UI, diagram na tabuli
Jsi uprostřed něčeho jiného a nechce se ti přerušovat se a skládat odstavec
Myšlenka je rozpracovaná a chceš ji objevit, jak ji říkáš
Jdeš pěšky, vaříš nebo jsi jinak od klávesnice

Psaní vyhrává, když:

Prompt má strukturu, na které záleží (seznamy, kód, přesné názvy souborů)
Budeš ho kopírovat dál
Mluvil bys jinak moc potichu nebo na veřejnosti

Většina vývojářů to nakonec střídá větu po větě. Hlasem řekni tu mlhavou myšlenku, naťukej přesnou referenci.

Čtyři povrchy

Claude poslouchá na každém povrchu jinak. Klávesová zkratka, latence, kvalita přepisu — každý má svou náladu. Během týdne, co všechny čtyři vyzkoušíš, si vybereš oblíbence.

Desktopová aplikace — nativní mikrofon

Hned vedle vstupního pole pro prompt je mikrofon. Klikni, mluv, klikni znovu. Přepis ti naskakuje do promptu, jak mluvíš. Před odesláním si ho ještě můžeš projít.

Desktopová aplikace Claude s aktivovaným mikrofonem (modrá ikona ve spodní liště) a textem 'Refactor the auth middleware to use the new token validation' v promptu — Stiskni mikrofon. Mluv. Sleduj, jak se prompt vyplňuje.

Tohle je povrch, který většina vývojářů využívá nejvíc. Žádné nastavování, žádné nástroje třetích stran, přepis je už teď dobrý. Jeden trik za to stojí: nadiktuj hrubou myšlenku a před odesláním přepis projdi a uprav — hlas s lehkou úpravou je vždycky lepší než řekni-a-pošli.

Terminál — `/voice` je vestavěné

Claude Code má v terminálu diktování zabudované. Spustíš /voice a je zapnuté.

Terminál ukazující příkaz /voice v Claude Code následovaný potvrzením 'Voice mode enabled (hold). Hold Space to record. Dictation language: en (/config to change).' — Spusť /voice. Drž Space. Mluv.

Pak:

Hold mode (výchozí) — drž Space a mluv, pusť a přepis se vloží. Zkontroluj, případně uprav, Enter odešle.
Tap mode — /voice tap. Stiskni Space, ať začne nahrávat, stiskni znovu, ať zastaví. Automaticky odešle, jakmile má přepis aspoň tři slova.

Dvě věci dělají z /voice lepší volbu než obecný diktovací nástroj:

Vyladěné na vývojářský slovník. regex, OAuth, JSON, localhost se přepisují správně. Název tvého aktuálního projektu a název gitové větve se automaticky přidávají jako vodítko pro rozpoznávání.
Dvacet jazyků včetně češtiny. Nastavíš v /config nebo přímo v souboru s nastavením. Výchozí je angličtina.

Audio se posílá k Anthropicu k přepisu (ne lokálně). Zdarma — neubírá ti tokeny ani se nepočítá do limitů v /usage. Funguje jen s účtem Claude.ai (ne přes API klíč / Bedrock / Vertex / Foundry). Nefunguje přes SSH ani ve vzdálené relaci — potřebuje lokální mikrofon. K dispozici od Claude Code v2.1.69; tap mode od v2.1.116.

Terminál — systémové alternativy

/voice je správný výchozí nástroj pro terminál. Důvody, proč si k tomu přidat ještě systémový nástroj:

Diktuješ i do desktopové aplikace, prohlížeče, Slacku, do editoru — jeden nástroj pro všechno je lepší než mít mikrofon do každé aplikace zvlášť
Jedeš na API klíči / Bedrocku / Vertexu, kde /voice nefunguje
Chceš lokální přepis kvůli soukromí

Wispr Flow ↗ je oblíbená volba — tichý, podržíš zkratku, naťuká přepis do té aplikace, kterou máš v popředí. Bezplatná verze ti vystačí na většinu denní práce.

Super Whisper ↗ běží Whisper lokálně. Stejný princip se zkratkou. Sáhni po něm, když ti soukromí znamená víc než hladší UX od Wispr.

macOS Diktování ↗ je varianta bez instalace (výchozí zkratka Fn Fn). Hodí se na to, abys ověřil, že hardware funguje, než za něco zaplatíš; jako každodenní nástroj to není.

Mobil — telefon je tvůj terminál

Mobilní aplikace Claude na iOS i Androidu mají nativní diktování. Na mobilu to ale vypadá jinak než na desktopu: obvykle jedna ruka, často při chůzi, spíš zachycuješ myšlenku, než vykonáváš úkol.

Tady se hlas ukáže nejvíc. Ten prompt bys nenapsal, nezvedl bys kvůli němu notebook — hlas je jediný způsob, jak tu myšlenku vůbec uchopit.

Prohlížeč — claude.ai web

Webová aplikace na claude.ai má stejný mikrofon jako desktopová. Použij, jestli jsi na cizím stroji, na Linuxu nebo v prostředí, kde nechceš nic instalovat.

Multimodální — screenshot je součást promptu

Hlas rozšiřuje, co můžeš Claudovi říct. Multimodální vstup rozšiřuje, co můžeš ukázat.

Vložený screenshot zviditelní to, co bys jinak musel popisovat slovy. Tři situace, kde dopadne líp než jakýkoliv ekvivalentní odstavec:

Design review — ukaž mockup, polož otázku

Přetáhni export z Figmy nebo screenshot stránky do promptu. Zeptej se: „Napoj to na moje existující komponenty." Claude přečte obrázek, pojmenuje komponenty, které vidí, zeptá se na ty, které neumí odhadnout, a napíše JSX. Celý odstavec popisující mockup jsi přeskočil.

Desktopová aplikace Claude s vloženým thumbnailem screenshotu v promptu a otázkou 'What's wrong here?' napsanou pod ním — Přetáhni screenshot. Claude vidí to, co ty.

Debugging chyby — ukaž chybu, neopisuj ji

Stack trace v terminálu? Panel devtools v prohlížeči se selháním sítě? Neopisuj to. Vyfoť (Cmd+Shift+4), vlož do Claude, zeptej se „co se děje?". Chyba se přečte i s okolním kontextem — čísla řádků, barvy, celé místo volání — co kopírováním textu ztrácíš.

Mockup → kód — načrtni na papír, vyfoť, dodej

Načrtni UI na papír. Vyfoť mobilem. Vlož do Claude. Dostaneš funkční komponentu. Věrnost není umělecká škola; ten postup funguje a šetří hodinu oproti přepínání s Figmou.

Jeden postup, který tohle všechno spojuje

Postup, který se nejvíc vyplatí: hlasem řekni cíl, vlož artefakt, naťukej omezení. Tři modality, jeden prompt:

(hlas) „Přidej dashboard metrik na tuhle stránku." (vlož screenshot aktuální stránky) (naťukej) Použij existující dotazy z /lib/metrics; nová komponenta jde do app/components/metrics-card.tsx.

Hlas nese záměr. Vložený obrázek nese kontext. Psaní nese přesnou referenci. Žádná z těch tří sama o sobě neudělá to, co všechny tři dohromady.

Posuny v promptování pod hlasem

Hlas mění, jak prompt zní. Podstata se měnit nemá, ale povrch ano.

Mluvené prompty se táhnou. Před odesláním přepis projdi — rozděl ho do vět, vyhoď „ehm"y. Dvě sekundy úpravy zdvojnásobí kvalitu hlasového promptu.
Názvy souborů se diktují špatně. Hlasem řekni záměr, naťukej cestu. „Přidej validaci do komponenty Prompt" + pak doplň cestu k souboru.
Seznamy málokdy přežijí diktování. Jestli vyjmenováváš čtyři věci, naťukej je. Jestli popisuješ cíl, řekni ho hlasem.
Hlas se hůř zhustí než text. Třicetisekundový hlasový prompt bývá třívětný textový prompt s vatou. Oba fungují; textovou verzi rychleji projdeš při kontrole.

Kdy povrch záleží

Jiná práce, jiný povrch:

Práce	Povrch	Proč
Denní flow na reálném repu	Terminál + `/voice`	Agent běží tam; vestavěné diktování zná vývojářský slovník
Diktování do desktopu, prohlížeče, Slacku — kamkoli	Wispr Flow / Super Whisper	Jeden systémový nástroj je lepší než mikrofon do každé aplikace zvlášť
Procházení diffů, ptaní se „proč"	Desktopová aplikace	Živý přepis, snadný přechod mezi hlasem a psaním
Zachycení myšlenky při chůzi	Mobil	Ta myšlenka by se k notebooku nedostala
Párování s někým, kdo se dívá	Desktopová aplikace + cast	Hlas s viditelným přepisem se čte přirozeně
Debugging UI / Figma / mockup	Desktopová aplikace + paste	Tady je multimodální doma

Praxe: cyklus jednoho promptu

Zkus tohle jednou, dnes, na reálném úkolu.

Otevři desktopovou aplikaci Claude. Vyber malou fíčuru z reálného projektu — něco, na co bys jinak naťukal prompt.
Hlasem řekni cíl. Klikni na mikrofon. Řekni, co chceš, tak jak bys to řekl kolegovi. Nesnaž se to formulovat jako prompt.
Vlož screenshot relevantní stránky nebo souboru (Cmd+Shift+4 na výřez, pak Cmd+V do Claude).
Před odesláním uprav přepis. Rozděl do dvou nebo tří vět. Doplň název souboru, který chceš.
Pošli. Přečti diff.

Co si všimneš: vyslovená část trefí cíl tak, jak jsi ho doopravdy myslel. Vložený screenshot ukotví kontext. Úprava chytí nepřesnost. Tři modality, jeden prompt, za míň času, než trvá napsat to samé textem.

Další kapitola — Ekosystém — pokrývá širší stack: skilly, MCP servery, pluginy. Hlas a multimodální vstup jsou vstupní vrstva; ta kapitola je o nástrojích kolem nich.