Руководство пользователя

Последнее обновление: 8 марта 2026 г.

AI-ассистент для видеозвонков. Слушает речь собеседника, распознаёт вопросы, находит ответы в базе знаний и показывает подсказки в реальном времени.

Содержание

Быстрый старт
Главное окно (Overlay)
Настройки
Режимы работы
Сценарии использования
FAQ

1. Быстрый старт

Первый запуск (3 шага)

Шаг 1: Вставьте API-ключ LLM-провайдера
        (Настройки → Поставщики → ввести ключ → Сохранить)

Шаг 2: Разрешите захват системного аудио
        (macOS запросит разрешение Screen Recording при первом запуске)

Шаг 3: Нажмите кнопку микрофона на верхней панели
        (Пайплайн запустится, приложение начнёт слушать)

Минимально необходимое

Что нужно	Где настроить	Зачем
API-ключ LLM	Настройки → Поставщики	Генерация ответов на вопросы
Разрешение Screen Recording	Системные настройки macOS	Захват аудио из видеозвонков

База знаний и внешний RAG — опциональны, но значительно улучшают качество ответов.

2. Главное окно (Overlay)

Overlay — полупрозрачное окно поверх видеозвонка. Оно показывает транскрипцию речи и ответы AI.

Верхняя панель (TitleBar)

┌──────────────────────────────────────────────────┐
│  [Микрофон]    [Режим]    [Настройки]            │
└──────────────────────────────────────────────────┘

Кнопка	Иконка	Что делает
Микрофон	Mic / MicOff	Запускает и останавливает пайплайн (захват аудио + распознавание + AI)
Режим	MessageSquare / Presentation	Переключает между режимом «Диалог» и «Питч»
Настройки	Gear	Открывает окно настроек

Микрофон — главная кнопка. Нажали — приложение слушает и помогает. Нажали ещё раз — приложение остановилось.

В режиме «Диалог»

┌──────────────────────────────────────────────────┐
│  Транскрипт                                      │
│  Собеседник: «А какие гарантии вы даёте?»        │
│                                                   │
│  Ответ (LLM)                                     │
│  Мы предоставляем гарантию 24 месяца на все      │
│  работы. Подробности в договоре, пункт 5.2...    │
└──────────────────────────────────────────────────┘

Транскрипт — текст, который произносит собеседник. Частичные результаты отображаются курсивом, финальные — обычным шрифтом.
Ответ — AI-подсказка. Появляется только если система определила, что прозвучал вопрос. Бейдж показывает источник: cache (мгновенный из кеша) или llm (сгенерирован моделью).

В режиме «Питч»

┌──────────────────────────────────────────────────┐
│  Презентация компании          3 / 12            │
│  ████████░░░░░░░░  Уверенность: 87%              │
│                                                   │
│  ► Наша команда — 15 инженеров с опытом...       │
│    Мы работаем на рынке с 2018 года...           │
│    Среди клиентов — Сбер, Яндекс, МТС...        │
└──────────────────────────────────────────────────┘

Показывает текст вашего документа (презентация, скрипт продажи)
Подсвечивает текущий сегмент, синхронизируясь с вашей речью
Прогресс-бар показывает уверенность синхронизации

Нижняя строка (StatusBar)

● Слушаю                              Диалог

Статус	Индикатор	Значение
Ожидание	Серая точка	Пайплайн не запущен
Слушаю	Зелёная пульсирующая точка	Аудио захватывается, распознавание работает
Обработка	Жёлтая пульсирующая точка	AI генерирует ответ
Ошибка	Красная точка	Что-то пошло не так (см. сообщение)

3. Настройки

Окно настроек содержит 6 вкладок. Открывается кнопкой с шестерёнкой на верхней панели.

3.1 Поставщики LLM

Назначение: Настройка AI-модели, которая генерирует ответы на вопросы.

┌─ Поставщики LLM ─────────────────────────────────┐
│                                                    │
│  Поддерживаемые:                                   │
│  [Claude] [GPT] [Gemini] [Ollama]                 │
│                                                    │
│  API-ключ:                                         │
│  [sk-ant-api03-••••••••••••••••] [Глаз] [Сохранить]│
│  ✓ Сохранено в Keychain                           │
│  Обнаружен провайдер: Claude (Anthropic)           │
│                                                    │
│  [Проверить подключение]  ✓ Подключено             │
└────────────────────────────────────────────────────┘

Элемент	Что делать
API-ключ	Вставьте ключ от вашего LLM-провайдера. Приложение автоматически определит провайдера по формату ключа
Сохранить	Сохраняет ключ в системное хранилище (Keychain на macOS). Ключ не покидает ваш компьютер
Глаз	Показать/скрыть ключ
Проверить подключение	Отправляет тестовый запрос к API. Зелёная галочка = всё работает

Как получить ключ:

Провайдер	Где взять	Формат ключа
Anthropic (Claude)	console.anthropic.com → API Keys	`sk-ant-api03-...`
OpenAI (GPT)	platform.openai.com → API Keys	`sk-proj-...` или `sk-...`
Google (Gemini)	aistudio.google.com → API Keys	`AIza...`
Ollama (локальный)	Установить ollama.com → запустить	Ключ не нужен

Ключ хранится локально в системном Keychain/Credential Manager. При обновлении приложения ключ сохраняется — вводить заново не нужно.

3.2 Аудио

Назначение: Настройка источника звука и чувствительности распознавания речи.

┌─ Аудио ──────────────────────────────────────────┐
│                                                    │
│  Источник аудио: [Системный звук ▼]               │
│                                                    │
│  ████████████░░░░░░░░  Уровень звука               │
│  ● Речь обнаружена                                 │
│                                                    │
│  Чувствительность VAD:                             │
│  Низкая [0.1]────●────[0.95] Высокая              │
│                  0.50                               │
│  ☑ Автозапуск пайплайна                            │
└────────────────────────────────────────────────────┘

Элемент	Что делать	Рекомендация
Источник аудио	Выбрать откуда захватывать звук	Системный звук — для видеозвонков. Микрофон — для живых встреч
Уровень звука	Просто индикатор (не настройка)	Полоса должна двигаться когда собеседник говорит
Чувствительность VAD	Ползунок порога распознавания речи	Низкая (0.1-0.3): больше ложных срабатываний. Высокая (0.7-0.95): может пропускать тихие фразы. Рекомендация: 0.5
Автозапуск	Пайплайн запускается при старте приложения	Удобно если используете каждый день

VAD (Voice Activity Detection) — определяет, есть ли в аудио речь. Если пропускаются фразы — понизьте порог. Если срабатывает на фоновый шум — повысьте.

3.3 База знаний

Назначение: Загрузка ваших документов, чтобы AI давал ответы на основе ваших данных, а не только общих знаний.

┌─ База знаний ────────────────────────────────────┐
│                                                    │
│  [+ Добавить файлы]                                │
│  [↻ Пересобрать индекс]                           │
│  ✓ Проиндексировано 2 из 2 файлов                 │
│                                                    │
│  ☑ Авто-обогащение базы знаний                     │
│  ☑ RAG включён                                     │
│                                                    │
│  ─── Внешний RAG API ───                           │
│  URL: [https://rag.example.com/api]                │
│  API Key: [••••••••] [Глаз]                        │
│  Приоритет: [Сначала локальный ▼]                  │
│  [Проверить подключение]  ✓ Подключено             │
│                                                    │
│  Форматы: md, txt, csv, json                       │
└────────────────────────────────────────────────────┘

Элемент	Что делает	Когда использовать
Добавить файлы	Документы разбиваются на фрагменты и индексируются	Загрузите FAQ, скрипты продаж, описания продуктов
Пересобрать индекс	Переиндексирует все ранее добавленные файлы	После редактирования исходных документов
Авто-обогащение	Добавляет Q&A пары из транскрибаций встреч	Включите — база будет обогащаться реальными вопросами
RAG включён	Использовать базу знаний при генерации ответов	Выключите только для отладки

Внешний RAG API (опционально):

Элемент	Описание
URL	Адрес внешнего RAG-сервиса (если есть корпоративная база знаний)
API Key	Ключ доступа к внешнему RAG
Приоритет	Какую базу использовать первой

Приоритеты RAG:

Приоритет	Поведение
Сначала локальный	Ищет в вашей KB → если не нашёл, идёт во внешний RAG
Сначала внешний	Ищет во внешнем RAG → если не нашёл, ищет локально
Только локальный	Только ваши загруженные документы
Только внешний	Только внешний RAG API

Важно: Файлы можно добавлять только при запущенном пайплайне (кнопка микрофона активна). Но добавлять нужно только один раз — данные сохраняются между сессиями.

Какие файлы загружать:

Формат	Что положить	Пример
`.md`	FAQ, инструкции, описания продуктов	faq.md, product-features.md
`.txt`	Скрипты продаж, шаблоны ответов	sales-script.txt
`.csv`	Таблицы с данными (цены, сравнения)	pricing.csv
`.json`	Структурированные Q&A пары	qa-pairs.json

3.4 Внешний вид

Назначение: Визуальная настройка окна.

┌─ Внешний вид ────────────────────────────────────┐
│                                                    │
│  Язык: [Русский ▼]                                 │
│                                                    │
│  Прозрачность окна:                                │
│  [30%]─────────●───[100%]  85%                     │
│                                                    │
│  Контраст текста:                                  │
│  [30%]───────────●─[100%]  100%                    │
│                                                    │
│  Размер шрифта:                                    │
│  [12px]──────●─────[28px]  16px                    │
│                                                    │
│  ☑ Поверх всех окон                                │
│  ☑ Автозапуск пайплайна                            │
└────────────────────────────────────────────────────┘

Настройка	Диапазон	Рекомендация
Язык	Русский / English	—
Прозрачность	30% — 100%	80-90% — видно и текст, и видеозвонок за окном
Контраст текста	30% — 100%	100% — максимальная читаемость
Размер шрифта	12px — 28px	14-16px — для экрана с нормальным расстоянием
Поверх всех окон	Вкл/выкл	Включите — окно не будет скрываться за видеозвонком
Автозапуск	Вкл/выкл	Включите если пользуетесь ежедневно

3.5 Встречи

Назначение: Выбор типа отчёта, который генерируется после встречи.

┌─ Встречи ────────────────────────────────────────┐
│                                                    │
│  Тип отчёта по встречам:                           │
│                                                    │
│  [Резюме встречи]         ← выбрано                │
│  [Анализ ошибок]                                   │
│  [Неотвеченные вопросы]                            │
│  [Оценка участников]                               │
│  [Оценка кандидата]                                │
│  [Оценка интервьюера]                              │
│  [Конспект лекции]                                 │
│                                                    │
│  ☐ Speech2Doc Web add-on (5-10 мин)                │
└────────────────────────────────────────────────────┘

Тип отчёта	Содержание	Для кого
Резюме	Ключевые темы, принятые решения, поставленные задачи, вопросы и ответы	Все участники встречи
Анализ ошибок	Фактические ошибки, неточности, противоречия в речи	Обучение менеджеров, контроль качества
Неотвеченные вопросы	Вопросы, на которые не был дан ответ	Подготовка follow-up
Оценка участников	Анализ коммуникации: ясность, убедительность, работа с возражениями	HR, тренинги
Оценка кандидата	Компетенции, сильные/слабые стороны, рекомендация	Рекрутеры после собеседования
Оценка интервьюера	Качество вопросов, структура интервью, bias-анализ	HR, обучение интервьюеров
Конспект лекции	Структурированный конспект с ключевыми тезисами	Студенты, слушатели

Speech2Doc Web: отдельный add-on для Standard и Pro. При включении аудио сессии обрабатывается AI-моделью для улучшенной транскрипции с определением участников (5-10 мин). Отчёты генерируются на основе улучшенного транскрипта с разделением по спикерам.

Отчёт генерируется на сервере и отправляется на вашу email в формате PDF.

3.6 Аккаунт

Назначение: Авторизация, подписка, управление устройствами.

Не авторизован:

┌─ Аккаунт ────────────────────────────────────────┐
│  Email: [your@email.com]                           │
│  Пароль: [••••••••]                                │
│  [Войти]     Нет аккаунта? Зарегистрироваться      │
└────────────────────────────────────────────────────┘

Авторизован:

┌─ Аккаунт ────────────────────────────────────────┐
│  STT минуты: ████████░░░ 32 / 60 мин              │
│                                                    │
│  user@example.com  [STANDARD]                      │
│  [Выйти]                                          │
│                                                    │
│  Тарифы:                                           │
│  [Free]  [Standard]  [Pro]                         │
│                                                    │
│  Устройства:                                       │
│  MacBook Pro  [Удалить]                            │
└────────────────────────────────────────────────────┘

Элемент	Описание
STT минуты	Сколько минут распознавания речи использовано в текущем периоде. Прогресс-бар: зелёный (<80%), жёлтый (80-100%), красный (>лимита)
Тариф	Free / Standard / Pro — влияет на лимит STT минут и доступные функции
Устройства	Список привязанных устройств. Можно удалить устройство чтобы освободить слот

4. Режимы работы

Диалог (основной)

Собеседник говорит → Речь распознаётся → Определяется вопрос →
→ Поиск в базе знаний → LLM генерирует ответ → Показ в overlay

Когда использовать: Видеозвонки, переговоры, консультации, собеседования — любая ситуация, где вам задают вопросы.

Что происходит:

Приложение захватывает аудио из системного звука
Речь распознаётся в реальном времени
Если распознан вопрос (по ключевым словам и интонации), запускается цепочка:
- Поиск похожих фрагментов в базе знаний (RAG)
- LLM получает вопрос + контекст из KB + историю диалога
- Ответ стримится токен за токеном в overlay
Если это не вопрос — транскрипт показывается, но AI не отвечает

Питч (презентация)

Вы загружаете документ → Начинаете говорить →
→ Приложение следит за вашей речью и показывает текущий сегмент

Когда использовать: Презентации, питчи, выступления — когда вам нужен «суфлёр».

Что происходит:

Загрузите документ (текст выступления, скрипт)
Нажмите «Начать синхронизацию»
Приложение разбивает текст на сегменты
По мере вашей речи подсвечивает текущий сегмент
Показывает прогресс и уверенность синхронизации

5. Сценарии использования

Сценарий 1: Первая настройка для менеджера по продажам

1. Запустить приложение
2. Настройки → Поставщики → вставить API-ключ Claude → Сохранить
3. Проверить подключение → ✓ Подключено
4. Нажать кнопку микрофона → пайплайн запустится
5. Настройки → База знаний → Добавить файлы:
   - faq.md (часто задаваемые вопросы клиентов)
   - pricing.csv (таблица цен)
   - product-features.md (описание продукта)
6. ✓ Проиндексировано 3 из 3 файлов
7. Готово! Начните видеозвонок — подсказки появятся автоматически

Сценарий 2: Подготовка к важной презентации

1. Запустить приложение
2. Переключить режим на «Питч» (кнопка Presentation)
3. Нажать «Загрузить документ» → выбрать текст выступления
4. Нажать кнопку микрофона → запустить пайплайн
5. Нажать «Начать синхронизацию»
6. Начать говорить — приложение будет показывать где вы находитесь

Сценарий 3: Анализ после встречи

1. Во время звонка приложение автоматически записывает
2. После остановки пайплайна появляется диалог:
   «Какие отчёты создать?»
3. Выбрать нужные отчёты (Резюме, Анализ ошибок, и т.д.)
4. Нажать «Создать и отправить»
5. Через 2-3 минуты PDF-отчёт придёт на email

Сценарий 4: Обучение новых сотрудников

1. Загрузить в базу знаний все инструкции и регламенты
2. Включить «Авто-обогащение» в настройках KB
3. Новый сотрудник проводит звонки с приложением
4. AI подсказывает правильные ответы на основе KB
5. После каждой встречи — отчёт «Анализ ошибок»
6. С каждой встречей база знаний обогащается Q&A парами

Сценарий 5: Использование с корпоративной базой знаний

1. Настройки → База знаний → Внешний RAG API
2. Указать URL корпоративного RAG-сервиса
3. Указать API-ключ
4. Выбрать приоритет «Сначала внешний»
5. Проверить подключение → ✓ Подключено
6. Теперь AI будет искать ответы в корпоративной базе

6. FAQ

Приложение не слышит звук из видеозвонка

Проверьте, что дали разрешение Screen Recording: Системные настройки → Конфиденциальность → Запись экрана → Teleprompter ✓
Источник аудио должен быть «Системный звук» (Настройки → Аудио)
Убедитесь, что звук в видеозвонке не на мьюте
Проверьте индикатор уровня звука — полоса должна двигаться

Нет ответов от AI, только транскрипт

Проверьте API-ключ: Настройки → Поставщики → Проверить подключение → должно быть ✓
Система отвечает только на вопросы. Утверждения игнорируются. Попробуйте задать явный вопрос: «Какие у вас цены?»
Проверьте логи: если в статусе «Ошибка» — кликните для деталей

Ответы AI не учитывают мои данные

Убедитесь, что файлы добавлены в базу знаний: Настройки → База знаний → должно быть «Проиндексировано N файлов»
Проверьте что RAG включён (переключатель в настройках KB)
Если исходные файлы изменились — нажмите «Пересобрать индекс»

При обновлении приложения пропали данные

API-ключи хранятся в системном Keychain — они не пропадают при обновлении
База знаний хранится в папке данных приложения — она не пропадают при обновлении

Как добавить файлы в базу знаний?

Сначала запустите пайплайн (кнопка микрофона)
Затем: Настройки → База знаний → Добавить файлы
Выберите файлы (md, txt, csv, json)
Дождитесь сообщения «Проиндексировано N из N файлов»
Добавлять нужно только один раз — данные сохраняются

Можно ли использовать бесплатную модель?

Да — установите Ollama, скачайте модель (например llama3), и в настройках Providers укажите ключ не нужен — приложение определит Ollama автоматически.

Горячие клавиши

Клавиша	Действие
`Cmd+Shift+S`	Показать/скрыть overlay (глобальная)

Версия документа: 0.2.2

Индивидуальный предприниматель Шинкаренко Андрей Александрович

ОГРНИП: 315595800025579

ИНН: 590401203802

ОКПО: 195150279

Адрес: 614089, Пермский край, г. Пермь, ул. Бердичевская, д. 122

Телефон: 8 800 505-92-28

Email: info@monostudio.dev

Расчётный счёт: 40802810120000820865

ООО "Банк Точка", БИК 044525104, к/с 30101810745374525104