Перейти к содержанию

L2-06 — Извлечение данных в таблицу

практик

Бухгалтерия попросила собрать таблицу по 47 контрагентам. Раньше — день. Теперь — три минуты.

Это самый «вау-эффектный» сценарий работы с Claude. Берёшь папку с 30, 50, 100 документами — договорами, актами, счетами, должностными — и получаешь на выходе готовую Excel-таблицу: контрагент, ИНН, сумма, дата, срок, нужные тебе поля.

Раньше эту работу выполнял стажёр или младший бухгалтер. Открывал каждый документ, копировал, вставлял, опять открывал. Десятки часов, ошибки от усталости. Теперь это одна команда.

Разминка, не подглядывая: чем поиск Claude по папке отличается от поиска Windows?


Чем извлечение отличается от поиска

В прошлом уроке (L2-05) мы искали документы по условию: где встречается X. Это про отбор.

Извлечение — про структуру. Не «найди где», а «собери в таблицу». Открыть каждый документ, вытащить нужные поля, разложить по столбцам.

Поиск ищет иголку в стоге. Извлечение — превращает весь стог в аккуратно упакованную таблицу, по которой потом можно работать в Excel.

Обычно эти задачи идут парой: сначала поиск отбирает нужные файлы, потом извлечение делает по ним таблицу. Но можно и сразу извлечение по всей папке — если документы однотипные.


Базовая формула запроса

Самая полезная команда для папки документов выглядит так:

«В папке N документов типа [тип]. Из каждого вытащи [перечисление полей]. Собери в таблицу. Если поля нет в документе — поставь прочерк. Сохрани как Excel-файл "имя.xlsx".»

Главное — точно перечислить поля. Не «реквизиты», а конкретно: «полное наименование контрагента», «ИНН», «КПП», «расчётный счёт», «сумма с НДС», «дата подписания», «срок действия».

Чем конкретнее ты называешь поле — тем точнее Claude его вытащит. Если скажешь «сумма» — он может вытащить то, что найдёт первым (а в документе бывает и сумма с НДС, и без, и аванс, и итог). Если скажешь «итоговая сумма с НДС в рублях» — попадёт точно.


Стандартные наборы полей по типам документов

Чтобы не изобретать заново, вот рабочие шаблоны.

Договоры: - Номер договора, дата подписания - Полное наименование сторон, ИНН/КПП каждой - Предмет договора (одной строкой) - Сумма (с НДС/без НДС) - Срок действия, дата окончания - Условия оплаты (предоплата/постоплата/срок) - Пеня за просрочку (ставка) - Подсудность

Акты выполненных работ / акты сверки: - Номер акта, дата - Период - Стороны - Сумма с НДС, сумма без НДС, НДС отдельно - Наличие подписи и печати (да/нет) - Содержание работ или сальдо

Счета и счета-фактуры: - Номер, дата - Поставщик и покупатель с реквизитами - Перечень товаров/услуг (или одной строкой суть) - Сумма с НДС, без НДС, НДС - Срок оплаты

Должностные инструкции: - Должность, подразделение - Прямой руководитель - Список основных обязанностей - Требования к образованию и опыту - Кому подчиняется, кем замещается

Входящие письма / заявления граждан: - Дата получения, от кого - Контакты заявителя - Суть обращения (одной строкой) - Требуемый ответ (срок, форма) - Категория (жалоба, запрос, предложение)

Скопируй любой набор в запрос — это половина дела.


Куда сохранить результат

У Claude три варианта вывода, и для каждого свой случай.

Markdown-таблица в чате. Когда строк до 20–30 и нужно глазами посмотреть результат. Удобно для быстрого просмотра, но в Excel надо вручную копировать.

Excel-файл (.xlsx). Когда таблица идёт в работу: отдать руководителю, отправить бухгалтерии, фильтровать дальше. Скажи: «сохрани результат в файл сводная.xlsx» — Claude создаст файл в папке, спросит разрешение, ты подтвердишь.

CSV. Когда планируешь дальше работать с этим в другой системе (1С, банк-клиент, импорт в CRM). CSV проще принимают как импорт.

Я в 90% случаев прошу сразу xlsx — и потом открываю в Excel.


Что Claude вытаскивает хорошо, что не очень

После опыта на сотнях документов вырисовывается картина.

Хорошо вытаскивает: ИНН, КПП, ОГРН, номера договоров, даты в любом формате, полные наименования юрлиц, основные суммы, фамилии, должности, контактные данные.

Вытаскивает с оговорками: банковские реквизиты (длинные счета иногда обрывает на одной цифре), сложные многосоставные суммы (когда сумма дана и с НДС, и без, и прописью), условия с несколькими вариантами («или то, или это»).

Стабильно слабее: рукописные пометки на полях, печати и подписи как факт наличия (нужно открыть глазами), цифры из таблиц внутри PDF плохого качества.

Поэтому когда речь о деньгах и реквизитах — первые 5–10 строк таблицы проверяй глазами с исходниками. Если совпало — дальше можно доверять. Не совпало — корректируй запрос.


Кейс — 30 актов сверки за квартал

Каждый квартал я собирал таблицу актов сверки для главного бухгалтера: контрагент, ИНН, период, сальдо на начало, сальдо на конец, есть ли расхождения. Раньше открывал каждый акт, переписывал в Excel. Полный рабочий день, ошибки потом.

В этом квартале — положил все 32 акта (Word и PDF) в папку «сверка-q1», открыл Claude:

«В папке "сверка-q1" — 32 акта сверки с контрагентами за первый квартал. Из каждого вытащи: контрагент (полное наименование), ИНН, период (с-по), сальдо на начало периода в нашу пользу или их пользу, сальдо на конец периода в нашу пользу или их пользу, наличие расхождений (да/нет), сумма расхождения если есть. Собери в таблицу. Если у акта нет подписи контрагента — отметь это в отдельной колонке. Сохрани как "сверка-q1.xlsx".»

4 минуты — файл готов. 32 строки, ровные данные, отдельная колонка «без подписи» — там стояло «да» у 6 актов.

Эти 6 актов я отправил менеджерам на дозапрос подписи. Расхождения нашлись у 4 контрагентов — тоже сразу в работу.

Главбух получил таблицу за обедом — обычно она приходила к вечеру следующего дня. Молча кивнул.

Сэкономлено не время. Сэкономлены силы — то, что я уже не вернусь к этим актам, не буду их перечитывать, не буду в них путаться. Они в таблице, таблица в работе.


Что делать с дефектными документами

В реальности папка никогда не идеальная. Несколько типичных проблем и как Claude с ними справляется.

Часть документов на одном языке, часть на другом. Скажи: «если документ на английском — переводи поля на русский, в таблице должны быть русские значения». Справится.

Разные шаблоны актов от разных контрагентов. Это норма — Claude поищет нужные поля в любом шаблоне. Если в каком-то акте поля нет вообще — поставит прочерк, не выдумает.

Скан вперемешку с текстовыми. Точность по сканам ниже, но Claude пометит, какие строки таблицы из сканов. Эти строки потом перепроверишь руками.

Документ совсем нечитаемый. Бывает: акт с пятном на ИНН, акт в виде фотографии под углом. Claude напишет: «в этом файле не удалось вытащить такие-то поля, файл такой-то, причина такая-то». Прочерки в таблице — и пометка для тебя.


Бояться нечего

Исходные файлы не меняются. Извлечение — это чтение. Новый файл (xlsx) создаётся рядом, с твоего разрешения и с предпросмотром.

Содержимое не уходит наружу. Документы обрабатываются у Anthropic, не сохраняются, не идут в обучение (Pro). Подробности — L4-01.

Финансовые данные перепроверяй. Это правило не из паранойи, а из практики: ошибки на бухгалтерских таблицах больно стоят. Проверь первые строки, проверь итоги в Excel формулами после получения — и всё в порядке.

Шаблон запроса можно сохранить. Если ты собираешь такую таблицу регулярно (каждый квартал, каждый месяц) — сохрани свой запрос в текстовом файле в папке. В следующий раз скопируешь без переделки. Дальше, в Уровне 3 (про скиллы), мы научимся это делать ещё аккуратнее.


Что попробовать прямо сегодня

30 минут — и у тебя на руках первая полностью автоматизированная сводка по своим документам.

  1. Выбери тип документа, который у тебя есть в количестве: акты, договоры, счета, заявления — что угодно
  2. Собери 10–20 таких файлов в новую папку (можно с почты, можно с диска)
  3. Составь свой набор полей — что бы ты вытаскивал руками
  4. Открой папку в VS Code, запусти Claude
  5. Попроси: «В папке N документов. Из каждого вытащи: [перечень полей]. Собери в Excel-таблицу. Если поля нет — прочерк. Сохрани как сводная.xlsx.»
  6. Открой файл, сверь первые 5 строк с исходниками
  7. Если всё хорошо — у тебя готовый шаблон, который повторишь в следующий раз

Что дальше

Извлекать данные научились. Дальше — перевод и пересказ. Английский отчёт от партнёра, длинная статья эксперта, регламент на 80 страниц — как получить короткую выжимку или перевод за минуту.

Это особенно полезно тем, кому в работе попадаются иностранные материалы или просто слишком много длинного текста, который надо «понять и забыть».


А у тебя есть рутина «собрать таблицу из кучи однотипных бумаг»? Что это и как часто?


💬 Обсудить в сообществе ВК