Интернет издание "СИБ.ФМ"
16 апреля по всему миру в тринадцатый раз прошёл «Тотальный диктант». Количество участников с каждым годом увеличивается, но растёт и нагрузка на тех, кто проверяет тексты: им всё сложнее вручную обрабатывать результаты. Поэтому в 2016 году организаторы акции решили провести эксперимент и обработать результаты проверки при помощи высоких технологий. Корреспондент Сиб.фм побывал в офисе компании «Атапи Софтвер», чтобы посмотреть, какой путь проходят работы — от парт участников до итоговой оценки за диктант.
В 2016 году для желающих написать диктант организовали более двух тысяч площадок по всему миру — в Китае и США, в самолёте и под водой. После того как участники отложили ручки, «за кулисами» акции начинается напряжённая работа по проверке работ и выставлению оценок.
На каждой площадке координаторы собирают работы, пересчитывают, упаковывают, присваивают стопке работ с одной площадки индивидуальный код и отправляют в проверочные пункты командам филологов. Только в Новосибирске таких команд четыре — в НГУ, НГПУ, НГТУ и РАНХиГС. На каждом из пунктов после диктанта трудятся 15 экспертов-филологов, проверяя орфографию и пунктуацию. При этом проверяющие не знают кодов площадок, что гарантирует участникам анонимность.
Одновременно с тем, как филологи проверяют работы (каждую смотрят два специалиста, а если работа претендует на пятёрку, то три), волонтёры переносят результаты в базу данных, чтобы скорее опубликовать оценки. Именно на этом этапе возникают трудности.
С каждым годом, вслед за ростом числа участников, растёт число ошибок обработки, и написавшие диктант не могут узнать свою оценку. Это человеческий фактор — базу данных диктанта с именами, кодовыми словами и результатами проверки волонтёры составляют вручную, перебивая информацию с бланков в электронные таблицы. Разумеется, возникают ошибки и опечатки, и работы теряются.
— Участники вводят свои данные на сайте и — иногда по своей вине, когда сами забывают, иногда по нашей вине, когда мы допустили ошибку — не могут найти результат и начинают отчаянно нам писать, — рассказывает региональный координатор «Тотального диктанта» Дарья Мейзер.
По словам организаторов, в прошлом году c ошибками было обработано около 10 % работ. Только в Новосибирске 200 волонтёров вручную отыскивали и перепроверяли почти 700 работ на разных площадках. В Москве же запросов было больше двух тысяч.
Поэтому в 2016 году новосибирские организаторы решили автоматизировать этап обработки текстов, чтобы снизить количество ошибок и ускорить процесс. Свою помощь «Тотальному диктанту» для решения этой задачи предложила компания «Атапи», которая уже 15 лет разрабатывает и внедряет программное обеспечение для автоматизированного ввода документов и данных.
— У нас есть сотрудники, которые из года в год пишут «Тотальный диктант», и от них пошла инициатива помочь с решением проблемы ввода, — объясняет руководитель компании «Атапи» Сергей Боровой, — Для подобных целей существует программа российской компании ABBYY под названием FlexiCapture. Мы настроили её так, что она теперь умеет находить те места на бланке, где написаны имя, количество ошибок и кодовое слово, считывать найденные в них рукописные буквы и распределять значения по полям базы данных.
Команда «Атапи» помогла организаторам разработать специальный бланк для «Тотального диктанта», который помогает ускорить процесс обработки. Поля, куда участники вносят свои данные, а проверяющие пишут количество ошибок, выделены зелёным цветом. При обработке сканер его отбрасывает, оцифровывая только ячейки с необходимой информацией.
Автоматизация не только исключает ошибку со стороны организаторов, но и впервые даёт участникам возможность увидеть свою проверенную работу. Если раньше посмотреть свои ошибки можно было, только придя в проверочный пункт, то сейчас участникам достаточно правильно ввести имя и пароль, и сайт «Тотального диктанта» покажет не только оценку, но и изображение проверенной работы с пометками проверяющих.
Бланки с работами пропускают через скоростной потоковый сканер — он прямо на глазах сканирует первую стопку из 55 работ. Сканирование и обработка одной такой стопки занимает 15 минут, а среднее время на последующую визуальную проверку одного листа с работой — около пяти секунд.
При сканировании каждому бланку присваивается номер. Затем бланки сегментируются по площадкам — то есть каждой площадке присваивается определённое количество бланков, а к каждой анкете прикрепляются данные, извлечённые из неё.
Затем результаты передаются в специальную программу, с которой работают волонтёры-верификаторы. Цель верификаторов — отследить ошибки, которые допущены программой при распознавании текста. Например, программа распознала букву «ч» как «и» — верификатор видит ошибку и исправляет её вручную. Однако, несмотря на необходимость верификации, такая обработка результатов всё равно гораздо быстрее полностью ручной обработки: по самым скромным оценкам, автоматизация сократит сроки обработки результатов в полтора раза на пилотном этапе, а в дальнейшем процесс ускорится в три-пять раз.
Автоматически составляется база данных с именами участников, количеством их ошибок и кодовыми словами. К ним приложены сканы работ, выстроенные в нужном порядке, если участник использовал дополнительные бланки.
Затем базу данных с результатами загружают на сайт. Уже на сайте работе присваивается оценка, так как проверяющие филологи выставляют только количество ошибок.
Сейчас в офисе «Атапи» обрабатывают 3 200 работ, которые уже проверили в НГУ и НГТУ. Пока над ними работают двое штатных сотрудников компании, но вскоре на помощь придут волонтёры — уже не 200, а всего несколько человек.
— Такими темпами мы закончим в ближайшую пару дней, но пока дедлайн выдачи результатов мы поставили, как обычно, после 20 апреля, чтобы перестраховаться, — объясняет Дарья Мейзер.
Пока автоматизация «Тотального диктанта» находится в фазе эксперимента, и так обрабатывают только работы из Новосибирска. Однако в будущем организаторы планируют с помощью компании «Атапи» распространить эту практику на всю Россию, а затем и на все страны, где пишут «Тотальный диктант».
источник >>>