ETL-конвеєр для списку виборців в Індії

Список виборців Індії: ETL з перевіркою даних та транслітерацією

Компанія Apriori Data звернулася до нас із завданням зібрати список виборців з усієї Індії. Клієнту потрібні були дані з кожного штату і адміністративного підрозділу. Нам потрібно було не просто зібрати, а й очистити, стандартизувати та перевірити ці дані, звіряючи їх з інформацією з India Post.

Оскільки дані в реєстрах були доступні на 22 різних мовах, нам довелося також зробити їхню транслітерацію на англійську. Завдання полягало в тому, щоб усе це об’єднати в один файл, який можна було б легко оновлювати щороку.

Виклики проєкту зі списком виборців в Індії

ETL проєкт по збору даних про виборців в Індії

Обробка 1 мільярда записів — це серйозний виклик. Для цього потрібна серйозна обчислювальна потужність і багато місця для зберігання. Крім того, ми мали зробити так, щоб дані швидко витягувалися, оновлення проходили без збоїв, і вся інформація була повною.

Ми зіткнулися з даними, які були в різних форматах і на різних мовах. Більшість записів були в PDF, але також були фотографії рукописних виборчих форм, написаних мовами, з якими звичайні OCR-інструменти не справляються.

Щоб переконатися в точності даних, ми звіряли інформацію від виборчих органів Індії із записами з India Post. Перевірка імен і адрес виборців виявилася досить непростою через різні формати й структури даних.

Ми працювали з даними виборців на 22 мовах, кожна з яких специфічна для різних штатів і територій Індії. Найбільші складнощі були з Пенджабом, бо OCR не могли розпізнати текст на зображеннях. Ми зберегли оригінальну мову, але також переклали дані на латиницю. Цей процес вимагав лінгвістичних знань та складних алгоритмів транслітерації.

Як ми зібрали онлайн-список виборців Індії

Збір даних

Ми розробили спеціальні модулі, щоб зібрати списки виборців з NVSP Індії у форматі PDF і зображень від виборчих органів по всій країні.

Навчання машин

Ми співпрацювали з лінгвістами, щоб створити алгоритми, які навчили наші машини розуміти та обробляти 22 індійські мови.

Витяг даних

Ми написали код для витягування даних з PDF і використали OCR-технологію для отримання інформації з зображень виборчих форм.

Стандартизація даних

Після витягнення даних ми їх очистили, стандартизували і транслітерували, щоб все було в єдиному форматі.

Перевірка даних

Щоб переконатися в точності інформації, ми звірили стандартизовані дані з іменами та адресами з India Post.

Щорічні оновлення

Ми слідкуємо за оновленням списків виборців і вносимо зміни в базу, щоб включити останню інформацію від виборчих органів та India Post.

Знайдіть свою ідеальну модель обслуговування

Як компанія, що спеціалізується на технологіях великих даних, ми пропонуємо індивідуальні рішення для будь-якого бізнесу. Давайте разом визначимо, яка модель найкраще підійде вашій організації.

Технології, які ми використовували в проєкті

AWS

.NET

Tesseract OCR

Результати проєкту зі збору даних про виборців Індії

Наш клієнт тепер має централізовану цифрову базу даних виборців Індії, яка містить понад один мільярд записів з 36 джерел. Дані доступні як рідними мовами, так і в транслітерації на англійську. Цей файл включає 63 повністю перевірені та нормалізовані поля даних:

Ім'я виборця
Ім'я родича
EPIC номер
Адреса
Вік
Стать
Рік народження
Рік перегляду виборчого списку
Назва виборчої дільниці

Проєкт Intsurfing для перевірки статусу виборчого посвідчення Індії

Перетворіть великі дані на ваші можливості

Зв'яжіться з нами сьогодні. Ми розглянемо ваш проєкт, надамо індивідуальне рішення та кошторис, і почнемо працювати, як тільки ви погодитесь.

Зв'яжіться з нами

Заповніть форму з проєктними даними, щоб ми могли запропонувати вам персоналізоване рішення.

Full name

Company

Phone number

Subject

About your project