Как картографировать открытые данные
Одна из причин, почему мы любим карты — это потому, что благодаря им можно получить намного больше информации, чем из обычной таблицы. А ведь существуют тысячи документов Excel, HTML-таблиц в Википедии и подготовленных госорганами CSV-таблиц, которые могут рассказать много чего интересного. И для того, чтобы извлечь из этих данных полезную информацию, всего-то и нужен любопытный человек вроде вас, который выделит, скопирует и вставит эти данные в BatchGeo. Вы можете пользоваться полученной картой самостоятельно либо поделиться полученным результатом со своими друзьями, сотрудниками или более широким кругом людей.
Работать с открытыми данными намного проще, чем вы думаете. Эта статья подробно расскажет вам о работе с такими данными на примере одного из списков из Википедии, в котором собрана информация о самых высоких зданиях мира. Это лишь один из тысяч списков в энциклопедии, составленных её редакторами. Ниже мы покажем как получить необходимый набор данных, очистить его и снизить его объём, разместить данные на карте и поделиться результатом со всем миром (или только с выбранными вами людьми).
Скопируйте данные с Википедии
Данные о самых высоких зданиях размещены в Википедии в виде стандартной HTML-таблицы. Разместив курсор в начале таблицы, нажав левую кнопку и проведя мышкой в левый нижний угол таблицы вы сможете выделить всю таблицу. В некоторых случаях заголовок таблицы — это гиперссылка, поэтому возможно вам придётся начать выделение за пределами таблицы.
Когда все данные будут выбраны, скопируйте их в буфер обмена, нажав Ctrl+C (Cmd+C на компьютере Mac). Теперь выделенный фрагмент может быть вставлен в программу для работы с электронными таблицами, например Excel или Numbers. Хотя это не обязательно — теоретически, у вас должно получиться вставить эти данные даже в простой текстовый файл, а то и вовсе непосредственно в BatchGeo.
В нашем примере в составе данных остались следы посторонних ссылок на материалы Википедии и сильно форматированный текст, поэтому данные придётся немного почистить. Вместо простой вставки данных (то есть нажатия комбинации клавиш Ctrl+V в ОС Windows или Cmd+V на компьютере Mac), перейдите в меню редактирования и нажмите «Специальная вставка» (Paste Special). В таком случае можно выбрать вариант «Текст», в результате чего мы получим текст без форматирования.
Тем не менее, небольшая «доочистка» всё равно нужна и в следующем разделе мы расскажем, как это сделать при помощи Excel.
Очистка данных Wikipedia
Сохранив данные о самых высоких зданиях в документе Excel, их можно будет слегка подкорректировать перед отправкой в систему BatchGeo. Например, если мы хотим получить максимально чистые данные, то, поскольку данные начинаются со второй строки, первую строку можно полностью удалить. Это позволит нам отсортировать информацию, прежде чем «вытягивать» географически значимые данные при помощи BatchGeo.
Первая строка таблицы всегда должна содержать заголовки, которые BatchGeo использует для отображения метаданных на карте (конечно, если вы этого хотите). Проверьте, чтобы заголовки соответствовали тому, что вы хотите показать своим пользователям и что в них отсутствуют лишние данные (например внутренние ссылки Википедии). В нашем примере нужно удалить ссылки [A][9] из заголовка «Building» (Здание).
Для удаления всех ссылок в квадратных скобках воспользуемся функцией Excel «Найти и заменить» и поиском с использованием подстановочного знака. Нажмите меню «Правка» и выберите пункт «Заменить». Введите в поле поиска [*] и оставьте поле замены пустым. * — это подстановочный знак и в этом случае будет найден весь текст в квадратных скобках. Нажимайте «Найти далее», а потом «Заменить» при каждом совпадении, которое вы хотите удалить. Можно попробовать применить функцию «Заменить все», но такой вариант несколько рискован, поскольку можно удалить больше данных, чем вы планировали.
После обработки данные выглядят довольно неплохо. При желании можно было бы ещё раз прибегнуть к функции «Найти и заменить» для удаления ненужных нам обозначений метров «m» и футов «ft», но BatchGeo в любом случае сможет распознать их в качестве чисел для последующего группирования. Если хотите, то сейчас наступает самый подходящий момент для изменения порядка столбцов. BatchGeo отображает метаданные в том же порядке, в котором они расположены в таблице, в порядке слева направо (колонки слева отображаются первыми). Если вас вполне устраивает то, что вы видите на экране, то вы готовы к созданию карты простым способом — при помощи сервиса BatchGeo.
Создайте свою карту
Когда все данные подготовлены, настаёт пора для самой интересной части. Выделите все ячейки с данными, нажав на верхнюю левую и протянув курсор до самой нижней правой ячейки. Как вариант, вы можете нажать букву с обозначением первого столбца над строкой заголовка и потянуть курсор вправо, выделяя все столбцы и данные под ними. Когда нужные данные будут выбраны, скопируйте их в буфер обмена, нажав Ctrl+C (Cmd+C на компьютере Mac).
Загрузите главную страницу BatchGeo. Если в вашей таблице не более 250 строк данных, то чтобы бесплатно опробовать наш сервис для геокодирования вам даже не нужно создавать аккаунт. Прямо на главной странице вы увидите поле для данных — вставьте в него ваши данные с помощью комбинации клавиш Ctrl+V (или Cmd+V на компьютере Mac). После этого нажмите кнопку «Проверка и настройки», которая позволит вам выбрать определённые дополнительные функции BatchGeo.
Поскольку здания разбросаны по всей планете, значение поля «Регион» лучше установить на «Весь мир». Поле «Город» должно быть выбрано правильно, также BatchGeo выбирает первый столбец «Rank» (Место в рейтинге) в качестве значения для группировки по умолчанию. Если хотите, можете изменить настройки группировки и настроить расширенные функции. Либо просто нажмите кнопку «Создать карту», чтобы начать процесс геокодирования, который, как правило, занимает всего пару секунд.
Вы увидите предварительный просмотр своей карты с возможностью выбора маркеров и группирования на основе метаданных. Нравится, что у вас получилось? Нажмите «Сохранить и продолжить», после чего вы сможете указать название своей карты и ввести свой адрес электронной почты для получения возможности редактировать карту в дальнейшем. Также вы сможете указать, является ли ваша карта общедоступной, что требуется для определённых функций, например возможности встраивать карту.
Поделитесь своей картой
BatchGeo предоставляет ряд встроенных возможностей для совместного использования карт и обмена информацией. Для новичков годится самый простой способ: скопировать URL-адрес из строки поиска в браузере. Каждая карта имеет свой уникальный адрес. Выделите адрес, начинающийся с batchgeo.com/map/ и и скопируйте его (Ctrl+C или Cmd+C). После этого вы можете вставить (Ctrl+V or Cmd+V) URL-адрес в электронное письмо, сообщение в мессенджер, твит или любое другое средство пересылки информации.
Помимо этого, мы предлагаем функцию встраивания карт, при помощи которой вы сможете вставить свою карту в любую веб-страницу, например в свой блог. Вы можете встраивать как полноценные интерактивные Google Карты, так и простые значки, которые являются эскизом изображения на карте и ведут на полную версию карты. BatchGeo предоставляет код для каждого варианта вставки на странице редактирования карты, а также в электронном письме, которое вы получите, если укажете свой адрес электронной почты при сохранении карты.
Найдите другие источники открытых данных
Теперь, когда вы увидели насколько просто позаимствовать данные в Википедии и создать на их основе карту в сервисе BatchGeo, вы наверняка захотите найти и другие данные для подобных проектов. Много чего интересного можно найти на странице Wikipedia is the List of Lists, где содержатся ссылки на обработанные данные, как например, рассмотренный нами список самых высоких зданий. Не каждый список содержит информацию, связанную с местоположением объектов или непосредственно готов для копирования и вставки, но вы наверняка найдёте множество данных, представляющих потенциальный интерес для картографирования.
Также можно поискать в различных архивах данных, таких как каталог данных Data.gov. При помощи функции поиска можно сделать выборку только из документов Excel или CSV. В описание документа вы сможете узнать, содержит ли он данные о местоположении или нет. В некоторых документах в архиве Data.gov содержатся координаты с указанием широты и долготы. Сервис BatchGeo способен использовать эти координаты вместо адреса, названия города или других данных о местоположении.
Перенося открытые данные на карту, вы помогаете людям увидеть историю под совершенно иным углом, открывая информацию лежащую в основе картины. Созданные карты вы можете использовать сами, либо поделиться ими с общественностью, создав публичную карту. Начните уже сейчас и совершенно бесплатно.