Вместо данных: Решение на Номер 74 из ГДЗ по Русскому языку за 5 класс: Разумовская М.М.

Содержание

Отмена автоматической замены чисел датами

Microsoft Excel предварительно программируется, чтобы упростить ввод дат. Например, 12/2 изменяется на 2-дек. Это очень неприятно, если вы вводите что-то, что не хотите менять на дату. К сожалению, отключить эту возможность не получится. Однако существует несколько способов обойти это.

Предформатация ячеек, в которые нужно ввести числа, в виде текста. В этом случае Excel не будет пытаться изменить то, что вы вводите в даты.

Если нужно ввести всего несколько чисел, можно сделать так, чтобы Excel не превнося их в даты, введите:

  • Пробел перед вводом числа. После нажатия ввод пробел останется в ячейке. (См. заметки)

  • Апостроф (‘) перед вводом числа, например ’11-53 или ‘1/47. Апостроф не отображается в ячейке после нажатия ввода.

  • Нуль и пробел перед вводом дроби, например 1/2 или 3/4, чтобы они не менялись, например, на 2-янв или 4-мар. Введите 0 0 1/2 или 0 3/4. Ноль не остается в ячейке после нажатия ввод, и ячейка становится типом дробного числа.


  1. Выйдите из ячеек, в которые нужно ввести числа.

  2. Нажмите клавиши CTRL+1 (1 в строке чисел над клавишами QWERTY), чтобы открыть формат ячеек.

  3. Выберите тексти нажмите кнопку ОК.

  1. Выберите ячейки, в которые необходимо ввести числа.

  2. Щелкните Главная > Числовой формат > Текст.


Примечания: 

  • Рекомендуется использовать апостроф вместо пробела для ввода данных, если вы планируете использовать функции подменю для данных. Такие функции, как ПОИСКПОЗ и ВПР, не учитывают апострофы при вычислении результатов.

  • Если число в ячейке выровнено по левому краю, обычно это означает, что оно не отформатировано как число.

  • При введении в ячейку числа с буквой «е», например 1e9, оно автоматически преобразуется в научное число: 1,00E+09. Чтобы избежать этого, введите перед числом апостроф: ‘1e9

  • В зависимости от введенного числа в левом верхнем углу ячейки может появиться маленький зеленый треугольник, указывающий на то, что число хранится как текст ,что для Excel является ошибкой. Не обращайте внимание на треугольник или щелкните его. Слева появится поле. Щелкните поле, а затем выберитеигнорировать ошибку , из-за чего треугольник будет отопуститься.


Дополнительные сведения


Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.


Вместо 24 JOIN в SQL запросе — реализация в графовой базе данных / Хабр

Многие не знают, что некоторые сложные для написания и неэффективные для выполнения SQL-запросы можно легко выразить и эффективно выполнить в графовой базе данных. Это справедливо даже для тех, кто уже знает, что графовые алгоритмы являются наиболее эффективным, а иногда и единственным решением для сложных бизнес-задач, таких как кластеризация пользователей (с использованием Лувенского алгоритма), поиск инфлюенсеров — людей или компаний (алгоритмом PageRank) или прогнозирование поведения пользователей для персональных рекомендаций (алгоритмом label propagation).

В этой статье мы опишем SQL запрос с 24 JOIN в корпоративный knowledge graph и покажем, что задачу можно решить в графовой базе данных — и это будет понятней, более легко поддерживаться и эффективно выполняться. Пример взят из проблемы, описанной в сообществе: https://community.tigergraph.com/

Рисунок 1. Схема реляционной базы данных для нашего примера

Высокоуровневое описание бизнес-вопроса звучит следующим образом: найти Сущности, которые имеют по крайней мере три определенных Отношения с другими Сущностями, а связанные Сущности, в свою очередь, также должны иметь по крайней мере 3 других указанных Отношения. Более конкретно, проблема состоит в том, чтобы найти каждую отдельную сущность X такую, чтобы:

X имеет отношение типа R1 с сущностью A, которая имеет

  • отношение типа R1 к любому объекту, И

  • отношение типа R2 к любому объекту И

  • отношение типа R3 к любому объекту

И X имеет отношение типа R2 к сущности B, которая имеет

  • отношение типа R2 к любому объекту И

  • отношение типа R3 к любому объекту , И

  • отношение типа R4 к любому объекту

И X имеет отношение типа R3 к сущности C, которая имеет

  • отношение типа R3 к любому объекту , И

  • отношение типа R4 к любому объекту, И

  • отношение типа R5 к любому объекту

Каждое из 12 условий связывает одну сущность с другой. Все сущности хранятся в одной таблице, поэтому мы неоднократно возвращаемся к этой таблице. Кроме того, полная проблема имеет условия для значений атрибутов сущностей. Если мы предложим конкретный запрос, показывающий отдельные сущности, а не таблицы, то он может выглядеть следующим образом:

Рисунок 2. Символическое представление SQL запроса

Этот запрос не настолько искусственен, как может показаться. Предположим, что сущности являются банковскими счетами, а отношения — это переводы с одного счета на другой. Такого рода древовидная схема может быть примером наслоения, метода, используемого при отмывании денег для сокрытия своей деятельности. Или это может быть отслеживанием Trickle-Down эффекта просачивания платежей, поступающих от сущности X — работодателя, фонда или государственного учреждения.

Этот контекст полезен для разработки и понимания SQL запроса, показаного ниже:

SELECT DISTINCT Entity.id
FROM Entity AS X
JOIN R1     AS R1_X ON Entity.id = R1_X.source
JOIN Entity AS A    ON A.id      = R1_X.target
JOIN R1     AS R1_A ON A.id = R1_A.source
JOIN R2     AS R2_A ON A.id = R2_A.source
JOIN R3     AS R3_A ON A.id = R3_A.source
JOIN Entity AS A1 ON R1_A.target = A1.id
JOIN Entity AS A2 ON R2_A.target = A2.id
JOIN Entity AS A3 ON R3_A.target = A3.id

JOIN R2     AS R2_X ON Entity.id = R2_X.source
JOIN Entity AS B    ON B.id      = R2_X.target
JOIN R2     AS R2_B ON B.id = R2_B.source
JOIN R3     AS R3_B ON B.id = R3_B.source
JOIN R4     AS R4_B ON B.id = R4_B.source
JOIN Entity AS B2 ON R2_B.target = B2.id
JOIN Entity AS B3 ON R3_B.target = B3.id
JOIN Entity AS B4 ON R4_B.target = B4.id

JOIN R3     AS R3_X ON Entity.id = R3_X.source
JOIN Entity AS C    ON C.id      = R3_X.target
JOIN R3     AS R3_C ON C.id = R3_C.source
JOIN R4     AS R4_C ON C.id = R4_C.source
JOIN R5     AS R5_C ON C.id = R5_C.source
JOIN Entity AS C3 ON R3_C.target = C3.id
JOIN Entity AS C4 ON R4_C.target = C4.id
JOIN Entity AS C5 ON R5_C.target = C5.id

WHERE
      Entity.attr1 = val1 AND
      Entity.attr2 = val2 AND
      Entity.attr3 = val3 AND

      A.attr1 = val4 AND
      A.attr2 = val5 AND
      A.attr3 = val6 AND

      A1.attr1 = valA AND
      A2.attr2 = valB AND
      A3.attr3 = valC AND
   	 
      B.attr1 = val7 AND
      B.attr2 = val8 AND
      B.attr3 = val9 AND

      B2.attr1 = valA AND
      B3.attr2 = valB AND
      B4.attr3 = valC AND
 
      C.attr1 = val10 AND
      C.attr2 = val11 AND
      C.attr3 = val12 AND

      C3.attr1 = valA AND
      C4.attr2 = valB AND
      C5.attr3 = valC

Обратите внимание, что в приведенном выше SQL-запросе к таблицам отношений содержится 12 JOIN’ов и еще 12 JOIN’ов (копий предыдущих) обратно к таблице Entity, а затем длинный набор условий для атрибутов различных сущностей.

Проблемы решения задачи с использованием SQL

Решение с 24 JOIN’нами в SQL сложно написать, понять и поддерживать. Фактически, у нас были значительные трудности с пониманием того, какая копия таблицы является какой, пока мы не сделали рисунок 2 с алиасами для каждой показанной таблицы. Также хорошо известно, что реляционным базам данных очень сложно выполнить несколько JOIN’ов в одном запросе. Такой запрос просто невозможен на больших таблицах.

Графовое решение со встроенным параллелизмом

Теперь мы покажем использование графовой базы данных со встроенным параллелизмом и графовым языком запросов,  на примере TigerGraph и языком запросов GSQL, для простого и эффективного решения подобных проблем.

Сначала мы перерисуем схему и представим её в виде графа. На графе каждая Сущность становится вершиной, нарисованной кругом, а каждое Отношение становится ребром, нарисованным линией, соединяющей две Сущности. Ребра также могут иметь свойства, такие как время, местоположение или вес, но в данном примере рёбра не имеют свойств. Хотя схема выглядит по-другому, предлагаемое графовое решение — это просто другое представление реляционного решения.

Рисунок 3. Схема графа нашего примера

Диаграмма схемы графа может выглядеть необычно, если вы не знакомы с графами. Схема говорит о том, что существует один тип Сущности, который имеет 3 атрибута (attr1, attr2 и attr3). Кроме того, существует пять типов Отношений — от R1 до R5 — каждое из которых соединяет Сущность с другой Сущностью с явным направлением.

Рисунок 4. Графовое представление запроса

Благодаря мощности и гибкости GSQL, существуют различные подходы к решению этой задачи. Ниже показан один из таких способов.

/* Начинаем со всех элементов */ 
Entities = {Entity.*};

/* Вычисляем сущности A, подходящие по условиям атрибутов и нисходящим отношениям.
Сначала отношения R1, потом сужаем выборку до тех, где есть отношения R2 и R3 */ 
A = select m from Entities:m-(R1)-:t   
			where m.attr1 == val4 and m.attr2 == val5 and m.attr3 == val6 
     		and t.attr1 == valA;
A = select m from A:m-(R2)-:t   where t.attr2 == valB;
A = select m from A:m-(R3)-:t   where t.attr3 == valC;

/* Вычисляем сущности B, подходящие по условиям атрибутов и нисходящим отношениям. 
Сначала отношения R1, потом сужаем выборку до тех, где есть отношения R2 и R3 */ 
B = select m from Entities:m-(R2)-:t   
			where m.attr1 == val7 and m.attr2 == val8 and m.attr3 == val9 
      		and t.attr1 == valA;
B = select m from B:m-(R3)-:t   where t.attr2 == valB;
B = select m from B:m-(R4)-:t   where t.attr3 == valC;

/* Вычисляем сущности C, подходящие по условиям атрибутов и нисходящим отношениям. 
Сначала отношения R1, потом сужаем выборку до тех, где есть отношения R2 и R3 */ 
C = select m from Entities:m-(R3)-:t   
			where m.attr1 == val10 and m.attr2 == val11 and m.attr3 == val12 
      		and t.attr1 == valA;
C = select m from C:m-(R4)-:t   where t.attr2 == valB;
C = select m from C:m-(R5)-:t   where t.attr3 == valC;

/* Вычисляем сущности X, подходящие по условиям атрибутов и нисходящим отношениям с A, B и C. 
Сначала делаем выборку по атрибутам и связям R1, потом делаем выборки X где есть отношения R2 и R3 */
X1 = select t from A:s-(R1)-:t   
			where t.attr1 == val1 and t.attr2 == val2 and t.attr3 == val3; 
X2 = select t from B:s-(R2)-:t; 
X3 = select t from C:s-(R3)-:t;

/* Для конечного результата - делаем пересечение выборок X */
Result = X1 intersect X2 intersect X3;
print Result;

Преимущества графового решения

Очевидно, что графовое решение намного проще в написании, чтении, понимании и сопровождении, чем один огромный SQL-запрос с 24 JOIN’нами. Графовое решение легко расширяется: позволяет выйти за рамки текущей «двухуровневой» проверки отношений без потери производительности и удобочитаемости.

Дальнейшее изучение

Один из лучших способов начать работу с графовой аналитикой — использовать TigerGraph Cloud. Это бесплатно, и можно создать учетную запись за несколько минут. Регистрируйтесь здесь.

Можно скачать сравнение производительности различных графовых баз данных: TigerGraph и Neo4j или TigerGraph и Amazon Neptune.

Вы также можете узнать больше о TigerGraph, присоединившись к нашему сообществу: https://community.tigergraph.com/.

Если хочется пообщаться на русском — пишите на [email protected]

Мы с нетерпением ждем ваших экспериментов.

В 5 раз больше данных с Apache NiFi вместо Storm: кейс от Cloudera

Apache Storm обычно сравнивают со другими популярными фреймворками потоковой аналитики больших данных: Spark и Flink. Однако для несложной обработки событий дата-инженер может заменить эти платформы более легким инструментом маршрутизации потоковых данных в виде Apache NiFi. Сегодня сравним Apache NiFi co Storm и разберем практический пример, когда предпочтительнее именно его для обработки пакетированных сообщения Kafka с помощью ориентированных на запись процессоров.

Потоковая обработка событий для дата-инженера: Apache NiFi vs Storm

Одним из главных достоинств Apache Storm является возможность обработки данных действительно в реальном времени – в отличие от Spark, здесь практически полностью отсутствует задержка. Впрочем, как и Spark, Storm реализует концепцию направленного ациклического графа (DAG) с представлением потокового приложения в виде топологии, позволяя обрабатывать более 1 миллиона кортежей в секунду на узел кластера. Однако, несмотря на развитие Storm, текущая версия которого, 2.2.0, выпущена в июне 2020 года, эта платформа также имеет недостатки. В частности, если необходимо обеспечить сохранение состояния (stateful) Storm-приложения и в точности однократную доставку сообщений (exactly once), следует использовать Trident API, который позволяет работать с микропакетами, как Apache Spark [1]. Кроме того, внутренние концепции Storm не так просты для понимания из-за особенностей узлов DAG-графа и взаимоотношений между ними: необходимо знать разницу между spaut и bolt, а также отношения между ними.

Поэтому для относительно простых случаев потоковой обработки событий дата-инженер может использовать Apache NiFi – популярный инструмент маршрутизации потоков данных в реальном времени с наглядным веб-GUI. С помощью готовых и собственных обработчиков (процессоров) можно в наглядно построить потоковый конвейер подобно топологиям Storm. В частности, процессор (processor) Apache NiFi можно рассматривать как аналог вычислительного узла DAG-топологии в Storm, называемого болт (Bolt). Благодаря наличию GUI, который упрощает взаимодействие пользователя с NiFi, можно создавать поток данных и отслеживать любые ошибки, а также показатели обработки сообщений, а также определять особенности движения успешно и неуспешно обработанных данных между процессорами. Например, направить потоковый файл в процессор регистратора в случае сбоя и автоматически завершить обрабатывающий процессор.

Таким образом, NiFi позволяет быстро создавать конвейеры обработки данных вместо довольно трудоемкого процесса разработки топологий Storm. Также развертывание NiFi в кластере проще, чем Storm, при сохранении отказоустойчивости и масштабируемости. Кроме того, в отличие от Storm, у которого есть узел Nimbus для развертывания топологии и узлы Supervisor, управляющие рабочими процессами, все узлы NiFi имеют схожие конфигурации и обеспечивают отказоустойчивость за счет автоматического выбора лидера из любого из доступных узлов [2].

Поэтому многие компании предпочитают выбирать более простые фреймворки вместо Apache Storm. В частности, известный вендор Big Data решений, корпорация Cloudera рекомендует вместо Storm аналогичный по возможностям фреймворк Flink или NiFi. Преимущества последнего особенно заметны в кейсах простой обработки событий в реально времени, когда потоки NiFi можно создать в веб-GUI за считанные часы вместо месяцев разработки Java-кода. Одни из таких кейсов мы и рассмотрим далее.

Ориентированные на запись процессоры и пакетирование сообщений Kafka: кейс Cloudera

Выбор между Storm и NiFi в рассматриваемом примере происходил в контексте других Big Data платформ: Kafka и HBase. В частности, клиентам Cloudera необходимо хранить огромные объемы данных, обрабатывать их в режиме реального времени или пакетно, чтобы далее передавать результаты аналитики другим приложениям. К примеру, согласованные данные нужно обрабатывать в течение дня. Сам конвейер построен следующим образом [3]:

  • внешнее приложение публикует события в разные топики Apache Kafka;
  • Storm или NiFi выполняет простые преобразования с этими данными и записывает результаты в HBase;
  • другие системы используют информацию из HBase для создания аналитических отчетов;
  • согласованные данные хранятся в HBase в окончательном виде (без изменения) не менее 2-х лет.

Ключевым вопросом замены Storm на NiFi была производительность без дополнительных затрат на оборудование. Изначально кластер Apache Storm включал 4 узла и этого оказалось более чем достаточно для NiFi, который показал пропускную способность в 4 раза больше. Причиной такой оптимизации потоковая парадигма NiFi. В рассматриваемом кейсе главным источником потоковых данных является платформа потоковой обработки событий Apache Kafka. Поэтому процессоры NiFi с ориентацией на запись (Record Oriented) показывают отличную пропускную способность для этого случая[3].

Напомним, Record Oriented процессоры впервые были представлены в Apache NiFi версии 1.2, чтобы упростить управление структурированными данными. Хотя FlowFile не привязывается к структуре данных, что делает этот фреймворк универсальным ко множеству сценариев использования, иногда привязка к формату необходима. Процессоры, ориентированные на запись, применяют набор десериализаторов (Record Readers) и сериализаторов (Record Writers) для эффективного чтения, преобразования и записи данных. Чтобы такой процессор, пользователь указывает схему каждого типа данных одним из следующих способов [4]:

  • найти в одном из трех поддерживаемых реестров схем от Apache NiFi, Hortonworks или Confluent. Ссылки схемы (имя и версия) определены в каждом потоковом файле как атрибут или закодированы в содержании.
  • задать в конфигурации самого сериализатора/десириализатора.

Возвращаясь к рассматриваемому примеру, отметим, что преобразования через процессоры JoltTransformRecord, ConvertRecord, QueyRecord, PartitionRecord и ScriptedTransformRecord используют записи. Это означает, что вместо обработки одного файла в каждом процессоре можно объединить несколько файлов в один FlowFile. Первоначальный DAG-граф из процессоров в NiFi выглядел так [3]:

  •  (Source) ConsumeKafka -> 
  • (Transform) ConvertAvroToJSON -> EvaluateJsonPath -> RouteOnAttribute -> SplitJSON -> TransformJSON -> MergeContent -> 
  • (Target) PutHBase

Эти 8 процессоров NiFi обеспечивали более 30 ГБ за 5 минут, что соответствует пропускной способности Storm. Однако, заменив некоторые процессоры из этого набора на ориентированные на запись аналоги, число узлов в DAG-графе немного сократилось:

  • (Source) ConsumeKafkaRecord -> 
  • (Transform) PartitionRecord -> RouteOnAttribute -> TransformRecord -> 
  • (Target) PutHBaseRecord

На первый взгляд кажется, что исключение 3-х процессоров (теперь их 5 вместо 8) – это несущественно. Однако, это упрощает и оптимизирует общее количество задач и ресурсов NiFi, которые могут быть потрачены на другие процессоры. Таким образом, пропускная способность конвейера выросла более чем в 5 раз, до 160 ГБ за 5 минут. Ключевую роль в этом сыграла возможность пакетирования нескольких сообщений Kafka с помощью параметров batch.size и linger.ms в один потоковый файл NiFi. При этом реестр схем для процессоров, ориентированных на запись, не использовался – вместо этого была разработана внутренняя служба контроллера схемы в NiFi. С помощью этого сервиса сериализаторы и десериализаторы NiFi собирали схемы данных централизовано из одного места.

Узнайте больше про администрирование и применение Apache NiFi для современной дата-инженерии на специализированных курсах для разработчиков, ИТ-архитекторов, инженеров данных, администраторов, Data Scientist’ов и аналитиков Big Data в нашем лицензированном учебном центре обучения и повышения квалификации в Москве:

Источники

  1. https://storm.apache.org/2020/06/30/storm220-released.html
  2. https://blog.maxar.com/earth-intelligence/2017/data-pipelines-with-nifi-as-a-storm-alternative
  3. https://blog.cloudera.com/replace-and-boost-your-apache-storm-topologies-with-apache-nifi-flows/
  4. https://medium.com/@abdelkrim.hadjidj/democratizing-nifi-record-processors-with-automatic-schemas-inference-4f2b2794c427

Восстановите резервные копии баз данных вместо баз данных нового сервера по умолчанию

Этап 6: Восстановите резервные копии баз данных вместо баз данных нового сервера по умолчанию

После установки WhatsUp Gold с базами данных по умолчанию, можно восстановить существующие базы данных.

Рекомендуется восстанавливать базу данных только с локального диска; восстановление базы данных из сети может вызвать проблемы с базой данных на сервере.

Для восстановления резервной копии баз данных вместо баз данных нового сервера по умолчанию:

  1. Восстановите базу данных WhatsUp Gold.
    1. В консоли WhatsUp Gold выберите . Открывается диалоговое окно Восстановить базу данных из.
    2. Найдите и выберите файл резервной копии, который был перемещен с существующего сервера WhatsUp Gold, затем нажмите .
    3. При запросе введите действительные учетные данные для учетной записи SQL в роли sysadmin и нажмите .

    При открытии диалогового окна, информирующего о необходимости остановки и перезапуска службы WhatsUp во время восстановления базы данных, нажмите .

  2. Восстановите базу данных Flow Monitor.
    1. В консоли WhatsUp Gold выберите . Открывается диалоговое окно Восстановить базу данных из.
    2. Найдите и выберите файл резервной копии, который был перемещен с существующего сервера WhatsUp Gold, затем нажмите .
    3. При запросе введите действительные учетные данные для учетной записи SQL в роли sysadmin и нажмите .

    При открытии диалогового окна, информирующего о необходимости остановки и перезапуска службы Flow Monitor во время восстановления базы данных, нажмите .

  3. Восстановите архивную базу данных Flow Monitor.
    1. В консоли WhatsUp Gold выберите . Открывается диалоговое окно Восстановить базу данных из.
    2. Найдите и выберите файл резервной копии, который был перемещен с существующего сервера WhatsUp Gold, затем нажмите .
    3. При запросе введите действительные учетные данные для учетной записи SQL в роли sysadmin и нажмите .

    При открытии диалогового окна, информирующего о необходимости остановки и перезапуска службы Flow Monitor во время восстановления базы данных, нажмите .

Big data вместо агронома, роботы вместо сборщиков: как технологии меняют сельское хозяйство: Статьи экологии ➕1, 21.07.2021

Машина компании Carbon Robotics для обнаружения и выжигания сорняков

Фото: Instagram / carbon_robotics

Одна из перспективных технологий — установка на разных участках поля датчиков, анализирующих состояние почвы и растений и передающих данные фермеру в режиме онлайн. Некоторые устройства сами решают проблему на основании собранной информации: например, если влажность почвы на конкретном участке не соответствует норме, включается система полива. Также датчики могут определить оптимальное время сбора урожая, проанализировав цвет плода или содержание в нем сахара.

Аналитики консалтинговой компании McKinsey отмечают — чтобы подобные системы работали, нужно устойчивое 5G-покрытие и стандарт сотовой связи для интернета вещей NB-IoT. Их использование позволит наладить обмен данными между почвой, оборудованием и менеджерами. Сейчас такие условия есть далеко не на всех фермах, но, по оценкам McKinsey, уже к 2030 году более или менее отвечающая современным требованиям связь будет доступна в 80% сельских регионов планеты.

И лишь в Африке ситуация заметно отличается: ожидается, что там современные стандарты связи покроют лишь около четверти территории.

Сенсоры вовсю применяются в животноводстве. Устройства помещаются на тело скота и считывают пульс животного, температуру, давление и другие характеристики. С помощью этой информации можно подобрать индивидуальный режим питания, быстро обнаружить больную особь и предотвратить заражение всего стада.

Систему, позволяющую контролировать физическое состояние свиней, разработали специалисты китайского холдинга Alibaba Group. При помощи датчиков программа отслеживает активность животных, их рост и развитие, вычисляет беременных самок. Благодаря разработке потомство одной свиньи увеличится на три поросенка в год, а неестественная смертность сократится на 3%.

К 2024 году рынок сельскохозяйственных беспилотников может превысить $1 млрд. Дроны уже активно применяются фермерами в Китае, масштабные пилотные проекты существуют в странах Африки. Федеральное управление гражданской авиации США еще в 2015 году одобрило использование беспилотного вертолета Yamaha RMAX для распыления пестицидов и удобрений. Дроны справляются с этой задачей в десятки раз быстрее людей.

С каждым годом летательные аппараты становятся все умнее. Они уже способны не только орошать и засеивать поля с воздуха, дроны также делают снимки местности в высоком разрешении, что позволяет фермерам заметить больные растения, а также вредителей еще до того, как они распространятся по всему полю. Беспилотники Нидерландского технического центра сельскохозяйственного и сельского сотрудничества используются африканскими фермерами для мониторинга засушливых участков и отпугивания птиц.

По оценкам аналитиков IT-гиганта IBM, среднестатистическая ферма каждый день может генерировать полмиллиона точек данных — при помощи сенсоров, дронов, спутниковых снимков и других технологий. Анализируя эту информацию, можно свести расходы к минимуму и при этом увеличить урожай. Сельское хозяйство, где активно используются инновации, а решения принимаются с опорой на большие данные, называется «точным». Ожидается, что эта отрасль будет расти на 13% в год и к 2027 году достигнет $12,9 млрд.

Получать доступ к данным фермерам помогают НКО. Так, международная организация Precision Development, которая использует IT-технологии для помощи нуждающимся, рассылает фермерам по всему миру персонализированные советы. Они учитывают, каким видом сельского хозяйства занимается фермер, в какой местности он живет, а иногда и данные о состоянии почвы и спутниковые снимки поля. В начале 2021 года рассылку советов получали 4,13 млн человек.

И не только следить, но и анализировать полученную информацию и выполнять определенные задачи. С помощью технологии компьютерного зрения умные устройства обрабатывают изображения с камер и сопоставляют со своими базами данных. Таким образом, например, можно выявить больное растение, определить зрелость плода, обнаружить засушливые участки.

Компьютерное зрение уже внедрено на рыбоводческих хозяйствах в Норвегии. Разработанная стартапом Aquabyte система обучена с помощью камер и искусственного интеллекта обнаруживать морских вшей — паразитов, из-за которых рыбные фермы терпят миллионные убытки.

Умные камеры Aquabyte

Фото: Facebook / Aquabyte / @aquabyteai

Развитие технологий GPS, компьютерного зрения и машинного обучения делает контроль человека за оборудованием необязательным. Один из крупнейших производителей сельхозоборудования, американская компания John Deere уже разрабатывает автономные тракторы. Машины подсоединены к интернету и, подобно автомобилям-беспилотникам, обходятся без водителя, ориентируясь по карте поля. Автономные устройства работают точнее и эффективнее, чем те, которыми управляет человек, — это помогает сэкономить топливо и увеличить урожайность.

Фермерам все сложнее найти сотрудников для сбора урожая и других временных работ — особенно при закрытых границах. И даже те, кого удалось нанять, зачастую работают не весь сезон. Проблему может решить искусственный интеллект. Израильская компания Tevel Aerobotics Technologies изобрела робота, который умеет собирать фрукты, причем только спелые. С помощью камеры он находит плод, анализирует его зрелость и величину и, если фрукт удовлетворяет заданным настройкам, аккуратно срывает его.

А еще роботы способны полоть сорняки. Машина компании Carbon Robotics использует компьютерное зрение, чтобы обнаружить сорняк, и лазер, чтобы выжечь его. Устройство работает автономно, без оператора, и за час может уничтожить до 100 тыс. сорняков, за день обработать 6-8 га земли. Для сравнения: бригада из 30 человек, работающих полный рабочий день, пропалывает за день 12 га.

Сейчас во всем мире от 100 до 150 млн ферм не имеют доступа к электричеству. Эксперты Всемирного экономического форума подсчитали, что если 50-75% хозяйств перейдут на возобновляемую энергию, то к 2030 году общий урожай увеличится на 300-530 млн тонн, это 4-5% всей сельскохозяйственной продукции мира. Кроме того, вместе с электричеством станут доступны системы охлаждения, а это поможет сохранить 10-15 млн тонн продуктов, которые иначе бы испортились.

Технология распределенного хранения данных позволяет отслеживать информацию о продукте в каждом звене цепочки поставок. Это помогает избегать нелегального производства (например, выращивания сельхозпродукции на месте незаконно вырубленных лесов), быстрее и эффективнее бороться с болезнями, передающимися через пищу, уменьшать количество мусора. Если бы блокчейн использовался в половине мировых цепочек поставок, это помогло бы уменьшить объем пищевых отходов на 1-2% к 2030 году.

Сеть супермаркетов Walmart использует блокчейн, чтобы контролировать жизненный цикл производства шпината и салата. Компания сотрудничает с сотней ферм, поставляющих салатные культуры, и обязательным условием для каждой из них было внедрить технологию, которая позволяет немедленно обнаруживать портящиеся листья.

Свободных сельскохозяйственных земель становится все меньше, а население планеты растет. Поэтому все активнее развивается сити-фермерство. Современные технологии позволяют задавать точные условия для размещения ферм в помещениях и получать урожай круглый год. Один акр (4 047 кв. м) городской фермы обеспечивает столько же продукции, сколько 4-5 акров под открытым небом.

Ученые подсчитали, что потенциально в городе можно выращивать до 10% всех бобовых культур, корнеплодов и овощей. При этом сити-фермерство решает и другие задачи. За счет озеленения крыш и увеличения зеленых зон сокращается эффект городского острова тепла (температура в городах выше, чем на прилегающей территории, это плохо влияет на самочувствие людей и других обитателей городов). Растения, высаженные на фермах, задерживают ливневые потоки, основной источник загрязнения рек и ручьев. Сити-фермы повышают способность зданий поддерживать комфортную температуру — так экономится энергия, необходимая для отопления и охлаждения. Если учесть все эти и другие экосистемные услуги, городское сельское хозяйство можно оценить в $160 млрд в год.

Подписывайтесь на наш канал в Яндекс.Дзен.

Анастасия Кокоурова

Росаккредитация нацелена продолжить работу по переходу на обмен юридически значимыми данными вместо традиционных документов

Об этом сообщил заместитель начальника управления – начальник отдела информационных технологий Управления административно-финансовой деятельности и развития информационных технологий Росаккредитации Юрий Бутенко на конференции СЭД/ECM и BPM Day.

Основные направления информационных потоков Федеральной службы по аккредитации предполагают возможность  отказа от традиционного бумажного документооборота: работа с входящей корреспонденцией осуществляется в электронном виде, а значительная часть внутренних и исходящих документов формируемся полностью по безбумажной технологии.

Сведения по запросам органов государственной власти предоставляются через СМЭВ, сведения реестров Росаккредитации для граждан и организаций размещены на официальном сайте Службы, а информационное взаимодействие участников национальной системы аккредитации осуществляется в единой среде ФГИС Росаккредитации.

Проект по переходу на электронный документооборот в Росаккредитации стартовал в 2012 году. Его результатом стало создание единой информационной среды для центрального аппарата ведомства и всех его территориальных управлений: обеспечен  юридически значимый документооборот с квалифицированной электронной подписью, реализован мобильный доступ к СЭДО с переносных устройств, Росаккредитация является участником межведомственного электронного документооборота (МЭДО) с электронной подписью, а также обеспечена интеграция систем с электронным сервисом отправки писем «Почты России».

Это позволило, в том числе, реализовать специальные электронные сервисы для посетителей сайта Росаккредитации и заявителей при получении государственных услуг – «Электронная экспедиция» и «Электронная приемная».

В ходе выступления Юрий Бутенко поделился опытом организации проектов по внедрению решений СЭД в деятельность органов государственной власти.

Вместо паспорта лицо и голос. Единой биометрической системе нашли новое применение

Биометрические данные россиян начали собирать в 2018 году и тогда предполагалось, что они позволят гражданам удалённо получать финансовые услуги в любом банке. Власти решили на этом не останавливаться и теперь собираются использовать биометрию в каршеринге и такси. Где ещё голос и лицо заменят россиянам паспорт?

Биометрия появится в такси и каршеринге

Проект постановления правительства, подготовленный Минцифры, предполагает, что водители легковых такси получат возможность идентифицироваться с помощью биометрических данных. То есть, вместо паспорта достаточно будет улыбнуться в камеру и произнести несколько слов, и система сможет понять, кто перед ней.

Биометрическая идентификация. Фото: bbva.es

Аналогичную идентификацию смогут проходить те, кто решил взять в аренду автомобиль на срок до 24 часов с поминутной тарификацией (каршеринг). Также применение биометрии расширят на вход в организации, доступ к территории которых контролируется пропускной системой.

Если правительство одобрит предложение Минцифры, то изменения вступят в силу с 1 января 2022 года.

Создавали для банков

Единая биометрическая система (ЕБС) заработала в середине 2018 года. Первоначально она создавалась для того, чтобы россияне могли удалённо получать финансовые услуги в любых банках.

Единожды сдав свои биометрические данные (слепок голоса и снимок лица) в ЕБС, гражданин может в любое время открыть вклад или получить кредит в выбранном банке, не посещая его офис и не являясь его клиентом.

Недоверие россиян и хитрость Сбербанка

Но прошло уже три года, а слепков в Единой биометрической системе не так много, как ожидали власти. Это отчасти связано с недоверием россиян к сбору любой личной информации — они боятся, что их персональные сведения «утекут» на чёрный рынок.

Утечка персональных данных. Фото: plusworld.ru

Сыграл свою роль в недостаточной наполняемости ЕБС и Сбербанк, который собирал биометрические данные россиян, но оставлял их себе. В итоге база крупнейшего банка страны сейчас в разы больше, чем у ЕБС. А те, кто решился и сдал слепки в Сбербанке, могут удалённо получать услуги только в этой кредитной организации. Впрочем, банк обещал передать собранные данные в единую систему, но пока этого не сделал.

Биометрию развивают в других отраслях

Чтобы как-то популяризировать Единую биометрическую систему, на создание которой потрачено немало бюджетных денег, власти решили пойти другим путём. Они начали продвигать биометрию в другие отрасли. Так, в начале текущего года «Ростелеком» (оператор системы) совместно с ВТБ запустил проект по биометрической идентификации посетителей «ВТБ Арены».

В начале лета глава Минцифры Максут Шадаев на заседании комитета Совета Федерации по экономической политике рассказал, что обсуждаются пилоты по использованию биометрических данных при регистрации пассажиров в аэропортах. Тогда же он заявил, что Россия стала одной из первых стран, где биометрические данные стали аналогом паспорта, что закреплено в законе.

Обычная регистрация на рейс занимает много времени. Фото: znaj.ua

Буквально в начале этого месяца Минцифры опубликовало ещё один проект постановления правительства, который разрешает использовать биометрию на итоговой аттестации в вузах. Чуть раньше, в марте кабинет министров утвердил постановление, разрешающее вузам использовать биометрические данные при дистанционном прохождении промежуточной аттестации.

Стоит подчеркнуть, что все эти биометрические новации не являются обязательными. То есть, если человеку привычнее использовать паспорт, арендуя автомобиль или регистрируясь на рейс, то он сможет так делать и дальше.

Правда и мифы о деньгах в OK

Подписаться

Рекомендуемые автокредиты

Сумма

от 300 000 ₽ до 5 000 000 ₽

Срок

от 1 года 1 мес. до 5 лет

Первый взнос

Любой

Первоначальный взнос не нужен. Ставка не зависит от КАСКО. Минимум документов.

Сумма

от 300 000 ₽ до 7 000 000 ₽

Первый взнос

от 20%

Сумма

от 100 000 ₽ до 1 000 000 ₽

Срок

от 1 года до 5 лет

Первый взнос

Любой

Сумма

от 50 000 ₽ до 5 000 000 ₽

Срок

от 2 лет до 5 лет

Первый взнос

Любой

Сумма

от 50 000 ₽ до 7 500 000 ₽

Срок

от 1 года до 5 лет

Первый взнос

Любой

Заставить аналитику данных работать на вас — а не наоборот

Революция в области анализа данных , происходящая в настоящее время, может изменить то, как компании организуют, работают, управляют талантами и создают ценность. Это начинает происходить в некоторых компаниях — обычно в тех, которые получают большую выгоду от своих данных, — но это далеко от нормы. Причина проста: генеральные директора и другие руководители высшего звена, единственные люди, которые могут управлять более широкими бизнес-изменениями, необходимыми для полноценного использования передовой аналитики, стараются не попасть в эзотерические «сорняки».«С одной стороны, это понятно. Сложность методологий, растущее значение машинного обучения и огромный масштаб наборов данных заставляют руководителей высшего звена «оставить это экспертам».

Но это тоже ошибка. Продвинутая аналитика данных — квинтэссенция бизнеса . Это означает, что генеральный директор и другие руководители высшего звена должны иметь возможность четко сформулировать свою цель, а затем претворить ее в действие — не только в аналитическом отделе, но и во всей организации, где будут использоваться идеи.

В этой статье описаны восемь важнейших элементов, способствующих ясности цели и способности действовать. Мы убеждены, что лидеры, обладающие сильной интуицией в отношении того и другого, не просто лучше подготовятся к тому, чтобы «надрать шины» на свои аналитические усилия. Они также могут более эффективно решать многие из критических и дополнительных задач, стоящих перед высшим руководством: необходимость обосновать даже самые высокие аналитические устремления на традиционных принципах ведения бизнеса, важность развертывания ряда инструментов и найма подходящего персонала, а также необходимость применения точных показателей и постановки сложных вопросов.(Для получения дополнительной информации см. «Прямой разговор о больших данных».) Все это, в свою очередь, увеличивает шансы на улучшение корпоративной производительности за счет аналитики.

Хотите узнать больше о нашей практике бизнес-технологий?

В конце концов, дело в производительности, а не в чистых наборах данных, интересных шаблонах или убийственных алгоритмах. Продвинутая аналитика данных — это средство для достижения цели. Это инструмент распознавания, позволяющий идентифицировать, а затем реализовать ответ , определяющий ценность.И у вас гораздо больше шансов найти значимый результат, если вы четко понимаете цель ваших данных (которые мы рассматриваем в первых четырех принципах этой статьи) и способы использования, для которых вы будете использовать свои данные (наше внимание в следующие четыре). Этот ответ, конечно же, будет выглядеть по-разному в разных компаниях, отраслях и регионах, чья относительная сложность с продвинутой аналитикой данных повсюду. Однако какой бы ни была ваша отправная точка, идеи, полученные с помощью аналитики, должны лежать в основе подхода вашей организации к постоянному определению и повышению производительности по мере развития конкурентной динамики.В противном случае вы не заставите продвинутую аналитику работать на вас.

«Целевые» данные

«Лучшая производительность» будет означать разные вещи для разных компаний. И это будет означать, что разные типы данных должны быть изолированы, агрегированы и проанализированы в зависимости от конкретного варианта использования. Иногда точки данных трудно найти, и, конечно же, не все точки данных равны. Но наибольшую ценность имеют точки данных, которые помогают достичь вашей конкретной цели.

Задавайте правильные вопросы

Точный вопрос, который должна задать ваша организация, зависит от ваших наиболее информированных приоритетов.Ясность важна. Примеры хороших вопросов включают «как мы можем снизить затраты?» или «как мы можем увеличить доходы?» Еще лучше будут вопросы с более подробным изложением: «Как мы можем повысить продуктивность каждого члена нашей команды?» «Как мы можем улучшить качество результатов для пациентов?» «Как мы можем радикально сократить время вывода на рынок для разработки продукта?» Подумайте, как вы можете согласовать важные функции и домены с наиболее важными вариантами использования. Перейдите к реальным бизнес-примерам и выясните, в чем заключается ценность.В реальном мире жестких ограничений на средства и время аналитические упражнения редко окупаются расплывчатыми вопросами, такими как «какие закономерности показывают точки данных?»

Одна крупная финансовая компания совершила ошибку, предприняв именно такую ​​бессрочную работу: она стремилась собрать как можно больше данных, а затем посмотреть, что получится. Когда появились результаты, которые были малоинтересными, но несущественными с финансовой точки зрения, команда переориентировалась. Благодаря сильной поддержке C-Suite, он сначала определил четкую формулировку цели, направленную на сокращение времени на разработку продукта, а затем назначил для этой цели конкретную единицу измерения, ориентированную на скорость принятия клиентами.Более четкая направленность помогла компании представить успешные продукты для двух сегментов рынка. Точно так же другая известная нам организация погрузилась в аналитику данных, сначала создав «озеро данных». Он потратил непомерно много времени (по сути, годы) на то, чтобы сделать данные чистыми, но почти не задумывался о том, какими должны быть варианты использования. С тех пор руководство начало прояснять самые насущные вопросы. Но мир редко бывает терпеливым.

Если бы эти организации поставили вопрос «лошадь» перед тележкой для сбора данных, они наверняка добились бы эффекта раньше, даже если бы только часть данных была готова к добыче.Например, известная автомобильная компания сразу же сосредоточилась на фундаментальном вопросе о том, как увеличить свою прибыль. Затем ему пришлось признать, что величайшей возможностью было бы сократить время разработки (а вместе с ним и затраты), понесенные при согласовании его функций проектирования и проектирования. Как только компания определила эту ключевую точку фокусировки, она приступила к глубокому пониманию десяти лет истории НИОКР, что привело к значительному сокращению времени разработки и, в свою очередь, увеличению прибыли.

Думайте по-настоящему мелко. . . и очень большой

Самый маленький край может иметь самое большое значение. Рассмотрим нижеприведенную замечательную фотографию с Олимпийских игр 1896 года, сделанную на стартовой линии 100-метрового забега. Только один из бегунов, Томас Бёрк, принял теперь стандартную четырехочковую стойку. Гонка началась в следующий момент, и 12 секунд спустя Берк взял золото; время, сэкономленное его позой, помогло ему в этом. Сегодня спринтеры, естественно, начинают таким образом — хорошая аналогия для делового мира, где соперники быстро перенимают передовой опыт, а конкурентные преимущества трудно поддерживать.

Мы стремимся предоставить людям с ограниченными возможностями равный доступ к нашему сайту. Если вам нужна информация об этом контенте, мы будем рады работать с вами. Напишите нам по адресу: [email protected]

Разнообразие позиций бегунов в беге на 100 метров на первых современных Олимпийских играх, прошедших в Афинах в 1896 году, удивляет современного зрителя. Томас Берк (второй слева) — единственный бегун, сидящий на корточках, что сегодня считается лучшей практикой. Это преимущество помогло ему выиграть одну из двух своих золотых медалей на Играх.

Хорошая новость заключается в том, что умные игроки все еще могут улучшить свои показатели и снова вырваться в лидеры. Простые исправления маловероятны, но компании могут определить небольшие отличия, которые нужно усилить и использовать. Влияние аналитики «больших данных» часто проявляется в тысячах — или более — постепенно небольших улучшений. Если организация сможет разделить единый процесс на мельчайшие части и внедрить усовершенствования там, где это возможно, отдача может быть огромной. И если организация может систематически комбинировать небольшие улучшения в более крупных, нескольких процессах, отдача может быть экспоненциальной.

Практически все, что делают компании, можно разбить на составные части. GE встраивает датчики в свои авиационные двигатели, чтобы отслеживать каждую часть их работы в режиме реального времени, что позволяет ускорить настройку и значительно сократить время простоя при техническом обслуживании. Но если это звучит как рубеж высоких технологий (а это так), подумайте о потребительских товарах. Мы знаем ведущую компанию по производству потребительских товаров, которая стремилась увеличить маржу на одном из своих известных брендов для завтраков. Он разбил весь производственный процесс на последовательные этапы, а затем, с помощью расширенной аналитики, тщательно изучил каждый из них, чтобы увидеть, где он может раскрыть ценность.В данном случае ответ был найден в духовке: регулировка температуры выпечки на крошечную долю не только улучшила вкус продукта, но и удешевила его производство. Доказательство тому — еда — и улучшение прибылей и убытков.

Когда серию процессов можно разделить, проанализировать и повторно синхронизировать вместе в системе, которая больше вселенная, чем атом, результаты могут быть еще более убедительными. Крупный производитель стали использовал различные аналитические методы для изучения критических этапов своей бизнес-модели, включая планирование и прогнозирование спроса, закупки и управление запасами.В каждом процессе он изолировал критически важные факторы ценности и уменьшил или устранил ранее не обнаруженные недостатки, что привело к экономии от 5 до 10 процентов. Эти достижения, которые основывались на сотнях небольших улучшений, сделанных возможными благодаря аналитике данных, стали быстро расти, когда производитель смог связать свои процессы воедино и передавать информацию на каждом этапе практически в реальном времени. Рационализировав сквозную систему, связывающую планирование спроса на всех этапах через управление запасами, производитель добился экономии, приближающейся к 50 процентам — в общей сложности сотни миллионов долларов.

Примите табу

Остерегайтесь фразы «мусор на входе, мусор на выходе»; эта мантра настолько укоренилась в деловом мышлении, что иногда мешает выявлению идей. На самом деле полезные точки данных бывают разных форм и размеров — и часто скрыты внутри организации в виде отчетов об обслуживании с произвольным текстом или презентаций PowerPoint, среди множества примеров. Однако слишком часто количественные группы игнорируют вводимые данные из-за низкого качества, непоследовательности или устаревания и игнорируют несовершенную информацию, потому что она не воспринимается как «данные».”

Но мы можем прийти к более точным выводам, если будем использовать более нечеткие вещи. В повседневной жизни — когда человек не создает, не читает или не реагирует на модель Excel — даже самый жесткий «количественный» анализатор обрабатывает большой объем качественной информации, большая часть которой мягкая и кажется табуированной для анализа данных. — недвоичным способом. Мы понимаем, что есть очень мало достоверных вещей; мы взвешиваем вероятности, размышляем о преимуществах и принимаем во внимание тонкие намеки. Подумайте, например, о приближении к очереди в супермаркет.Вы всегда ходите регистрировать четверых? Или вы замечаете, что сегодня один работник кажется более эффективным, один покупатель, кажется, держит наличные вместо кредитной карты, у одного кассира нет помощника, который помогал бы с упаковкой, а в одной тележке для покупок есть предметы, которые нужно будет сдать. отдельно взвешивать и упаковывать? Безусловно, все это мягкая «информация», и некоторые точки данных более сильны, чем другие. Но вы, вероятно, рассмотрели бы каждый из них и многие другие, когда решали бы, куда катить тележку. Тот факт, что четвертая строка двигалась быстрее всего последние несколько раз, не означает, что сегодня она будет двигаться быстрее всего.

Фактически, хотя точные и исторические данные ценны, у них есть свои пределы. Одна компания, которую мы знаем, испытала их после внедрения надежного процесса утверждения инвестиций. Понятно, что помня о разбазаривании капитальных ресурсов, руководство настаивало на том, что оно не будет финансировать новые продукты, не дожидаясь исторической и доказуемой информации для поддержки прогнозируемой рентабельности инвестиций. К сожалению, такая строгость привела к слишком долгим периодам запуска — настолько длинным, что компания постоянно ошибалась в расчете рынка.Только после ослабления ограничений данных и включения более мягких исходных данных, таких как отраслевые прогнозы, прогнозы экспертов по продуктам и комментарии в социальных сетях, компания смогла получить более точное представление о текущих рыночных условиях и соответственно времени запуска продукта.

Конечно, ленты Twitter — это не то же самое, что телематика. Но то, что информация может быть неполной, основанной на предположениях или явно предвзятой, не означает, что ее следует рассматривать как «мусор».«Мягкая информация имеет ценность. Иногда это может быть даже необходимо, особенно когда люди пытаются «связать точки» между более точными входными данными или сделать наилучшие предположения на будущее.

Чтобы оптимизировать доступную информацию интеллектуальным и детализированным способом, компании должны стремиться к созданию надежной модели происхождения данных, которая идентифицирует источник каждого ввода и оценивает ее надежность, которая со временем может улучшаться или ухудшаться. Регистрация качества данных и методологий, используемых для его определения, — это не только вопрос прозрачности, но и форма управления рисками.Все компании конкурируют в условиях неопределенности, и иногда данные, лежащие в основе ключевого решения, могут быть менее достоверными, чем хотелось бы. Хорошо построенная модель происхождения может проверить надежность решения «годен / не годен» и помочь руководству решить, когда инвестировать в улучшение критически важного набора данных.

Соединяем точки

Понимание часто находится на границах. Подобно тому, как рассмотрение мягких данных может раскрыть новые идеи, объединение источников информации может сделать их еще более точными.Слишком часто организации анализируют один набор данных изолированно, но не принимают во внимание, что разные наборы данных передают вместе. Например, HR может иметь подробные данные о производительности сотрудников; операции, исчерпывающая информация о конкретных активах; и финансы, страницы резервных копий за отчетами о прибылях и убытках. Тщательное изучение каждого кэша информации, безусловно, полезно. Но дополнительное незадействованное значение может скрываться в оврагах среди отдельных наборов данных.

Поучительный пример дает одна промышленная компания.Основной бизнес использовал современную машину, которая могла выполнять несколько процессов. Это также стоило миллионы долларов за единицу, и компания купила сотни из них — вложения в миллиарды. Машины предоставляли лучшие в своем классе данные о производительности, и компания могла измерять и измеряла, как каждое устройство функционирует с течением времени. Не будет преувеличением сказать, что поддержание в рабочем состоянии машин было критически важным для успеха компании.

Даже в этом случае машины требовали более длительного и более дорогостоящего ремонта, чем ожидало руководство, и каждый час простоя сказывался на чистой прибыли.Хотя очень способная команда аналитиков, встроенная в операционную систему, тщательно проанализировала данные об активах, она не смогла найти надежную причину поломок. Затем, когда результаты производительности были рассмотрены в сочетании с информацией, предоставленной HR, стала ясна причина некачественного результата: машины не выполняли плановые профилактические проверки, потому что ответственный персонал отсутствовал в критические моменты. Реальной первопричиной были стимулы к оплате, а не технические характеристики оборудования.Простое исправление решило проблему, но она стала очевидной только при совместном изучении разных наборов данных.

От результатов к действию

Один визуальный элемент, который приходит на ум в случае предыдущей промышленной компании, — это диаграмма Венна: когда вы смотрите на два набора данных бок о бок, ключевой вывод становится ясным из-за наложения. А когда вы рассматриваете 50 наборов данных, выводы становятся еще более убедительными — если поиск разнообразных данных не создает чрезмерной сложности, которая фактически препятствует использованию аналитики.Чтобы избежать этой проблемы, лидеры должны подтолкнуть свои организации к применению многостороннего подхода к анализу данных. Если анализ выполняется разрозненно, если результаты не работают в реальных условиях или, что хуже всего, если выводы будут работать, но останутся неиспользованными, аналитическое упражнение не удастся.

Выполнить петли, а не строки

Аналитике данных нужна цель и план. Но, как говорится, «ни один боевой план не выдерживает контакта с противником». К этому мы бы добавили еще один военный подход — цикл OODA, впервые задуманный американским полковником Джоном Бойдом: цикл принятия решений: наблюдение, ориентация, решение и действие.Победа, как утверждал Бойд, часто является результатом того, как принимаются решения; сторона, которая быстрее реагирует на ситуации и точнее обрабатывает новую информацию, должна преобладать. Другими словами, процесс принятия решения представляет собой цикл или, вернее, динамическую серию циклов (экспонат).

Экспонат

Мы стремимся предоставить людям с ограниченными возможностями равный доступ к нашему сайту. Если вам нужна информация об этом контенте, мы будем рады работать с вами.Напишите нам по адресу: [email protected]

Лучшие в своем классе организации применяют этот подход для достижения своих конкурентных преимуществ. Google, например, настойчиво принимает решения, ориентированные на данные, встраивает отзывы потребителей в решения и быстро перерабатывает продукты, которые люди не только используют, но и любят. Подход «петли, а не линии» работает так же хорошо за пределами Кремниевой долины. Мы знаем, например, глобальную фармацевтическую компанию, которая отслеживает и отслеживает свои данные для выявления ключевых закономерностей, быстро вмешивается, когда точки данных предполагают, что процесс может отклониться от графика, и уточняет свою петлю обратной связи, чтобы ускорить испытания новых лекарств.Производитель бытовой электроники быстро перешел от сбора данных к «вычислениям» с помощью итеративного цикла моделирования, основанного на гипотезах. Сначала он создал временную архитектуру данных, построив три «фабрики идей», которые могли бы генерировать действенные рекомендации для наиболее приоритетных вариантов использования, а затем параллельно включил обратную связь. Все это позволило ранним пилотным проектам быстро добиться результатов, в основном за счет самофинансирования.

Оцифрованные точки данных теперь ускоряют циклы обратной связи.Используя передовые алгоритмы и машинное обучение, которое улучшается с анализом каждого нового ввода, организации могут запускать циклы, которые становятся быстрее и лучше. Но хотя машинное обучение во многом занимает свое место в любом наборе аналитических инструментов, это не единственный инструмент, который можно использовать, и мы не ожидаем, что он вытеснит все другие виды анализа. Мы упоминали круговые диаграммы Венна; люди, более склонные к трехсторонним формам, могут предпочесть термин «триангуляция». Но концепция по сути та же: чтобы прийти к более надежному ответу, используйте различные аналитические методы и комбинируйте их по-разному.

По нашему опыту, даже организации, которые создали современные алгоритмы машинного обучения и используют автоматизированные циклы, получат выгоду от сравнения своих результатов со скромным одномерным или многомерным анализом. На самом деле, лучшие петли связаны с людьми и машинами. Динамический, многоэтапный процесс принятия решений превосходит любой отдельный алгоритм — независимо от того, насколько продвинутый — за счет тестирования, повторения и мониторинга того, как качество данных улучшается или ухудшается; включение новых точек данных по мере их появления; и позволяя разумно реагировать на развитие событий.

Сделайте свою продукцию удобной и красивой

Хотя лучшие алгоритмы могут творить чудеса, они не могут говорить за себя в залах заседаний. А специалисты по обработке данных слишком часто не могут объяснить, что они сделали. В этом нет ничего удивительного; компании, нанимающие на технические должности, справедливо отдают предпочтение количественной экспертизе, а не навыкам презентации. Но помните о разрыве или столкнитесь с последствиями. Один известный нам производитель мирового класса нанял команду, которая разработала блестящий алгоритм ценообразования опционов для проектов НИОКР.Точки данных были тщательно проанализированы, анализ был интеллектуальным и надежным, а ответы были в основном правильными. Но руководители организации сочли конечный продукт несколько сложным и не использовали его.

В конце концов, все мы люди, и внешний вид имеет значение. Вот почему красивый интерфейс даст вам больше времени, чем подробные вычисления с неровной индивидуальностью. Вот почему элегантное, интуитивное удобство использования таких продуктов, как iPhone или термостат Nest, находит свое применение на предприятиях.Аналитика должна быть потребляемой, и лучшие в своем классе организации теперь включают дизайнеров в свои основные аналитические группы. Мы обнаружили, что сотрудники во всей организации лучше реагируют на интерфейсы, которые ясно показывают ключевые выводы и привлекают пользователей.

Создайте многопрофильную команду

Очень важно привлечь пользователей и задействовать в этом возможности разных людей в вашей организации. Аналитика — командный вид спорта. Решения о том, какой анализ использовать, какие источники данных использовать и как представить результаты, являются предметом человеческого суждения.

Собрать отличную команду — это все равно что создавать изысканное блюдо: вам нужно сочетание прекрасных ингредиентов и немного страсти. Ключевые члены команды включают специалистов по данным, которые помогают разрабатывать и применять сложные аналитические методы; инженеры с навыками в таких областях, как микросервисы, интеграция данных и распределенные вычисления; облачные архитекторы и архитекторы данных для предоставления технической и общесистемной информации; разработчики пользовательского интерфейса и креативные дизайнеры, чтобы продукты были визуально красивыми и интуитивно полезными.Вам также нужны «переводчики» — мужчины и женщины, которые объединяют ИТ и аналитику данных с бизнес-решениями и управлением.

По нашему опыту — и, как мы ожидаем, и по вашему — спрос на людей с необходимыми способностями явно превышает предложение. Мы также видели, что просто тратить деньги на решение проблемы, выплачивая премию за новых сотрудников, обычно не работает. Что дает комбинация: несколько стратегических сотрудников, обычно более высокопоставленных сотрудников, которые помогают руководить аналитической группой; в некоторых случаях — стратегические приобретения или партнерство с небольшими фирмами, предоставляющими услуги по анализу данных; и, особенно, набор и переподготовка нынешних сотрудников с количественным опытом для присоединения к внутренним аналитическим командам.

Мы знакомы с несколькими финансовыми учреждениями и крупными промышленными компаниями, которые использовали некоторые варианты этих путей для создания лучших в своем классе групп расширенного анализа данных. Ключевым элементом успеха каждой организации было понимание как пределов, которые можно ожидать от каждого отдельного человека, так и потенциала, которого может коллективно достичь заинтересованная команда с дополнительными талантами. Иногда можно встретить сотрудников «радужных единорогов», которые воплощают большую часть или все необходимые способности.Однако лучше создать сплоченную команду, состоящую из людей, которые в совокупности обладают всеми необходимыми навыками.

Это, конечно же, начинается с людей, находящихся на «острие копья» — тех, кто активно анализирует точки данных и проводит тщательную аналитику. Однако со временем мы ожидаем, что организации перейдут к модели, в которой люди, выполняющие различные функции, используют аналитику как часть своей повседневной деятельности. Уже сейчас нетрудно увидеть характеристики многообещающих сотрудников, ориентированных на данные: они — любопытные мыслители, которые могут сосредоточиться на деталях, вдохновляться двусмысленностью, демонстрировать открытость к различным мнениям и готовность повторять вместе, чтобы получить понимание, имеющее смысл, и стремятся к реальным результатам.Последний пункт очень важен, потому что ваша компания не должна проводить какой-нибудь крутой научный эксперимент (какой бы крутой ни была аналитика) в одиночку. Вы и ваши сотрудники стремитесь открыть для себя практические идеи — и обеспечить их использование.

Сделайте принятие вашим продуктом

Культура делает возможным усыновление. И с того момента, как ваша организация начинает свой путь к аналитике, всем должно быть ясно, что математики, данных и даже дизайна недостаточно: реальная сила приходит от принятия.Алгоритм не должен быть точечным решением — компании должны встраивать аналитику в операционные модели реальных процессов и повседневных рабочих потоков. Билл Клем, легендарный бейсбольный судья, как известно, сказал: «Ничего подобного, пока я не позвоню». Аналитика данных ничего не стоит, пока вы ее не воспользуетесь.

Мы видели слишком много прискорбных случаев, которые служат предостерегающими историями — от подробных (и дорогостоящих) сейсмологических прогнозов, которые не использовали бригадиры, до блестящих (и удивительно точных) индикаторов системы полета, которые игнорировали пилоты самолетов.В одном особенно ярком случае компания, которую мы знаем, казалось бы, объединила все воедино: у нее была четко определенная миссия по увеличению роста выручки, надежные источники данных, разумно взвешенные и добытые, звездная аналитика и проницательные выводы о возможностях перекрестных продаж. Был даже элегантный интерфейс в виде всплывающих окон, которые появлялись на экранах представителей call-центра, автоматически запускались программным обеспечением для распознавания голоса, чтобы предлагать определенные продукты в зависимости от того, что покупатель говорил в режиме реального времени.Совершенно блестяще — за исключением того, что представители продолжали закрывать всплывающие окна и игнорировать подсказки. Их зарплата больше зависела от быстрого ответа на звонки, а не от количества и типа продаваемых ими продуктов.

Однако, когда все объединяются и стимулы согласованы, результаты могут быть замечательными. Например, одной аэрокосмической компании нужно было оценить ряд вариантов НИОКР для своих продуктов следующего поколения, но она столкнулась с серьезными технологическими, рыночными и нормативными проблемами, которые сделали любой результат неопределенным.Некоторые технологические решения, казалось, предлагали более безопасные ставки в свете исторических результатов, а другие, высокопотенциальные возможности, казалось, появлялись, но еще не были доказаны. В сочетании с отраслевой траекторией, которая, казалось, смещалась от модели, ориентированной на продукт, к модели, ориентированной на услуги, ряд потенциальных путей и сложных «за» и «против» требовал ряда динамичных — и, конечно же, точных — решений.

Формулируя правильные вопросы, подвергая стресс-тестированию варианты и, что не в последнюю очередь, сообщая о компромиссах с помощью элегантной интерактивной визуальной модели, которая делает дизайнерские навыки красивыми и удобными, организация обнаружила, что увеличение инвестиций по одному пути НИОКР фактически сохранит три технологических варианта открываются на более длительный период.Это дало компании достаточно времени, чтобы увидеть, в каком направлении будет развиваться технология, и избежало наихудшего исхода, связанного с очень дорогим и очень неправильным выбором. Один из руководителей сравнил полученную гибкость с «выбором ставки на лошадь в начале скачек или, с премией, возможностью сделать ставку на лошадь в середине забега».

Это не совпадение, что этот счастливый конец завершился так же, как и началась инициатива: с участием высшего руководства.По нашему опыту, лучший показатель первого дня успешной программы анализа данных — это не качество имеющихся данных и даже не уровень квалификации персонала, а приверженность руководства компании. Перспектива высшего руководства помогает определить ключевые бизнес-вопросы, способствовать сотрудничеству между функциями, согласовать стимулы и настаивать на использовании аналитических данных. Расширенная аналитика данных — это замечательно, но ваша организация не должна работать только над внедрением инициативы расширенной аналитики.В конце концов, самое главное — заставить аналитику работать на вас.

Школа данных — Alteryx Week Совет № 1: Использование формул вместо очистки данных для очистки данных

Поскольку мы с товарищами по команде впервые пачкаем руки с Alteryx, я подумал, что сейчас самое время начать серию блогов, посвященную коротким советам, которые можно использовать на лету. Я должен сказать, что я новичок в Alteryx — я потратил на это сегодня больше времени, чем когда-либо прежде — так что я не обещаю ничего особенного, но, надеюсь, новички тоже сочтут это полезным ! При этом давайте начнем.

Проблема

Сегодня мы рассмотрим два инструмента: Data Cleansing и Formula . Инструмент очистки данных просто потрясающий: вы можете бросить в него практически любой уродливый набор данных, полный пробелов и случайных знаков препинания, и он немедленно удалит их за вас и выдаст красивый набор чистых чисел. Однако после того, как я использовал его пару раз сегодня, я столкнулся с двумя простыми проблемами:

  • Очистка данных — это очень тяжелый инструмент, требующий довольно большой вычислительной мощности, что делает его довольно медленным.Я обнаружил, что даже простые рабочие процессы, работающие с небольшими наборами данных, останавливались (минута кажется очень длинной, когда вы молча смотрите на экран компьютера).
  • Во-вторых, что еще более важно, очистка данных — не очень хороший инструмент. В примере, который мы рассмотрим сегодня, вы увидите, как с помощью инструмента очистки иногда можно удалить знаки препинания, которые вы, возможно, хотели сохранить — например, точки в десятичных числах, — делая ваши данные бесполезными к концу процесса.

Однако не бойтесь, поскольку вы можете легко обойти эти проблемы с помощью очень простого инструмента: формулы.

Пример, который мы рассмотрим в этом тематическом исследовании, довольно прост. Мы начнем с файла .csv, в котором все данные хранятся в одном столбце под названием Field_1 , и постепенно попытаемся разбить его на столбцы и строки, чтобы создать простой набор данных, содержащий информацию о странах и их ключевых разработках. индикаторы. Мы сосредоточимся на начальной части очистки, которая сыграет ключевую роль в обеспечении того, чтобы в конечном итоге мы получили правильный набор данных.

Начните с просмотра исходных данных.

Как видите, все данные в настоящее время хранятся в одном столбце, Field_1 . На скриншоте вы можете увидеть различные переменные, которые мы будем пытаться извлечь: Название страны , Код страны C , Название индикатора, Значение индикатора . Основная проблема, с которой мы будем иметь дело, — это очистка данных без удаления всех знаков препинания, чтобы десятичные числа внутри будущего столбца Indicator Value не преобразовывались в целые числа.Если бы мы запустили этот рабочий процесс и использовали Data Cleanser для удаления знаков препинания, наш окончательный результат — после разделения данных на ряд строк и столбцов — выглядел бы следующим образом.

Несмотря на то, что этот набор данных выглядит чистым, вы заметите, что все знаки препинания в столбце Значение были удалены, хотя многие из этих чисел должны быть десятичными.

Решение

Простое и быстрое решение этой проблемы, которое также ускорит рабочий процесс в 5-10 раз, — это инструмент «Формула».Вы можете использовать его для удаления всех ненужных знаков препинания из столбца Field_1 , но сохраните нужную пунктуацию! Все, что вам нужно сделать, это заменить инструмент Data Cleanser инструментом Formula в рабочем процессе и ввести следующую команду:

  • ReplaceChar ([Имя столбца], ‘” ‘,‘ ‘)
  • Это просто скажет Alteryx удалить все кавычки из указанного вами столбца. В моем примере имя столбца — Field_1 .Посмотрите на снимок экрана ниже, чтобы увидеть, как это выглядит!

Если я запущу свой рабочий процесс сейчас с помощью инструмента Формула вместо средства очистки данных, окончательные выходные данные, которые я получу, будут выглядеть следующим образом.

Как видите, числа в столбце Value больше не целые, а десятичные! Я наконец могу экспортировать этот набор данных и посмотреть, что я могу узнать из него с помощью Tableau.

Спасибо за настройку, скоро вы можете ожидать больше отличных советов от Alteryx!

Когда выбирать хранилище данных вместо базы данных для вашей компании

Огромный объем данных и информации, которые компания генерирует и потребляет сегодня, может стать организационным и логистическим кошмаром .Хранение данных, их интеграция и защита для обеспечения быстрого доступа к ним , быстрого и удаленного доступа. является одним из основополагающих принципов успешного управления любой компанией, как по производственным причинам, так и для возможности управлять. и дать эффективный ответ клиентам.

Хорошее управление большими данными — ключ к конкуренции на глобализированном рынке . С сотрудниками, поставщиками и клиентами, физически распределенными по разным городам и странам. , чем лучше обрабатываются данные в организации, тем выше ее способность реагировать на рыночный спрос и на своих конкурентов.

Базы данных в настоящее время являются незаменимой опорой для управления всей информацией, обрабатываемой организацией, которая хочет быть конкурентоспособной. Однако на определенном этапе развития компании, когда рост является устойчивым и целью является расширение, многие менеджеры и системные администраторы сомневаются в , следует ли им продолжать использовать систему баз данных , или они должны учитывать перейти к хранилищу данных . Когда самое подходящее время для перехода с одной системы хранения данных на другую?

По мере того, как компания начинает накапливать терабайты больших данных из нескольких источников, а рост вынуждает выполнять множество задач и анализ этой информации, разбросанность различных баз данных может стать большим конкурентным бременем .Необходимость запрашивать каждую базу данных независимо, без возможности беспрепятственного перекрестного анализа, составляет неэффективный, небезопасный, медленный и дорогостоящий .

Когда интегрированное хранение всех данных является насущной необходимостью для развития и расширения компании, ведущими системными аналитиками рекомендуется реализовать хранилище данных .

Что такое хранилище данных?

Хранилище данных (также известное как DWH) — это база данных, предназначенная для хранения, фильтрации, извлечения и анализа больших коллекций данных (поставщики, клиенты, маркетинг, администрация, человеческие ресурсы, банки и т. Д.)). Особенностью этих систем является то, что они специально разработаны для работы с большими данными, позволяя визуализировать и перекрестно анализировать информацию одновременно , без необходимости смешивать и консолидировать результаты из разных источников данных.

Хранилище данных предназначено для отделения процессов анализа больших данных и запросов (больше ориентированных на чтение данных) от транзакционных процессов (сфокусированных на записи). Таким образом, этот подход позволяет компании умножить свои аналитические возможности на , не влияя на ее транзакционные системы и повседневные потребности управления.

Хранилище данных — это очень рекомендуемый инструмент, если вы хотите убедиться, что неопытные пользователи в управлении системами и базами данных не подвергают риску информацию компании. Учитывая трехуровневую архитектуру, используемую в этих решениях, конечные пользователи DWH могут запрашивать свои хранилища данных, никоим образом не затрагивая и не влияя на работу системы.

Короче говоря, архитектура хранилища данных основана на трех уровнях:

  • Нижний уровень — это сервер, на котором данные загружаются и хранятся.
  • Промежуточный уровень — содержит механизм анализа, используемый для доступа к данным.
  • Верхний уровень — клиентский интерфейс, который представляет результаты анализа с помощью инструментов визуализации данных.
Преимущества хранилища данных

Если суммировать преимущества хранилища данных, то можно сказать, что это незаменимый инструмент для любой современной и амбициозной компании , поскольку он позволяет лицам, принимающим решения, быстро получать доступ к данным с помощью инструментов бизнес-аналитики, клиентов SQL и других аналитических инструментов. Приложения.Кроме того, они характеризуются:

  • Отделение обработки и анализа больших данных от транзакционных баз данных, что улучшает производительность обеих систем .
  • Консолидация больших данных из разных источников.
  • Повышение качества, согласованности и точности данных, обрабатываемых компанией, что приводит к более эффективному принятию решений ее управленческой командой.
  • Поскольку вся информация хранится в одном центральном хранилище, более высокое качество данных на равно гарантированному , а время, необходимое для создания отчетов и анализов, составляет оптимизировано .
  • Содействие устранению повторяющихся записей, ошибок и противоречивой информации.
  • Повышение согласованности внутренней отчетности за счет стандартизации и централизации источников данных, обрабатываемых различными отделами.
Основные различия между базой данных и хранилищем данных
База данных Хранилище данных
Предназначен для хранения данных из очень ограниченного числа источников. Предназначен для хранения данных из неограниченного количества источников.
Эффективен для обработки транзакционных операций. Эффективен для анализа и агрегирования больших объемов данных.
Его возможности для анализа и интеграции данных ограничены. Позволяет визуализировать данные и быстро извлекать отчеты из сложных данных.
Быстрое и менее затратное внедрение. Более дорогостоящее и трудоемкое первоначальное внедрение.
Идеально, чтобы увидеть текущее состояние компании. Идеальный инструмент для изучения развития компании и составления среднесрочных и долгосрочных прогнозов.
В облаке или на локальном сервере?

Хранилища данных

могут быть установлены на корпоративном сервере или в облачном хранилище . Последняя формула становится все более распространенной, поскольку она позволяет компаниям более практичным и масштабируемым образом удовлетворять растущую потребность в доступе ко все большему количеству данных.

Среди преимуществ наличия хранилища данных в облаке выделяются следующие:

  • Безопасность и защита данных на протяжении всего жизненного цикла. Поставщики облачных услуг должны вывести ежедневное обновление своих протоколов безопасности и резервного копирования на новый уровень.
  • Масштабируемость системы хранения намного проще.
  • DWH в облаке на дешевле , так как они не влекут за собой высоких первоначальных затрат на оборудование и лицензий на проприетарное программное обеспечение.
  • Установка и ввод в эксплуатацию хранилища данных в облаке обычно на быстрее .
  • Облачные сервисы легко подключают больше к другим сервисам в облаке, что, в свою очередь, приводит к повышению эффективности системы.

В то же время установка хранилища данных на локальном корпоративном сервере также имеет свои преимущества:

  • Облачные решения обычно основаны на серверах, которые находятся очень далеко от конечного потребителя, поэтому иногда может возникнуть небольшая задержка в просмотре данных, которую некоторые компании не могут себе позволить. Скорость и задержку на локальных серверах можно лучше контролировать изнутри , по крайней мере, в бизнес-случаях, которые ограничены определенным географическим местоположением.
  • Существует большего контроля над безопасностью серверов и доступом к данным, что для некоторых компаний является абсолютным приоритетом.
  • Если компания имеет высококвалифицированных ИТ-специалистов и современное оборудование , хранилище данных с полным внутренним управлением — лучший выбор.

Данные есть или данные есть? | Язык

Как сказать «данные»?

Спрашиваю только потому, что это спорный вопрос.Как и в случае с раздельными инфинитивами, неправильное восприятие этого слова в равной степени обидно и приятно. И поскольку мы пишем о данных каждый день, мы либо ошибаемся, либо очень правы.

The Wall Street Journal только что опубликовал этот пост в блоге, в котором он, наконец, решает отойти от данных «есть», говоря:

Большинство руководств и словарей по стилю согласились с использованием данных существительных с глаголами единственного или множественного числа, и мы присоединяемся к большинству.

Поскольку использование произошло от происхождения слова как латинского множественного числа от данного, глаголы в единственном числе теперь часто используются для обозначения совокупности информации: для подтверждения выводов имеется мало данных.

В противном случае, как правило, продолжайте использовать множественное число: данные все еще собираются.

Когда мы задали этот вопрос пару лет назад, многие из вас много раз обсуждали его в Twitter.

@jhugman Данные во множественном числе. Однако не уверены, что правильная «точка отсчета» прижится. Референдумы о латинских наклонениях принадлежат музеям.

@mkdDCC Нет в базе. Нам нужно расслабиться по поводу данных. Возможно, это плохая латынь, но мы не говорим по-латыни.

@DerekL Конечно, данные во множественном числе. А что не так с датумом для одного элемента данных?

@holizz Сингулярные данные раздражают тех же людей, которые считают разбитые инфинитивы нежелательными, — педантов, не разбирающихся в лингвистике.

Вот суть дела: строго говоря, данные — это термин множественного числа. То есть, если мы следуем правилам грамматики, мы не должны писать «данные есть» или «данные показывают», а вместо этого «данные есть» или «данные показывают».

Оксфордский словарь английского языка определяет это так:

В латинском языке данные представляют собой множественное число от данных, а исторически и в специализированных областях науки они также рассматриваются как множественное число в английском языке, принимая глагол множественного числа, поскольку в данных были собраны и классифицированы.Однако в современном ненаучном использовании, несмотря на жалобы традиционалистов, оно часто не трактуется как множественное число. Вместо этого оно рассматривается как неисчислимое существительное, подобное слову типа информации, которое обычно не может иметь множественного числа и в котором используется глагол в единственном числе. Такие предложения, как данные были (как и данные), собранные за несколько лет, теперь широко используются в стандартном английском языке.

Официальный взгляд Управления национальной статистики основан на традиционном подходе.В руководстве по стилю ONS для тех, кто пишет официальную статистику, сказано:

Слово данные — это существительное во множественном числе, поэтому напишите «данные есть». Датаум — единственное число.

Эндрю Гарратт из Королевского статистического общества говорит, что эта дискуссия восходит к 1920-м годам, и недавно он поднял свою голову после некоторых бурных дискуссий в информационном бюллетене общества. «У нас нет официальной точки зрения», — говорит он. «Статистики определенного возраста и определенного статуса называют их множественным числом, но такие люди, как я, используют его в единственном числе.»Журнал National Geographic тоже обсуждал это.

Что бы это ни стоило, я могу с уверенностью сказать, что это, вероятно, будет единственный раз, когда я когда-либо напишу слово» datum «в сообщении Datablog. Данные во множественном числе могут быть правильным но язык развивается, и мы хотим писать в терминах, понятных каждому — и это не кажется смешным.

Итак, перехожу к гуру стиля Guardian Дэвиду Маршу, который устанавливает правила использования языка в этих частях. Он говорит:

Это похоже на повестку дня, латинское множественное число, которое теперь почти повсеместно используется в единственном числе.Технически единственное число — это данные / повестка дня, но нам кажется, что выражение «данные есть» звучит все более и более гиперкорректно, старомодно и напыщенно.

И руководство по стилю Guardian выражает это так:

Data использует глагол в единственном числе (например, «повестка дня»), но строго во множественном числе; никто никогда не использует «повестку дня» или «данные»

Это наша точка зрения. Что вы думаете?

Данные мирового правительства

Искать данные правительства мира с помощью нашего шлюза

Можете ли вы что-то сделать с этими данными?

Flickr Размещайте свои визуализации и мэшапы в нашей группе Flickr или пишите нам по адресу datastore @ guardian.co.uk

Получите данные от А до Я
Больше в каталоге Datastore

Следуйте за нами в Twitter

3 причины использовать представления вместо таблиц в Power BI!

В последние месяцы меня часто спрашивали, следует ли использовать таблицы или представления при ИМПОРТ данных в Power BI. Я намеренно выделил слово , импортирующее , поскольку основная цель этой статьи — сравнить использование представлений и таблиц в режиме импорта.Если вам интересно узнать больше о режиме прямого запроса и в каких сценариях вы бы (не) хотели его использовать, обратитесь к этой статье.

Что такое взгляд в первую очередь?

Думаю, вы все знаете, что такое таблица, поэтому я не буду тратить время на ее объяснение. И, если вы приехали из мира SQL, вы, вероятно, знаете, что такое представление :)… Однако есть много создателей контента Power BI без опыта работы с SQL / базами данных, поэтому они заслуживают хотя бы базового знакомства с представлениями.

Представление базы данных — это не что иное, как сохраненный запрос данных из базы данных. Этот сохраненный запрос может быть нацелен как на таблицы, так и на другие представления (вы можете создать представление, которое запрашивает другие представления). Этот сохраненный запрос (определение представления) представляет собой часть базы данных, но не хранит никаких физических данных ! Это первое важное отличие от «обычной» таблицы — представления не хранят данные, а это означает, что каждый раз, когда вам нужны данные из представления, к базе данных будет выполняться соответствующий сохраненный запрос.Поскольку представления запускаются каждый раз, когда вы их «вызываете», они всегда выбирают соответствующие данные из базовых таблиц. Это означает, что вам не нужно беспокоиться, если что-то изменится в базовой таблице (удаленные / обновленные строки), поскольку вы всегда будете получать фактические данные из таблиц.

Преимущества использования представлений

В определенных ситуациях представления могут иметь несколько преимуществ по сравнению с обычными таблицами:

  • Представления могут содержать (и обычно содержат) объединения между несколькими таблицами, создавая единый набор результатов, что снижает сложность
  • Представления могут содержать только подмножество данных (например, вы можете создать представление, которое содержит только продажи с сумма больше X; просмотр, содержащий открытые в настоящее время покупки; просмотр, включающий только клиентов, которые зарегистрировались в году X, и т. д.)
  • Вы можете использовать представления для предварительного агрегирования данных для ваших аналитических рабочих нагрузок, используя агрегатные функции, такие как SUM, AVG, COUNT и т. Д.
  • Представления можно использовать для управления доступом к базовым данным: например, вы можете создать представление, которое содержит продажи только для региона США, а затем предоставить доступ к этому представлению соответствующим пользователям. Таким образом, вы не раскрываете все данные из таблицы, так как вы можете ограничить доступ к таблице, предоставляя доступ только к представлению. сохранение определения запроса) — не забывайте, представления не хранят физические данные!

Помня обо всех этих преимуществах, я уверен, что вы уже можете предположить, что некоторые из преимуществ, которые могут дать представления при использовании в Power BI.

Тем не менее, я также уверен, что у вас могут возникнуть некоторые опасения по поводу потенциальных недостатков, а именно производительности по сравнению с «обычными» таблицами. Следите за обновлениями, мы «демистифицируем» все плюсы и минусы использования представлений над таблицами в ваших решениях Power BI…

# 1 «Преобразуйте свои данные как можно выше по потоку, по мере необходимости как можно ниже по потоку» — изречение Рош

Объясняя передовой опыт преобразования и формирования данных, я всегда люблю цитировать это предложение из заголовка, известное как «Максим Рош» (Рош — это Мэтью Рош из команды Microsoft Power BI).

Придерживаясь этой идеи, если у вас есть возможность применить преобразования данных на стороне источника (в самой базе данных), вам обязательно нужно это сделать! Используйте представления, чтобы инкапсулировать сложную логику, выполнять вычисления (не забывайте, что вычисляемые столбцы в Power BI не сжимаются оптимально) или отфильтровывать определенные части данных.

Я слышу вас, я вас слышу … У вас нет доступа к базовой базе данных. Что ж, это, очевидно, потенциальное препятствие, но я считаю, что вы должны быть в хороших отношениях со своими коллегами из ИТ / администратора базы данных, тем не менее, в отношении прав доступа:)… Итак, поговорите с ними, объясните преимущества использования представлений, и я уверен, что они с радостью поможет в создании и раскрытии их вместо необработанных таблиц.

Эй, я слышу еще один вопрос: «Если мы используем представления вместо таблиц, мы отказываемся от возможности свертывания запросов, верно?» Пип… НЕПРАВИЛЬНО! Виды, как и таблицы, складываются! Таким образом, даже если вам нужно применить некоторые дополнительные шаги для формирования данных, поступающих из представления, вы все равно должны добиться сворачивания запроса (конечно, при условии, что вы применяете сворачиваемые преобразования к своему представлению).

# 2 Изменения в базовой таблице

Вот сценарий: вы импортируете данные из таблицы базы данных в свои отчеты.Что-то вроде таблицы DimProduct, которая, вероятно, является неотъемлемой частью всех ваших отчетов. И есть огромная вероятность, что вы импортировали эту таблицу в каждый отчет — представим, что вы создали 50 отчетов, которые извлекают данные из таблицы DimProduct.

На иллюстрации выше вы можете увидеть базовый пример визуального отображения общей суммы продаж по BrandName. Теперь представим, что в базовой базе данных произошли структурные изменения — например, столбец BrandName был переименован в Brand:

.

Если я обновлю отчет Power BI, посмотрим, что произойдет…

БАААМММ! Мой отчет не работает! А теперь представьте, сколько усилий потребуется для исправления 50 отчетов для обработки этого структурного изменения.Хорошо, если вы используете представление вместо таблицы, отчеты также будут повреждены, но «небольшая» разница в том, что вам просто нужно обновить определение представления, и все зависимые отчеты снова будут работать!

Таким образом, вместо настройки 50 отчетов вы можете решить проблему в одном централизованном месте!

Огромным преимуществом использования представлений над таблицами является то, что зависимость между отчетом Power BI и физической моделью базы данных становится слабее, что упрощает обслуживание.

# 3 Просмотр как репликация 1: 1 таблицы

Хорошо, легко понять, почему вам следует использовать представления вместо таблиц, когда вам нужно следовать лучшим практикам и выполнять вычисления на стороне источника или когда вы хотите избежать ситуаций, когда изменения в таблице влияют на несколько отчетов.

Но закономерный вопрос, который можно задать: , если я не выполняю никаких преобразований / вычислений (просто хочу, чтобы мои данные были как есть), и я уверен, что никаких структурных изменений в таблице не произойдет (даже если вам следует переосмыслить эту позицию), я должен использовать таблицу в качестве источника данных, верно? Ну, НЕТ!

Использование представления над таблицей дает множество преимуществ, даже если вы не выполняете никаких преобразований в процессе!

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Не создавайте представление, напишите: SELECT * FROM table… Это вообще не очень хорошая практика, но объяснение почему выходит за рамки этой статьи! Вместо этого всегда явно определяйте столбцы, которые будут частью представления.

  • Вы можете (и должны) исключить все ненужные столбцы таблицы в определении представления. Таким образом, вы сокращаете не только объем данных, передаваемых в Power BI, но и усилия по применению дополнительных шагов в редакторе Power Query Editor для избавления от ненужных данных. Возвращаясь к нашему предыдущему примеру, я могу легко удалить столбцы, такие как ETLLoadID, LoadDate или UpdateDate, из таблицы DimProduct, поскольку они совершенно бесполезны в решениях для отчетности
 СОЗДАТЬ ПРОСМОТР [dbo].[Продукт]
В КАЧЕСТВЕ
ВЫБРАТЬ ProductKey
, ProductLabel
,Наименование товара
....
ОТ dbo.DimProduct
GO 
  • Используя представление вместо таблицы, вы можете обеспечить согласованность между всеми отчетами. Например, представьте, что вы хотите, чтобы во всех отчетах отображалось значение «Бренд» вместо «Имя бренда» — вы можете определить псевдоним для столбца в определении представления, избегая таким образом дополнительных действий в редакторе Power Query для каждого отчета по переименованию этого столбца. !
 СОЗДАТЬ ПРОСМОТР [dbo]. [Product]
В КАЧЕСТВЕ
ВЫБРАТЬ ProductKey
, ProductLabel
,Наименование товара
, BrandName AS Brand
....
ОТ dbo.DimProduct
GO 

Если вы импортируете данные из таблицы, один создатель отчета может переименовать «BrandName» в «Brand», другой назовет его «Product», третий — «Product Name» и так далее… Я думаю, вы получите смысл! Стандартизируя имена столбцов в определении представления, вы гарантируете, что все отчеты будут соответствовать наименованию

.

  • Вы можете легко применить передовой опыт для удобного присвоения имен объектам. Вместо того, чтобы показывать пользователям такие значения, как «DimProduct», «DimDate» и т. Д., Или столбцы, такие как «UnitOfMeasureName», «AvailableForSaleDate»… вы можете (и должны) реализовать удобные для пользователя имена, удалив префикс «Dim» из таблиц измерений. и давая вашим столбцам понятные и понятные имена.Что-то вроде:

Итак, хотя это выглядит так, будто я не преобразую свои данные, на самом деле я делаю именно это! Я формирую его и готовлю к удобному и более последовательному использованию из Power BI.

Материализованные / индексированные просмотры

Я намеренно оставил это на потом, поскольку индексированные / материализованные представления (название зависит от системы управления реляционными базами данных) представляют лучшее из обоих миров! Они содержат логику представления (объединения, преобразования, вычисления), но сохраняют постоянный набор результатов.Проще говоря, они физически хранят данные, полученные при выполнении запроса. Это означает, что вы получите преимущество в производительности (вы также можете создавать индексы для этого типа представления), но компромисс заключается в том, что материализованные представления занимают место в базе данных.

Решение об использовании материализованных или обычных представлений непростое и зависит от различных факторов. В любом случае его необходимо тщательно оценить и обсудить с вашим администратором баз данных / ИТ-отделом.

Заключение

При использовании реляционной базы данных в качестве источника данных для решений Power BI большинство создателей отчетов выбирают более простой путь — импортируют данные непосредственно из таблиц, даже не задумываясь и не зная о представлениях базы данных! Поэтому в этой статье мы демистифицировали представления и объяснили, почему они должны быть вашим предпочтительным выбором при импорте данных из базы данных SQL.

Спасибо за чтение!

Последнее обновление: 6 сентября 2021 г., пользователем Nikola

ссылок — Почему мы используем термин «популяция» вместо «Процесс создания данных»?

Безусловно, уже существует множество контекстов, в которых статистики действительно ссылаются на процесс , а не на совокупность при обсуждении статистического анализа (например, при обсуждении процесса временных рядов, случайного процесса и т. Д.). Формально случайный процесс — это набор случайных величин с общим доменом, индексированных по некоторому набору значений.Сюда входят временные ряды, последовательности случайных величин и т. Д. Концепция достаточно общая, чтобы охватить большинство ситуаций, когда у нас есть набор случайных величин, представляющих интерес для статистической задачи, и поэтому статистика уже имеет достаточно хорошо разработанный язык. для обозначения предполагаемых случайных «процессов», а также для обозначения фактических «совокупностей» вещей.

Хотя статистики действительно ссылаются на «процессы» и моделируют их, это абстракции, которые формируются путем рассмотрения бесконечных последовательностей (или континуумов) случайных величин, и поэтому они включают гипотетические величины, которые не все наблюдаемы.Термин «процесс генерации данных» сам по себе проблематичен (и не так полезен, как существующая терминология «стохастический процесс»), и я не вижу причин, по которым его широкое распространение могло бы улучшить понимание статистики. В частности, обращаясь к генерации «данных», эта терминология устраняет вопрос о том, какие величины фактически наблюдаются или наблюдаются. (Представьте себе ситуацию, в которой вы хотите сослаться на «DGP», но затем оговорите, что некоторые аспекты этого процесса не наблюдаются напрямую.Уместно ли все еще называть значения в этом процессе «данными», если они не наблюдаемы?) В любом случае, если отбросить терминологию, я вижу более глубокие проблемы в вашем подходе, которые восходят к основным вопросам философии и формулированию вопросы исследования.


Существующие и процессы в эмпирических исследованиях: Я вижу в вашем взгляде ряд предпосылок, которые кажутся мне проблематичными и, как мне кажется, неправильно понимают цель большинства эмпирических исследований, в которых используется статистика.Когда мы проводим эмпирическое исследование, мы часто хотим знать о взаимосвязях между вещами, которые существуют в действительности , а не о гипотетических «процессах», которые существуют только в наших моделях (т.е. как математические абстракции от реальности). Действительно, в задачах выборки обычно бывает так, что мы просто хотим оценить некоторый аспект распределения некоторой величины, относящейся к конечной совокупности. В этом контексте, когда мы говорим о «популяции», представляющей интерес, мы просто обозначаем набор вещей, которые нас интересуют в конкретной исследовательской проблеме.Следовательно, если нас в настоящее время интересуют все люди, живущие в настоящее время в США, мы бы назвали эту группу «населением» (или «представляющим интерес населением»). Однако, если нас интересуют только люди, живущие в настоящее время в штате Мэн, мы бы назвали эту меньшую группу «населением». В каждом случае не имеет значения, можно ли считать популяцию только частью более крупной группы — если это группа, представляющая интерес в данной проблеме, то мы обозначим ее как «популяцию».

(Я отмечаю, что статистические тексты часто допускают небольшую двусмысленность между совокупностью объектов , представляющих интерес, и измерениями, представляющими интерес , относящимися к этим объектам. Например, анализ роста людей может в разное время относиться к к набору людей как «совокупность», но затем относиться к соответствующему набору измерений роста как «совокупность» .Это сокращенное обозначение, которое позволяет статистикам напрямую перейти к описанию набора представляющих интерес чисел.)

Ваш философский подход здесь не соответствует этой цели. Кажется, вы принимаете своего рода платонический взгляд на мир, в котором сущности реального мира считаются менее реальными, чем некий гипотетический «процесс генерации данных», который (предположительно) породил мир. Например, что касается идеи называть всех людей на Земле «населением», вы утверждаете, что «… это, вероятно, неверно, поскольку население мира — это всего лишь одна из гипотетических повторяющихся случайных выборок из DGP».Это имеет существенное сходство с платоновской теорией форм, где Платон рассматривал наблюдение мира как простое несовершенное наблюдение вечных форм. На мой взгляд, гораздо лучший подход — это аристолелевское представление о том, что вещи в действительности существуют, и мы абстрагируемся от них, чтобы сформировать наши концепции. (Это упрощение Аристотеля, но вы поняли основную идею.)

Если вы хотите изучить литературу по этому вопросу, я думаю, вы обнаружите, что она глубже проникает в область философии (в частности, метафизики и эпистемологии), а не в область статистики.По сути, ваши взгляды здесь касаются более широкого вопроса о том, являются ли вещи, существующие в реальности, надлежащими объектами, имеющими отношение к человеческому знанию, или (наоборот) они являются просто эпифеноменом некоего более широкого гипотетического «процесса», который является надлежащим объектом человеческий вывод. Это философский вопрос, который был важной частью истории западной философии, восходящей к Платону и Аристотелю, поэтому существует огромных произведений, которые потенциально могли бы пролить свет на этот вопрос.

Я надеюсь, что этот ответ отправит вас в интересное путешествие в области эпистемологии. Для настоящих целей вы, возможно, пожелаете принять практический взгляд, который также учитывает цели, которые исследователи ставят перед собой в своих исследованиях. Спросите себя: предпочли бы исследователи знать о свойствах людей, живущих на Земле, или они предпочли бы попытаться узнать о ваших (гипотетических) «гипотетических повторяющихся случайных выборках» людей, которые могли жить на Земле вместо нас?

FAQ: числовые переменные, вводимые в виде строки

Stata читает мои переменные в виде строки, а не числа.Какие
я должен делать?

Заголовок Числовые переменные вводятся в виде строки
Автор Николас Дж. Кокс, Даремский университет, Великобритания

Пользователи часто обнаруживают, что Stata считывает большинство или даже все переменные как
строковые переменные, когда большинство или даже все — или должны
быть — числовой. Если переменная является строкой, то обычно Stata отказывается
делать расчеты.Вы даже можете получить загадочное сообщение нет
наблюдения
, что здесь означает «нет числовых значений, с которыми нужно делать
что». Команда, такая как tabulate , также выводит числовой
значения в алфавитно-цифровом порядке, а не в числовом, так что 1 ,
11 и 2 появляются в этом порядке. Самым прямым образом
описать покажет строковые переменные как имеющие некоторый тип хранения (например,
str1 , str12 ) и имеющий формат отображения, заканчивающийся на
с , например % 9s .

См. [D] типы данных , чтобы узнать больше.

Одна из частых причин этой проблемы заключается в том, что данные были импортированы из
электронная таблица или что-то подобное. Некоторые пользователи Excel или аналогичных программ
возьмите за привычку помещать несколько строк заголовка перед телом
своих данных. Хотя Stata пытается обнаружить такие линии, это не всегда
успешно, и это могло привести к тому, что каждая переменная обрабатывалась как строка.
Обсуждение этой и некоторых других возможных проблем см. В FAQ.
«Как мне получить информацию
из Excel в Stata? ».Даже если ваших данных и близко не было
Excel, этот FAQ все еще может быть полезен.

Наиболее распространенное решение — использовать команду destring . Например,
набор текста

 . destring, заменить
  

сделает все возможное, чтобы исправить положение. Однако сначала см.
[D] дестринг
чтобы узнать о его возможностях для особых проблем и, особенно, проверить, что
в теле данных нет строк заголовков.Самый простой способ исправить
это можно сделать с помощью редактора данных.

Однако обратите внимание, что destring не является хорошей идеей для даты или времени.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *