{"id":22252,"date":"2022-11-18T00:00:00","date_gmt":"2022-11-18T03:00:00","guid":{"rendered":"https:\/\/site-novo.dattos.com.br\/data-matching\/"},"modified":"2024-10-09T16:59:57","modified_gmt":"2024-10-09T19:59:57","slug":"data-matching","status":"publish","type":"post","link":"https:\/\/www.dattos.com.br\/en\/blog\/data-matching\/","title":{"rendered":"Data Matching: what it is and why you need to know more about it"},"content":{"rendered":"\n<p>Pertencente \u00e0 \u00e1rea da Tecnologia da Informa\u00e7\u00e3o, o conceito de Data Matching j\u00e1 foi conhecido por diversos nomes: interconex\u00e3o de dados, resolu\u00e7\u00e3o da entidade, field matching, entre outros. Em resumo, trata-se da rotina criada para identificar, combinar e unificar registros de dados que correspondem a uma mesma entidade, nas quais podem estar presentes em uma ou diversas bases de dados diferentes.<\/p>\n\n\n\n<p>Com base em pesquisas de v\u00e1rios dom\u00ednios \u2014 incluindo estat\u00edstica aplicada, minera\u00e7\u00e3o de dados, aprendizado de m\u00e1quina, intelig\u00eancia artificial, gerenciamento do banco de dados e bibliotecas digitais \u2014, avan\u00e7os significativos foram alcan\u00e7ados na \u00faltima d\u00e9cada em todos os aspectos do processo de correspond\u00eancia dos dados, especialmente em <a style=\"text-decoration: none;\" href=\"https:\/\/dattos.com.br\/visao-geral\" target=\"_blank\" rel=\"noopener\">como melhorar a precis\u00e3o da correspond\u00eancia dos dados<\/a> e sua escalabilidade para bancos de dados de grande porte.<\/p>\n\n\n\n<p>\u00c0 medida em que avan\u00e7amos na revolu\u00e7\u00e3o provocada pelo n\u00edvel sem precedentes de dados os quais temos acesso hoje, sobre virtualmente tudo e todos, aumenta a press\u00e3o para que saibamos cada vez mais sobre nossos mercados, tecnologias, processos, impactos e, tamb\u00e9m, sobre n\u00f3s mesmos enquanto neg\u00f3cio e organiza\u00e7\u00e3o empresarial.<\/p>\n\n\n\n<p>Nesse sentido, o data matching ganha import\u00e2ncia renovada quase que diariamente, e empresas que n\u00e3o investem em intelig\u00eancia de neg\u00f3cios em n\u00edvel avan\u00e7ado podem rapidamente perder competitividade.<\/p>\n\n\n\n<p>No artigo de hoje, falaremos sobre os principais aspectos envolvidos no data matching, sua import\u00e2ncia e indispensabilidade nos dias atuais e no futuro. Para saber mais sobre o assunto, continue com a gente.<style>\/*! elementor - v3.21.0 - 15-04-2024 *\/&amp;amp;amp;lt;br \/>&amp;amp;lt;br>.elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]>a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}<\/style><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Data matching no ambiente corporativo<\/h2>\n\n\n\n<p>Esse era o desafio da Esfinge de Tebas. Ela eliminava aqueles que se mostrassem incapazes de responder a um enigma: &#8220;Que criatura tem quatro p\u00e9s de manh\u00e3, dois ao meio-dia e tr\u00eas \u00e0 tarde?&#8221;. Todos os que ensaiaram a resposta haviam sido estrangulados. \u00c9dipo acertou: &#8220;\u00c9 o ser humano! Engatinha quando beb\u00ea, anda sobre dois p\u00e9s quando adulto e recorre a uma bengala na velhice&#8221;.<\/p>\n\n\n\n<p>Ao olhar para o atual ambiente de neg\u00f3cios, \u00e9 f\u00e1cil tra\u00e7ar seu paralelo com a f\u00e1bula grega. O fato \u00e9 que, atualmente, as organiza\u00e7\u00f5es empresariais que n\u00e3o investem em big data, na sua apura\u00e7\u00e3o e contextualiza\u00e7\u00e3o entre diferentes fontes de dados, est\u00e3o diariamente caminhando para a obsolesc\u00eancia. Ou seja: ou deciframos dados, contextualizamos e tra\u00e7amos estrat\u00e9gias a partir disso, ou estamos fadados \u00e0 perda do protagonismo e da relev\u00e2ncia.<\/p>\n\n\n\n<p>A correspond\u00eancia de dados pode ser feita para descartar um conte\u00fado duplicado ou para v\u00e1rios tipos de minera\u00e7\u00e3o de dados. Muitos esfor\u00e7os de correspond\u00eancia dos dados s\u00e3o feitos com o objetivo de identificar um link chave entre dois conjuntos de dados tanto para marketing e seguran\u00e7a, quanto para outros usos aplicados.<\/p>\n\n\n\n<p>Em geral, a correspond\u00eancia dos dados permite que os detentores de uma grande quantidade de dados realizem pesquisas mais precisas, que, por sua vez, produzem resultados significativamente mais eficientes. Alguns argumentam que a capacidade de correspond\u00eancia dos dados pode ser usada de maneira que constitua uma amea\u00e7a \u00e0 privacidade pessoal, especialmente quando o uso de diversos conjuntos de dados n\u00e3o for expl\u00edcito ou transparente.&nbsp;<\/p>\n\n\n\n<p>A correspond\u00eancia dos dados pode ser uma das quest\u00f5es que s\u00e3o adicionadas ao debate geral em andamento sobre a privacidade pessoal em uma \u00e9poca na qual muito mais dados est\u00e3o sendo coletados sobre o cidad\u00e3o m\u00e9dio em v\u00e1rios setores e locais diferentes.<\/p>\n\n\n\n<p>No meio corporativo, entretanto, a l\u00f3gica \u00e9 inexpugn\u00e1vel: quem det\u00e9m dados mais bem curados, contextualizados e, por conseguinte, melhor empregados, sempre ter\u00e1 um importante diferencial competitivo em m\u00e3os.<\/p>\n\n\n\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n<iframe title=\"Big Data cont\u00e1bil: como se adaptar nas fun\u00e7\u00f5es de finan\u00e7as\" width=\"800\" height=\"450\" src=\"https:\/\/www.youtube.com\/embed\/uccO2Y_N6y0?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<\/div><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Data matching na pr\u00e1tica<\/h2>\n\n\n\n<p>Conforme citamos anteriormente, <b>Data Matching \u00e9 a tarefa de localizar registros que se referem \u00e0 mesma entidade<\/b>. Essa busca pode representar acesso a fontes de dados com diferentes naturezas e tipos. Ou pode, igualmente, representar a pr\u00f3pria necessidade de interconex\u00e3o e contextualiza\u00e7\u00e3o de dados estrat\u00e9gicos que s\u00e3o produzidos dentro de uma mesma corpora\u00e7\u00e3o, por diferentes unidades de neg\u00f3cios, departamentos ou sistemas de gest\u00e3o isolados.<\/p>\n\n\n\n<p>Esses registros podem, portanto, advir de v\u00e1rios conjuntos de dados. Conseguem, ainda, n\u00e3o possuir identificadores de entidade comuns. Nesses casos, as t\u00e9cnicas de correspond\u00eancia dos dados tamb\u00e9m podem ser usadas para detectar registros duplicados em um \u00fanico banco de dados.<\/p>\n\n\n\n<p>Identificar e corresponder registros em v\u00e1rios conjuntos de dados \u00e9 uma tarefa por si s\u00f3 muito desafiadora, por diversos motivos. Em primeiro lugar, os registros n\u00e3o necessariamente possuem atributos que facilitem a identifica\u00e7\u00e3o daqueles que se referem \u00e0 mesma entidade \u2014 na realidade, geralmente \u00e9 isto o que acontece de forma geral. Por esse motivo, \u00e9 necess\u00e1rio analisar atributos que forne\u00e7am identifica\u00e7\u00e3o parcial, como nomes e datas de nascimento, para pessoas, ou t\u00edtulo e marcas, no que tange a produtos.<\/p>\n\n\n\n<p>Outro fator que adiciona complexidade \u00e0 quest\u00e3o, \u00e9 que os dados podem mudar ao longo do tempo. Por exemplo, se dois bancos de dados com informa\u00e7\u00f5es de pessoas est\u00e3o sendo comparados, n\u00e3o \u00e9 raro encontrar casos na qual uma mesma pessoa tenha endere\u00e7os diferentes \u2014 j\u00e1 que as pessoas ocasionalmente se mudam \u2014 ou mesmo nomes diferentes, como nos casos de casamento ou div\u00f3rcio.<\/p>\n\n\n\n<p>Deste modo, os algoritmos de correspond\u00eancia dos dados s\u00e3o muito sens\u00edveis \u00e0 qualidade dos mesmos, o que torna necess\u00e1rio pr\u00e9-processar os dados que est\u00e3o sendo vinculados para garantir um padr\u00e3o m\u00ednimo de qualidade, pelo menos no que tange os atributos do identificador-chave.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Data matching: uma tarefa de alta complexidade<\/h3>\n\n\n\n<p>Nesse sentido, a resolu\u00e7\u00e3o da entidade atua de forma a relacionar e contextualizar dados, tornando poss\u00edvel identificar e atestar a pertin\u00eancia de cada registro, individualmente, como parte de um conjunto de dados que possui valor estrat\u00e9gico em conjunto. Ou seja, o princ\u00edpio da resolu\u00e7\u00e3o de entidade permite unir v\u00e1rios pontos de dados diferentes, de fontes externas e internas, os resolvendo em uma entidade \u00fanica e exclusiva.<\/p>\n\n\n\n<p>N\u00e3o \u00e9 f\u00e1cil abordar o problema com um algoritmo de aprendizado supervisionado, como seria poss\u00edvel em muitas aplica\u00e7\u00f5es de machine learning. Os problemas de correspond\u00eancia dos dados, geralmente, n\u00e3o t\u00eam dados de treinamento dispon\u00edveis \u2014 ou seja, um conjunto de dados com correspond\u00eancias que sabemos serem v\u00e1lidas nos bancos de dados analisados.&nbsp;<\/p>\n\n\n\n<p>Ainda, os bancos de dados sujeitos \u00e0 an\u00e1lise de correspond\u00eancia dos dados em geral s\u00e3o extensos, ou seja, de grande porte. E, para localizarmos todas as correspond\u00eancias poss\u00edveis, cada registro de um banco de dados deve ser comparado a todos os outros registros do outro. Tarefas como essa podem ser extremamente caras de serem executadas computacionalmente e dif\u00edceis de serem realizadas em tempo vi\u00e1vel.<\/p>\n\n\n\n<p>Para lidar com essa situa\u00e7\u00e3o e tornar a correspond\u00eancia de dados escal\u00e1vel, diferentes t\u00e9cnicas de indexa\u00e7\u00e3o podem ser aplicadas, como forma de reduzir o n\u00famero de pares dos registros que ser\u00e3o comparados. Nem sempre \u00e9 f\u00e1cil, contudo, projetar um \u00edndice que remova a maioria das n\u00e3o correspond\u00eancias e que, ao mesmo tempo, n\u00e3o afete a qualidade dos pares correspondentes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tecnologia e t\u00e9cnica apuradas: a receita para o sucesso<\/h3>\n\n\n\n<p>Para cumprir sua miss\u00e3o, as rotinas de Data Matching se prop\u00f5em a analisar se duas entidades s\u00e3o semelhantes. H\u00e1 muitas maneiras na qual esta tarefa pode ser executada. A forma mais comum \u00e9 baseada em um algoritmo ou loop programado, onde cada conjunto de dados \u00e9 comparado com cada parte do outro conjunto de dados.<\/p>\n\n\n\n<p>Existe uma abordagem de correspond\u00eancia de dados determin\u00edstica e probabil\u00edstica. Quando o algoritmo compara uma parte de dados com outra parte \u00fanica de dados, e reconhece que s\u00e3o o mesmo item, isso \u00e9 determin\u00edstico. Se um algoritmo mais sofisticado corresponder aos dados comparando vari\u00e1veis mais complexas, como sequ\u00eancias de informa\u00e7\u00f5es semelhantes, isso \u00e9 probabil\u00edstico.<\/p>\n\n\n\n<p>Em uma abordagem determin\u00edstica, as correspond\u00eancias s\u00e3o detectadas como correspond\u00eancias exatas; um registro tem as mesmas semelhan\u00e7as. Os algoritmos usam padr\u00f5es e regras para concluir que os registros s\u00e3o correspondentes.<\/p>\n\n\n\n<p>A correspond\u00eancia probabil\u00edstica identifica a probabilidade de correspond\u00eancias com base em um limite de pontua\u00e7\u00e3o. Digamos que tr\u00eas partes de um recorde correspondem. Isso \u00e9 suficiente para garantir que sejam o mesmo registro? J Silva \u00e9 o mesmo que Jo\u00e3o da Silva? E se fosse J A Silva; \u00e9 o mesmo registro de Jo\u00e3o Alberto da Silva?<\/p>\n\n\n\n<p>Outro exemplo \u00e9 quando os dados s\u00e3o organizados em blocos de tamanho semelhante, preservando o mesmo atributo. Estes devem ser atributos que provavelmente n\u00e3o ser\u00e3o alterados, como nomes, datas de nascimento, cor ou forma. Em seguida, a correspond\u00eancia pode ocorrer.&nbsp;<\/p>\n\n\n\n<p>Por exemplo, as palavras podem ser combinadas foneticamente ou por letra. Posteriormente, o peso relativo de cada atributo \u00e9 calculado para medir sua import\u00e2ncia. Ent\u00e3o, a probabilidade de correspond\u00eancia pode ser calculada. Finalmente, o algoritmo ajusta o peso relativo para cada ponto a fim de obter o peso total da correspond\u00eancia. Isso leva ao resultado: a correspond\u00eancia probabil\u00edstica para duas coisas relacionadas.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Data Matching e a controladoria contempor\u00e2nea<\/h2>\n\n\n\n<p>Quando analisamos todos os aspectos relacionados \u00e0 an\u00e1lise de dados e ao data matching enquanto ferramenta de <a style=\"text-decoration: none;\" href=\"https:\/\/dattos.com.br\/conciliacao-financeira-grandes-empresas\/b\/\" target=\"_blank\" rel=\"noopener\">contextualiza\u00e7\u00e3o e refinamento de dados<\/a>, \u00e9 natural trazermos o conceito para o dia-a-dia de uma das \u00e1reas que mais dependem da correla\u00e7\u00e3o e do registro de dados para que suas entregas sejam efetivas: a controladoria.<\/p>\n\n\n\n<p>Indo al\u00e9m, e focando em seu pilar mais tradicional que \u00e9 a contabilidade, percebemos que o data matching sempre esteve presente, mesmo que sem a sua roupagem contempor\u00e2nea. Afinal de contas, <a style=\"text-decoration: none;\" href=\"https:\/\/dattos.com.br\/conciliacao-contabil\" target=\"_blank\" rel=\"noopener\">o que \u00e9 a concilia\u00e7\u00e3o banc\u00e1ria<\/a> que n\u00e3o um data matching direcionado e ultimamente efetivo?<\/p>\n\n\n\n<p>Como ci\u00eancia, a contabilidade sempre vive o paradoxo de se <a style=\"text-decoration: none;\" href=\"https:\/\/dattos.com.br\/visao-geral\/#automacao\" target=\"_blank\" rel=\"noopener\">buscar o novo<\/a> para continuar realizando sua miss\u00e3o atemporal de contar, controlar e, com isso, produzir dados estrat\u00e9gicos. Como parte intr\u00ednseca do esp\u00edrito de nosso tempo e do ambiente de neg\u00f3cios atual, din\u00e2mico e rigoroso com a falha, a contabilidade s\u00f3 tem a ganhar com a aplica\u00e7\u00e3o das mais eficientes t\u00e9cnicas e tecnologias de data matching em suas a\u00e7\u00f5es.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Data matching: the main aspects involved, its importance and indispensability for both the present and the future. Check it out!<\/p>","protected":false},"author":3,"featured_media":23688,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[60],"tags":[76],"class_list":["post-22252","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-governanca","tag-elementor"],"_links":{"self":[{"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/posts\/22252","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/comments?post=22252"}],"version-history":[{"count":0,"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/posts\/22252\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/media\/23688"}],"wp:attachment":[{"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/media?parent=22252"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/categories?post=22252"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.dattos.com.br\/en\/wp-json\/wp\/v2\/tags?post=22252"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}