T3: Introducción a la Inteligencia de Negocios con Técnicas de la
Transcription
T3: Introducción a la Inteligencia de Negocios con Técnicas de la
Introducción a la Inteligencia de Negocios con Técnicas de la Inteligencia Computacional Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl Contenido de la presentación Introducción y Motivación Inteligencia de Negocios: Definición y Vista General Inteligencia Computacional: Las Principales Técnicas Aplicaciones de Data Mining con Inteligencia Computacional Herramientas de Data Mining Conclusiones y Perspectivas El Vértigo de la Inteligencia de Negocios CRM: Customer Relationship Management (Gestión de la relación con el cliente) CMR: ??? Data Warehouse / Data Mart Inteligencia de Negocios (Business Intelligence) Knowledge Management Balanced Scorecard Inteligencia Artificial OLAP: Online Analytical Processing Data Mining: Minería de datos KPI: Key Performance Indicators KPI: Key Performance Indicators – Definición KPIs, or key performance indicators help organizations achieve organizational goals through the definition and measurement of progress. The key indicators are agreed upon by an organization and are indicators which can be measured that will reflect success factors. The KPIs selected must reflect the organization's goals, they must be key to its success, and they must be measurable. Key performance indicators usually are long-term considerations for an organization. http://www.webopedia.com/TERM/K/KPI.html Balanced Scorecard – Definición Balanced Scorecard The balanced scorecard is a strategic management system used to drive performance and accountability throughout the organization.The scorecard balances traditional performance measures with more forward-looking indicators in four key dimensions: » Financial » Integration/Operational Excellence » Employees » Customers The Balanced Scorecard is an organizational framework for implementing and managing strategy at all levels of an enterprise by linking objectives, initiatives, and measures to an organization’s strategy. The scorecard provides an enterprise view of an organization’s overall performance. It integrates financial measures with other key performance indicators around customer perspectives, internal business processes, and organizational growth, learning, and innovation. http://www.leanadvisors.com/Lean/glossary/definition.cfm/Word/Balanced%20Scorecard.cfm Inteligencia Artificial – Definición Artificial Intelligence The branch of computer science concerned with making computers behave like humans. The term was coined in 1956 by John McCarthy at the Massachusetts Institute of Technology. Artificial intelligence includes: games playing: programming computers to play games such as chess and checkers expert systems : programming computers to make decisions in real-life situations (for example, some expert systems help doctors diagnose diseases based on symptoms) natural language : programming computers to understand natural human languages neural networks : Systems that simulate intelligence by attempting to reproduce the types of physical connections that occur in animal brains robotics : programming computers to see and hear and react to other sensory stimuli http://www.webopedia.com/TERM/a/artificial_intelligence.html Knowledge Management – Definición Knowledge Management is the explicit and systematic management of vital knowledge - and its associated processes of creation, organization, diffusion, use and exploitation. Explicit - Surfacing assumptions; codifying that which is known Systematic - Leaving things to serendipity will not achieve the benefits Vital Knowledge - You need to focus; you don't have unlimited resources Processes - Knowledge management is a set of activities with its own tools and techniques http://www.skyrme.com/resource/kmbasics.htm CRM – Definición CRM Short for customer relationship management. CRM entails all aspects of interaction a company has with its customer, whether it be sales or service related. Computerization has changed the way companies are approaching their CRM strategies because it has also changed consumer buying behavior. With each new advance in technology, especially the proliferation of self-service channels like the Web and WAP phones, more of the relationship is being managed electronically. Organizations are therefore looking for ways to personalize online experiences (a process also referred to as mass customization) through tools such as help-desk software, e-mail organizers and Web development apps. http://www.webopedia.com/TERM/C/CRM.html Business Intelligence – Definición Business Intelligence The term Business Intelligence (BI) represents the tools and systems that play a key role in the strategic planning process of the corporation. These systems allow a company to gather, store, access and analyze corporate data to aid in decision-making. Generally these systems will illustrate business intelligence in the areas of customer profiling, customer support, market research, market segmentation, product profitability, statistical analysis, and inventory and distribution analysis to name a few. http://www.webopedia.com/TERM/B/Business_Intelligence.html Minería de datos para la Inteligencia de Negocios: Motivación Costos para guardar datos: 30.0 25.0 20.0 15.0 10.0 5.0 0.0 1990 1992 1994 1996 1998 2000 2002 Costos de un disco duro (US-$) / Capacidad (MB) Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/ Minería de datos para la Inteligencia de Negocios: Motivación Disponibilidad de datos: 16000 14000 12000 10000 8000 6000 4000 2000 0 1995 1996 1997 1998 1999 2000 2001 2002 2003 Capacidad de nuevos discos duros (PB) Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/ Generación de datos •The World Wide Web contains about 170 terabytes of information on its surface; in volume this is seventeen times the size of the Library of Congress print collections. •Instant messaging generates five billion messages a day (750GB), or 274 Terabytes a year. •Email generates about 400,000 terabytes of new information each year worldwide. Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/ Código Barra RFID: Radio Frequency Identification ……… Data Warehouse – Definición Data Warehouse: Abbreviated DW, a collection of data designed to support management decision making. Data warehouses contain a wide variety of data that present a coherent picture of business conditions at a single point in time. Development of a data warehouse includes development of systems to extract data from operating systems plus installation of a warehouse database system that provides managers flexible access to the data. The term data warehousing generally refers to the combination of many different databases across an entire enterprise. Contrast with data mart. Fuente: http://www.webopedia.com/TERM/D/data_warehouse.html Arquitectura de un Data Warehouse Datos Información Decisión Herramientas Datos de Data Mining operacionales Información Resumen detallada Datos externos Meta Datos Herramienta de OLAP Fuente: Anahory, Murray (1997): Data Warehousing in the Real World. OLAP – Definición OLAP Short for Online Analytical Processing, a category of software tools that provides analysis of data stored in a database. OLAP tools enable users to analyze different dimensions of multidimensional data. For example, it provides time series and trend analysis views. OLAP often is used in data mining. The chief component of OLAP is the OLAP server, which sits between a client and a database management systems (DBMS). The OLAP server understands how data is organized in the database and has special functions for analyzing the data. There are OLAP servers available for nearly all the major database systems. http://www.webopedia.com/TERM/O/OLAP.html Navegación en un cubo OLAP Drill down: Producto profundizar una dimensión P1 Tiempo U1 Ubicación Motivaciones para Almacenar Datos Razones iniciales: Potenciales: En telecomunicación: En telecomunicación: Facturación de llamadas Detección de fraude En supermercados: En supermercados: Gestión del inventario Asociación de ventas En bancos: En bancos: Manejo de cuentas Segmentación de clientes En empresas de producción: En empresas de producción Control de procesos Mantenimiento preventivo Idea básica y potenciales de data mining Empresas y Organizaciones tienen gran cantidad de datos almacenados. Los datos disponibles contienen información importante. La información está escondida en los datos. Data mining puede encontrar información nueva y potencialmente útil en los datos Proceso de KDD Knowledge Discovery in Databases Transformación Data Mining Preprocesamiento Selección Datos Patrones Datos seleccionados Datos preprocesados Datos transformados Interpretación y Evaluación “KDD es el proceso no-trivial de identificar patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos“ Potenciales de Data Mining - 1 Potenciales de Data Mining - 2 Aplicaciones de Data Mining Customer Relationship Management Segmentación de clientes Database Marketing Predicción de compra Retención de clientes Predicción de fuga Detección de Fraude Tarjetas de crédito Uso de teléfonos (celulares) Predicción de series de tiempo Inteligencia Computacional: Las principales técnicas Redes neuronales Lógica difusa Algoritmos genéticos Computational Intelligence 1943 Neural Networks (McCulloch, Pitts) 1965 Fuzzy Logic (Zadeh) 1974 GA (Schwefel) 1993 First IEEE Conference joining FL, NN and GA (USA) 1993 First EUFIT Conference (Europe) 1996 First Online Workshop on Soft Computing 2001 First International Workshop on Hybrid Intelligent Systems (HIS'01) 2002 First International NAISO Congress on Neuro Fuzzy Technologies Métodos de Data Mining Estadística Agrupamiento (Clustering) Análisis Discriminante Redes Neuronales Árboles de Decisión Reglas de Asociación Bayesian (Belief) Networks Support Vector Machines (SVM) ……… Redes Neuronales natural artificial Neurona Conexiones con pesos Neuronas Artificiales sinapsis Neuronas “Verdaderas” Núcleo Axon Neuronas Artificiales Dendritas Cuerpo Celular x1(t) x2(t) w2 y=f(a) ∑ a(t) … xn(t) y w1 wn o(t+1) w0 a Perceptron (1962) Generalización y formalización de las redes neuronales. o1 o2 op … x1 x2 x3 … … xn ⎛ n ⎞ oi = f (ai ) = f ⎜ ∑ wik xk ⎟ ⎝ k =0 ⎠ i = 1, K , p Perceptron la falla La función XOR (exclusive or): x2 x1 x2 y 0 0 1 0 1 0 0 1 1 1 1 0 1 0 0 Minsky, Papert (1969) 1 x1 Multilayer Perceptron (MLP) La mayoría de las aplicaciones de redes neuronales están referidas a MLP ⎛ n ⎛ n ⎞⎞ oi = f ⎜⎜ ∑ W j f ⎜ ∑ wik xk ⎟ ⎟⎟ ⎝ k =0 ⎠⎠ ⎝ j =0 Es una función no lineal, de una combinación lineal de funciones nolineales de funciones de combinaciones lineales de los datos de entrada; => Clasificación y Regresión no lineal!! 2 3 f ( x) = G (∑ w G (∑ w ji xi + b j ) + b ) j =1 ' 1j ' 1 i =1 Backpropagation un ejemplo 3 r=3 xp w11 w12 G (∑ w ji xi + bi ) i =1 n=2 2 3 j =1 i =1 G (∑ w'1 j G (∑ w ji xi + bi ) + b j ) w21 w’11 w22 w’12 w13 w 23 s=1 op yp 3 Δ p w1' j = ηG (∑ w ji xi + bi )δ p i =1 Δ p w ji = η xiδ pj 2 3 i=1 j=1 δ p = ( yp −op )G' (∑w1'iG(∑wij xj +bj ) +bi' ) 3 δ pj = G ( ∑ w ji xi + b j )δ p w '1 j ' i =1 Base de lógica difusa “Cliente joven” μ (A ) Función de pertenencia 1 Variable lingüística 30 36 42 Edad Agrupamiento con lógica difusa x3 x15 x6 x2 x5 0 x12 x7 x8 x9 x4 1 x11 x14 1 0 0 0 ^ Cluster Centres = 0 Grupos estrictos .14 .94 .99 .14 .86 .06 .06 .86 .50 .94 .86 1 0 1 x13 .86 X 1 1 Butterfly .97 0 1 x10 ^ Cluster Centres = x1 1 .14 .01 X .03 .03 Grupo difuso 1 .01 .14 .50 .06 .06 Cluster Centres =^ X .94 .14 .14 .86 .99 X .97 .94 Cluster Centres =^ Grupo difuso 2 .86 Agrupamiento con Lógica Difusa Algoritmo: Fuzzy c-means (FCM) n objetos, c clases ui,j = grado de pertenencia de objeto i a clase j (i=1, ..., n; j=1, ..., c) U = (ui,j)i,j ui,j ∈[0,1]; ∑ui,j = 1; i = 1, ..., n Función objetivo: min ∑∑ (ui,j)m d2(xi, cj) xi : objeto i; cj : centro de clase j; d2(xi, cj): distancia entre xi y cj m : parámetro difuso (1<m<∞) Algoritmo: Fuzzy c-means (FCM) 1. Determina una matriz U con ui,j ∈[0,1]; 2. Determina los centros de las clases: c ∑u i, j j =1 n ∑ ui, j m xi i =1 n cj = ∑ ui, j m i =1 3. Actualiza los grados de pertenencia: ui,j = 1 ⎛ d ( x ,c ) ⎞ ⎟⎟ ∑ ⎜⎜ ⎝ d ( x ,c ) ⎠ c k =1 i j i k 2 m −1 Uk = matriz en iteración k 4. Criterio para detener: ⏐⏐Uk+1 - Uk⏐⏐ < ε =1 Genetic Algorithms Description → Inspired by evolution (Darwin). → Represent possible solutions to a problem → Genetic algorithms generate a population of genes (possible solutions) and make them evolve to obtain better genes (better solutions). → Based on the principle of “Survival of the fittest” Segmentación de Clientes Clientes Banco ? Requerimientos Producto 1 ? ? Producto n ? ? Requerimientos ¿Qué producto para qué cliente? Principales áreas de aplicación de Web Usage Mining Identifying web usage behavior of bank customers Sandro Araya1), Mariano Silva2), Richard Weber3) 1) BCI Bank, Santiago, Chile 2) webmining.cl, Santiago, Chile 3) Department of Industrial Engineering, Universidad de Chile, Santiago, Chile Araya, S., Silva, M., Weber, R. (2004): A Methodology for Web Usage Mining and its Application to Target Group Identification. Fuzzy Sets and Systems 148, No. 1, 139-152 BCI - Banco de Crédito e Inversiones (www.bci.cl) Founded in 1937 Started Virtual Bank in 1996 10,000+ Internet transactions daily Process of knowledge discovery in databases (KDD) Interpretation Evaluation Data Mining Transformation Pre-processing Selection Patterns pre-processed data Data selected data transformed data Methodology of Web Mining Combination of KDD process and Web Traffic analysis Log Files Transformed data Sessions Integrated data Clean logs Pattern Rules Clusters Selection Preprocessing Transformation Data Mining Interpretación Current situation Registed Visitors of Virtual Bank (Traditional) Bank Customers 41,563 navigating customers 142,133 customers still not visitors of the web site Questions Virtual bank Traditional bank •How do my navigating customers behave? •Are there segments of “typical visitors”? •Is it possible to identify “heavy users”? •Are there customers that look like “heavy users”? •How can I convert these “twins of heavy users” to users of my web site? Two step approach Virtual bank Traditional bank •Clustering of navigating customers •Determine profile of “heavy users” •Search for (traditional) customers that have a profile similar to that of “heavy users” •=> Fuzzy Clustering •Marketing campaign directed to these “twins of heavy users” •=> Neural Network Results of Segmentation Class Age (years) Trx Web N° of Cases % Cases Class L1 38 25 9130 22.0% Class L2 29 26 4277 10.3% Class M1 58 31 4599 11.1% Class M2 47 32 11829 28.5% Class H 34 141 11728 28.2% 41563 100.0% TOTAL Neural networks (Multilayer Perceptron) connection with weights Neuron Input Layer Hidden Layer Output Layer DataEngine Data acquisition Visualisation ∑ Data preprocessing Graphical Macro Language Fuzzy and Neural Modelling DataEngine ADL www.dataengine.de for (int i=0; i<=99; i++) { a[i]=0.0; b[i]=0.0; c[i]=0.0; } Identification of twins with Neural networks Architecture of the Multilayer Perceptron: Number of input neurons: 6, corresponding to the attributes: age, gender, civil status, education, income, and antiquity. Number of neurons in the hidden layer: 12 (transfer function: sigmoid) Number of output neurons: 5, corresponding to the 5 classes of customers: H, L1, L2, M1 and M2. Neural Network Results Class L1 L2 M1 M2 H TOTAL Selected Cases 32,602 25,216 35,805 18,608 29,902 142,133 % Cases 22.9% 17.7% 25.2% 13.1% 21.0% 100.0% Marketing Campaign Customers fromclass H Other customers Total Received Did not receive mailing mailing 11,567 18,335 15,806 96,425 27,373 114,760 Total 29,902 112,231 142,133 Gains Chart Percentage of new customers Advanced selection 100% Random selection Percentage of 100% total customers Marketing Campaign New visitors from class H that received the mailing Week New visitors from class H (total) New visitors from class H that did not receive the mailing 13 737 256 993 14 153 264 417 15 114 212 326 16 101 204 305 Marketing Campaign Results New visitors from class H that received the mailing Semana Week Clientes nuevos New Visitors 13 14 15 16 TOTAL 737 153 114 101 1,105 Response rate Twins = 1.105 11.0567 = 10% Marketing Campaign Results New visitors from class H that did not receive the mailing Semana Week 13 14 15 16 TOTAL Connection rate of twins of heavy users without mailing Clientes New Visitorsnuevos 256 264 212 204 936 936 18.300 = 5% Conclusion ”Natural connecting rate” ~ 1.050 new customers /month ~ 2% of web site users Response rate after mailing to “twins of heavy users” = 10% Natural connecting rate of “twins of heavy users” (i.e. without receiving mailing) = 5% Sistema de Pronóstico de Ventas utilizando Redes Neuronales y su Aplicación en la Cadena de Suministros de un Supermercado Motivación del Problema ¿Qué productos pido? ¿Cuánto pido? Necesidad de pronóstico de ventas en el corto plazo Motivación del Problema Ventas ... De qué dependen? 30.000 •Ventas pasadas 25.000 •Precios 20.000 5.000 •Clima •Venta de productos similares Día 8 8 04 -1 99 30 - 8 04 -1 99 23 - 8 04 -1 99 16 - 8 04 -1 99 09 - 8 04 -1 99 02 - 8 03 -1 99 26 - 8 03 -1 99 19 - 8 12 - 03 -1 99 8 03 -1 99 05 - 8 02 -1 99 26 - 8 02 -1 99 19 - 8 02 -1 99 12 - 8 02 -1 99 05 - 8 01 -1 99 29 - 01 -1 99 22 - 8 01 -1 99 08 - 01 -1 99 01 - 8 0 8 •Festivos 10.000 01 -1 99 •Estacionalidad 15.000 15 - Monto ($) •Campañas Publicitarias Motivación del Problema ¿Cómo administrar el inventario? → Muy poco Quiebres de Venta. Clientes insatisfechos → Mucho Costos de capital Desarrollar mejores técnicas de pronóstico y de acuerdo a esto gestionar nuestro inventario → Aplicaciones exitosas con Redes Neuronales (ICA Handlarna Suecia, Cadena farmacéutica EE. UU.) → Existen las tecnologías y conocimientos Alcances del Proyecto Se acotará el ámbito de estudio a: Local La Pintana: Supermercado Tradicional con 4.500 m2 Un subconjunto de productos: 50 PLU’s más vendidos en el local (representan el 23,18% de las ventas) Con datos desde el 12/09/2000 a 31/07/2001 Knowledge Discovery in Databases: KDD 4.Interpretación y Evaluación 3.Data Mining Knowledge Conocimiento 2.Selección y Preprocesamiento p(x)=0.02 1.Consolidación de los Datos Patrones y Modelos Warehouse DW Datos preparados Datos Consolidados Fuentes de Datos 1.Consolidación de los Datos Datos de diferentes fuentes: ORION Unidades Vendidas en local La Pintana desde 01/07/00 al 31/07/01 para los 50 PLU’s más vendidos AC Nielsen ==> Precios semanales de los productos en el local de estudio y la competencia del micromercado (Santa Isabel, Ekono y Lider) 20 0 118389 1.Consolidación de los Datos: Café 170 grs. 120 100 80 Verano 60 40 1 00 - 2 01 UL 0 - J - 2 01 16 JUN 20 1 - - 0 26 JUN -20 1 - Y 0 06 MA -20 1 - R 0 17 AP -20 1 - R 0 27 AP -20 1 - R 0 07 MA -20 1 - B 0 18 FE -20 1 - B 0 26 F E 20 0 - - 0 06 JAN -20 0 - C 0 17 DE -20 0 - C 0 28 DE -20 0 - V 0 08 NO -20 0 - T 0 1 8 OC - 2 0 0 - T 0 29 OC -20 0 - P 0 09 SE -20 0 - G 0 19 AU -20 - G 0 30 AU 200 - - 0 10 JUL 200 - 21 JUL 01 0 114464 1.Consolidación de los Datos: Cerveza 1 Lt. 2000 Verano 1000 Año Nuevo Navidad 18 Sept 01 20 1 L- 0 U 0 -J N-2 01 16 JU -20 1 2 6 JU N 2 0 0 1 - Y- 0 06 MA -20 1 - R 0 17 AP -20 1 0 27 APR -20 - R 01 07 A 0 -M B-2 01 18 FE -20 1 26 FEB 200 0 - - 0 06 JAN -20 0 - C 0 17 DE -20 0 - C 0 28 DE -20 0 - V 0 08 NO -20 0 - T 0 18 OC -20 0 - T 0 29 OC -20 0 - P 0 09 SE -20 0 0 19 AUG-20 - G 0 30 AU 200 - L- 0 1 0 JU 2 0 0 - 2 1 JU L 01 1.Consolidación de los Datos Características del día. Variables binarias (0,1) • • • • • • • • • pago :Días de pago de fin de mes. quincena :Días de pago de quincena prefest :Días anteriores a feriados feriado :Días festivos patrias :Días de fiestas patrias santa :Días de semana santa vacation :Días de vacaciones (Enero y Febrero) verano :Días de meses estivales (desde 01/10 al 31/03) a_nuevo :1 de Enero. Único día del año donde los supermercados no venden. Knowledge Discovery in Databases: KDD 4.Interpretación y Evaluación 3.Data Mining Knowledge Conocimiento 2.Selección y Preprocesamiento p(x)=0.02 1.Consolidación de los Datos Patrones y Modelos Warehouse DW Datos preparados Datos Consolidados Fuentes de Datos 2.Selección y Preprocesamiento “En la vida real los datos no están como quisieramos” De los 50 PLU’s originales hay 3 correspondientes a promociones De los 47 PLU’s restantes 9 presentan ausencia de datos de más del 25% en la serie de tiempo LIMPIEZA DE DATOS!!! 2.Preprocesamiento Las ventas se escalaron entre 0 y 1 En base a los precios se crean las siguientes variables: PA(NºPLU)=precioPLU_Economax PB( N º PLU ) = precioPLU _ Economax MAX ( precioPLU _ micromercado) precioPLU _ Economax PC ( N º PLU ) = MIN ( precioPLU _ micromercado) Estas variables también se reescalan entre 0 y 1 Knowledge Discovery in Databases: KDD 4.Interpretación y Evaluación 3.Data Mining Knowledge Conocimiento 2.Selección y Preprocesamiento p(x)=0.02 1.Consolidación de los Datos Patrones y Modelos Warehouse DW Datos preparados Datos Consolidados Fuentes de Datos 3.Data Mining: Enfoques de Solución Modelos Ingenuos (enfoque actual) Modelos Box Jenkins SARIMAX (p,d,q) (sp,sd,sq) Y Redes Neuronales Perceptrón Multicapas (MLP) Análisis de Series de Tiempo Box, Jenkins (1976) q MA(q) (FIR) Xt = ∑ bn * et − n =b1 et −1 + ... +b p et − q n =1 AR(p) (IIR) p Xt = ∑ ai * xt −i + et i =1 ARMA (p,q) p q i =1 n =1 Xt = ∑ ai * xt −i + ∑ bn * et − n + et Modelos Box Jenkins Requisitos de ARMA → Al menos 50 observaciones → La serie debe ser estacionaria Modelos Box Jenkins Para convertir una serie no estacionaria en otra estacionaria se puede: → Aplicar transformaciones logarítmicas → Diferenciar la serie (Xt - Xt-1) ARIMA(p,d,q) donde d es Nº de términos diferenciados Seasonal ARIMA: SARIMA (p,d,q) (sp,sd,sq) SARIMAX con X variables externas (regresores) Modelos Box Jenkins Time series transformation (from non-stationary to stationary) : → apply logarithmic transformations → differentiate the series (Xt - Xt-1) 700 600 500 400 X(t) 300 X(t+1) 200 X(t+1)-X(t) 100 0 0 -100 -200 20 40 60 80 100 120 140 160 Redes Neuronales Modelos de conectividad Resuelven problemas de: → → → → → → Clasificación de patrones Aproximación de funciones Clustering Optimización Memoria asociativa Predicción o pronóstico n yk = f (∑ wik xi ) i =0 Aplicaciones de Redes Neuronales Clasificación: → Detección de Fraude → Predicción de Fuga de Clientes → Predicción de Compra de productos (marketing directo) Regresión: → Estimación de riesgo de clientes (scoring) → Pronóstico de índices financieros y bursátiles (monedas, metales, stock markets, bonos, etc.) MLP para forecasting Overfitting o Sobreajuste Sobreajuste de la red a los datos del problema y no al problema en sí Conjuntos de Entrenamiento y de Testeo ARIMA v/s MLP Modelo Estadístico (ARIMA) Modelo lineal: asume un comportamiento de la serie a priori La modelación requiere que la serie sea estacionaria Requieren de conocimientos en Estadística e interacción con el usuario en la modelación Redes Neuronales (MLP) Modelo no lineal: más grados de libertad para el modelo No impone requisitos estadísticos a la serie de tiempo a analizar Requieren menor interacción con el usuario El modelo entrega conocimiento e información en sus parámetros Difícil lectura del modelo (caja negra) Bajo peligro de sobreajustar el modelo Fácil de sobreajustar el modelo a los datos Desempeño del pronóstico: medidas de error Error Porcentual (Error porcentual absoluto medio) 1 N ∑ k ( y (k ) − yˆ (k )) y (k ) Error Normalizado (Error cuadrático medio normalizado) 2 ˆ ( ( ) − ( )) y k y k ∑ 1 = 2 2 ∑ ( y(k ) − y (k )) σ N k k 2 ˆ ( ( ) − ( )) y k y k ∑ k 0 100595 Aplicación a PLU 100595 (Aceite Vegetal 1 Lt.) 400 300 200 100 N O M 56 E TU 53 ED W 50 U TH 47 RI F 44 A T S 41 N SU 39 ON M 36 E TU 33 ED W 30 U TH 27 RI F 24 A T S 21 N SU 19 ON M 16 E TU 13 ED W 10 U TH 7 I FR T SA 4 1 Date Modelos Tradicionales y MLP 100595 ARIMA Ingenuo Ingenuo Estacional Media Incondicional 100595 MLPtw21 MLPtw14 MLPtw7 MLPtw6 MLPtw5 MLPtw3 MLPtw1 MLPtw0 Conjunto de Entrenamiento Error Porcentual Error Normalizado 36.21% 0.3301 44.28% 0.6972 64.67% 1.2212 59.98% 0.7759 Conjunto de Testeo Error Porcentual Error Normalizado 40.49% 0.6090 56.83% 1.2481 45.75% 1.9217 48.54% 0.9689 Conjunto de Entrenamiento Error Porcentual Error Normalizado 32.93% 0.4633 31.15% 0.3115 30.00% 0.3092 32.45% 0.3761 30.26% 0.3526 29.61% 0.3002 30.00% 0.3405 34.12% 0.4760 Conjunto de Testeo Error Porcentual Error Normalizado 31.85% 0.4973 34.64% 0.5703 35.44% 0.5490 33.53% 0.5112 35.61% 0.5540 34.36% 0.5281 35.31% 0.5340 31.80% 0.6244 En Resumen... Se realizaron pruebas con otros cinco productos, y se obtuvo que: •ARIMA mejora los pronósticos obtenidos por métodos ingenuos •Generalmente se obtienen mejores resultados con Redes Neuronales (RN) que con ARIMA •ARIMA entrega un modelo comprensible y buenos resultados, pero con costos no despreciables (requerimientos estadísticos, y de conocimientos del usuario) •RN obtienen los mejores resultados de forma más automática, pero con modelo tipo “black box” Sistema de Reposición Periódica •Reposición cada P días, con tiempo de entrega de L días. INVENTARIO OBJETIVO T T=m’+zσ •Con: •m’: demanda promedio durante P+L días (del sistema de pronóstico) •Z σ: stock de seguridad (nivel de servicio*desviación ventas) Reposición de Inventarios N ivel de I nv entari o Di ario PL U 100 595 8 00 7 00 6 00 Un id ade s 5 00 4 00 3 00 2 00 1 00 2 4/07 /0 1 1 0/07 /0 1 26/06 /0 1 12/06 /0 1 29/0 5/01 15 /05/01 01 /05/01 17 /04/01 0 3/04/01 2 0/03/0 1 0 6/03 /0 1 2 0/02 /0 1 06/02 /01 23/0 1/01 09/0 1/01 26/1 2/00 12 /12/00 28 /11/00 1 4/11/00 3 1/10/00 1 7/10/0 0 0 3/10 /0 0 19/09 /0 0 0 Días N i ve l d e Inv entari o Inv entario Obj eti vo Quiebres de venta: 1% con 5 días de alcance en inventario (Antes: 6% de quiebre con 30 días de alcance) Aburto, L., Weber, R. (2006): Improved Supply Chain Management based on Hybrid Demand Forecasts. Applied Soft Computing, Elsevier, in press Redes neuronales: Self-organizing feature maps de Kohonen Kohonenmap Kohonen feature map Aplicación: Clustering weight w e1 e2 input vectors 3 1 2 N ....... w1,1 w1,2 w1,M wN,1 wN,2 wN,M ....... 1 x1 Herramienta: DataEngine x2 xM 2 M Web Intelligence in a bank www.tbanc.cl: first Chilean virtual bank Written in Spanish. 217 static web pages. Approximately eight million web log registers from the period January to March, 2003. Visitor browsing behavior ¿? Visitor Behavior - Basic statistics Only 16% of the visitors visit 10 or more pages and 18% less than 4. The average number of visited pages is 6. Finally, applying various filters, approximately 400,000 vectors were identified. Visitor browsing behavior Three variables are considered: the web page path, its content and the time spent when it is visited by a visitor. The visitor behavior vector is defined and a similarity measure between visitor session is introduced. r v = [( p1 , t1 )...( p n , t n )] Where( pi , ti ) is a component that represents the page content, th its path and percentage of time spent in the i page visited. The vector maintains the page visit order. Comparing browsing behavior Then the similarity measure is: L r r t kα t kβ h h 1 c c sm(α , β ) = dG ( pα , pβ ) L ∑ min( t β , t α )dp ( pα ,k , pβ ,k ) k =1 where t kα t kβ k k min( t β , t α ) dp ( pαc ,k , pβc ,k ) k k is an indicator of visitor interest is the page distance and dG is a “graph distance”, i.e., how similar are the paths between two sessions and dP is a “page distance” between the content of the visited pages. Vector space model sw: special words array swi M = (mij ) = f ij (1 + ) * log( nQi ) TR TR: Total special words pi → (m1i ,..., mRi ) p j → (m1 j ,..., mRj ) R dp ( pi , p j ) = cos θ = ∑ mki mkj pi k =1 R ∑ k =1 R ( mki ) 2 ∑ k =1 ( mkj ) 2 θ pj Comparing sequences S1= (1,2,6,5,8) 1 The sequence of a navigation can be represented by a graph. Each page is identified by an identification number. 4 2 3 5 6 S2=(1,3,6,7) 7 8 G1 = {1 → 2,2 → 6,2 → 5,5 → 8} G2 = {1 → 3,3 → 6,3 → 7} E (G1 ) = {1,2,6,5,8} E (G2 ) = {1,3,6,7} dG (G1 , G2 ) = 2 ||||EE ((GG11 ))I+ EE ((GG22 )||)|| We need to know how similar or different are both sequences!! Applying neural networks for clustering For example, Self Organizing Feature Maps. Schematically, a SOFM is presented as a two-dimensional array in whose positions the neurons are located. Each neuron is constituted by an n-dimensional vector, whose components are the synaptic weights. The notion of neighborhood among the neurons provides diverse topologies. In this case a thoroidal topology was used, which means that the neurons closest to the ones of the superior edge, are located in the inferior and lateral edges. Results by Neural Network Neurons winner frecuency 5 4 3 2 1 0 0 5 10 15 Neurons 20 25 axe ii 30 Neurons axis 0 5 25 30 20 10 15 Neurons axe j Neurons axis j Results from Business point-of-view Web site recommendations Offline. →Structure. Changes in the internal (in the same site) and external (outside the site) links. →Content. Mainly words to improve usefulness of the page for the visitor. Online. →Principally about the pages that the visitor would be interested in visiting. Conclusions Based on our results we propose changes on the web site, e.g.: →Direct links from cluster 2 to cluster 4 (as can be seen, both are interested in Remote Services) →Improved links inside each cluster Future work: analysis of effectiveness of changes by e.g.: →Increased average number of clicks in visitor sessions →Increased total time a visitor spends on the web site →Increased revenue. Common Research with The University of Tokyo Velásquez, J. D., Yasuda, H., Aoki, T., Weber, R., (2003): Using the KDD Process to Support Web Site Reconfigurations. The 2003 IEEE/WIC International Conference on Web Intelligence, October 13-16, 2003, Halifax, Canada, 511-515 Velásquez, J. D., Yasuda, H., Aoki, T., Weber, R. (2004): A new similarity measure to understand the visitor behavior in a web site. IEICE Transactions on Information and Systems, Vol. E87-D, No. 2, February, 389-396 Herramientas de Data Mining Clementine Darwin DataEngine Decisionhouse IBM Intelligent Miner KnowledgeSEEKER SAS Enterprise Miner .... .... .... Más información: www.kdnuggets.com Experiencias 1/2 •Tiempo → proyectos necesitan más tiempo que estimado •Calidad de los datos – muy importante para lograr resultados válidos •Cantidad de datos – en general hay muchos datos disponible pero no siempre para apoyar la toma de decisiones (base de datos transaccional / bodegas de datos) Experiencias 2/2 •“Mentor” del proyecto → Mentor con alta posición en la jerarquía (proyectos de data mining necesitan apoyo de varios expertos) •Demostración del beneficio – Fácil en el área de ventas / Difícil en segmentación de mercados (por ejemplo) •Mantenimiento del sistema instalado Desarrollos Futuros Data Mining Dinámico Descripción de objetos: valores actuales - trayectorias Estructura de clases: fija - variable con el tiempo Conjunto de atributos: fijo - variable con el tiempo Call for Papers Applied Soft Computing (www.elsevier.com/locate/asoc) Special Issue on Soft Computing for Dynamic Data Mining Data Mining Dinámico Descripción de objetos: valores actuales - trayectorias Atributo 2 Atributo 2 Atributo 1 Situación estática Atributo 1 Situación dinámica Joentgen, A., Mikenina, L., Weber, R., Zimmermann, H.-J. (1999): Dynamic Fuzzy Data Analysis Based on Similarity Between Functions. Fuzzy Sets and Systems 105, No. 1, 81-90 Data Mining Dinámico Estructura de clases: Atributo 2 Atributo 1 Situación en tiempo t fija - variable con el tiempo Atributo 2 Atributo 1 Situación en tiempo t+1 Crespo, F., Weber, R. (2005): A Methodology for Dynamic Data Mining based on Fuzzy Clustering. Fuzzy Sets and Systems 150, No. 2, 267-284 Conclusiones y Perspectivas Combinaciones posibles con otras tecnologías: Internet Agentes Web Mining Data Warehouse Otros formatos (Imágenes, Sonidos, ...) Data Mining Gestión de Conocimiento (Knowledge Management) Conclusiones y Perspectivas Crecimiento de datos disponibles Altos beneficios de data mining en empresas Necesidades: Conocimiento de los métodos Uso de herramientas estándar Experiencia con aplicaciones Más información Portal de “Knowledge Discovery”: www.kdnuggets.com Portal de Inteligencia de Negocios: www.businessintelligence.com