Feature Extraction by Non-Parametric Mutual Information Maximization

Kari Torkkola

2003 JMLR JMLR 2003

Feature Extraction by Non-Parametric Mutual Information Maximization

Abstract

We present a method for learning discriminative feature transforms using as criterion the mutual information between class labels and transformed features. Instead of a commonly used mutual information measure based on Kullback-Leibler divergence, we use a quadratic divergence measure, which allows us to make an efficient non-parametric implementation and requires no prior assumptions about class densities. In addition to linear transforms, we also discuss nonlinear transforms that are implemented as radial basis function networks. Extensions to reduce the computational complexity are also presented, and a comparison to greedy feature selection is made. [abs] [pdf] [ps.gz] [ps] [demos]

📈 Trend Setter — Metric Learning

🧭 Keyword Pioneer — feature extraction

🐝 Cross-Pollinator — Artificial Intelligence, Computer Science, Computer Vision, Data Science & Analytics, Deep Learning, Healthcare & Medicine, Interdisciplinary, Machine Learning, Mathematics & Optimization, Natural Language Processing, Reinforcement Learning, Speech & Audio

🐣 Hot Topic Early Bird — feature extraction

Authors

Kari Torkkola

Topics

Machine Learning > Core Methods > Representation Learning Machine Learning > Core Methods > Metric Learning Machine Learning > Optimization & Theory > Statistical Learning Machine Learning > Core Methods > Feature Selection Machine Learning > Core Methods > Feature Learning

Keywords

feature extraction mutual information kullback-leibler divergence discriminative feature radial basis function nonlinear transform non-parametric method

Download PDF

Related papers

Bottom-Up Relational Learning of Pattern Matching Rules for Information Extraction 2003

An Efficient Boosting Algorithm for Combining Preferences 2003

A Multiscale Framework For Blind Separation of Linearly Mixed Signals 2003

Word-Sequence Kernels 2003

An Extensive Empirical Study of Feature Selection Metrics for Text Classification 2003