Tesi – Stage

Three-way clustering è una famiglia di metodi di clustering in cui i cluster sono definiti con una zona di incertezza: un oggetto può appartenere ad un cluster sicuramente, può non appartenergli con certezza oppure si può essere indecisi. Un esempio di questi metodi è il rough k-means [1]. Recentemente sono stati introdotti dei criteri di valutazione di clustering di questo tipo, estendendo le misure su clustering classico, sia interne che esterne (ad esempio [2]).

Obiettivo della tesi è quindi utilizzare queste misure per confrontare i vari metodi di three-way clustering.

[1] Lingras P., Peters G., Rough clustering, WIREs Data Min. Knowl. Discov., 1 (2011), pp. 65-72, https://doi.org/10.1002/widm.16
[2] Andrea Campagner, Davide Ciucci: Orthopartitions and soft clustering: Soft mutual information measures for clustering validation. Knowl. Based Syst. 180: 51-61 (2019) https://doi.org/10.1016/j.knosys.2019.05.018

Contatto: Prof. Davide Ciucci

Nei metodi di active learning l’algoritmo di apprendimento ha la possibilità di interrogare un oracolo (che può essere un esperto o genericamente un’altra fonte di informazione) per classificare correttamente alcune istanze. I metodi di active learning basati su clustering utilizzano uno o più algoritmi di clustering per arrivare ad una classificazione degli oggetti.

In questo contesto sono disponibili una o più tesi con i seguenti obiettivi.

Obiettivo 1: apportare uno o più miglioramenti ad un algoritmo esistente [1,2] tra i seguenti:

  • Aggiungere all’algoritmo di clustering la possibilità di astenersi (three-way clustering)
  • Studiare come il numero di query influenzi il risultato
  • Utilizzare un clustering ensemble invece di un solo clustering
  • Aggiungere altri algoritmi di clustering
  • Applicare a dataset reali in ambito medico

Obiettivo 2:  studiare le proprietà teoriche dell’algoritmo quali query complexity e learnability

[1] Min, F., Zhang, S., Ciucci, D. et al. Three-way active learning through clustering selection. Int. J. Mach. Learn. & Cyber. 11, 1033–1046 (2020). https://doi.org/10.1007/s13042-020-01099-2
[2] github.com/fansmale/tacs

Contatto: Prof. Davide Ciucci