Skip to main content

2024 | OriginalPaper | Buchkapitel

lil’HDoC: An Algorithm for Good Arm Identification Under Small Threshold Gap

verfasst von : Tzu-Hsien Tsai, Yun-Da Tsai, Shou-De Lin

Erschienen in: Advances in Knowledge Discovery and Data Mining

Verlag: Springer Nature Singapore

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

Good arm identification (GAI) is a pure-exploration bandit problem in which a single learner outputs an arm as soon as it is identified as a good arm. A good arm is defined as an arm with an expected reward greater than or equal to a given threshold. This paper focuses on the GAI problem under a small threshold gap, which refers to the distance between the expected rewards of arms and the given threshold. We propose a new algorithm called lil’HDoC to significantly improve the total sample complexity of the HDoC algorithm. We demonstrate that the sample complexity of the first \(\lambda \) output arm in lil’HDoC is bounded by the original HDoC algorithm, except for one negligible term, when the distance between the expected reward and threshold is small. Extensive experiments confirm that our algorithm outperforms the state-of-the-art algorithms in both synthetic and real-world datasets.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Anhänge
Nur mit Berechtigung zugänglich
Literatur
1.
Zurück zum Zitat Asuncion, A., Newman, D.: UCI machine learning repository (2007) Asuncion, A., Newman, D.: UCI machine learning repository (2007)
2.
Zurück zum Zitat Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time analysis of the multiarmed bandit problem. Mach. Learn. 47(2), 235–256 (2002)CrossRef Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time analysis of the multiarmed bandit problem. Mach. Learn. 47(2), 235–256 (2002)CrossRef
3.
Zurück zum Zitat Chen, S., Lin, T., King, I., Lyu, M.R., Chen, W.: Combinatorial pure exploration of multi-armed bandits. Adv. Neural. Inf. Process. Syst. 27, 379–387 (2014) Chen, S., Lin, T., King, I., Lyu, M.R., Chen, W.: Combinatorial pure exploration of multi-armed bandits. Adv. Neural. Inf. Process. Syst. 27, 379–387 (2014)
4.
Zurück zum Zitat Da Tsai, Y., De Lin, S.: Fast online inference for nonlinear contextual bandit based on generative adversarial network. arXiv preprint arXiv:2202.08867 (2022) Da Tsai, Y., De Lin, S.: Fast online inference for nonlinear contextual bandit based on generative adversarial network. arXiv preprint arXiv:​2202.​08867 (2022)
5.
6.
Zurück zum Zitat Goldberg, K., Roeder, T., Gupta, D., Perkins, C.: Eigentaste: a constant time collaborative filtering algorithm. Inf. Retrieval 4(2), 133–151 (2001)CrossRef Goldberg, K., Roeder, T., Gupta, D., Perkins, C.: Eigentaste: a constant time collaborative filtering algorithm. Inf. Retrieval 4(2), 133–151 (2001)CrossRef
7.
Zurück zum Zitat Harper, F.M., Konstan, J.A.: The movielens datasets: history and context. ACM Trans. Interact. Intell. Syst. (TIIS) 5(4), 1–19 (2015) Harper, F.M., Konstan, J.A.: The movielens datasets: history and context. ACM Trans. Interact. Intell. Syst. (TIIS) 5(4), 1–19 (2015)
8.
Zurück zum Zitat Jamieson, K., Malloy, M., Nowak, R., Bubeck, S.: lil’ucb: an optimal exploration algorithm for multi-armed bandits. In: Conference on Learning Theory, pp. 423–439. PMLR (2014) Jamieson, K., Malloy, M., Nowak, R., Bubeck, S.: lil’ucb: an optimal exploration algorithm for multi-armed bandits. In: Conference on Learning Theory, pp. 423–439. PMLR (2014)
9.
Zurück zum Zitat Jiang, H., Li, J., Qiao, M.: Practical algorithms for best-k identification in multi-armed bandits (2017) Jiang, H., Li, J., Qiao, M.: Practical algorithms for best-k identification in multi-armed bandits (2017)
10.
Zurück zum Zitat Kalyanakrishnan, S., Tewari, A., Auer, P., Stone, P.: PAC subset selection in stochastic multi-armed bandits. In: ICML, vol. 12, pp. 655–662 (2012) Kalyanakrishnan, S., Tewari, A., Auer, P., Stone, P.: PAC subset selection in stochastic multi-armed bandits. In: ICML, vol. 12, pp. 655–662 (2012)
11.
Zurück zum Zitat Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., Sugiyama, M.: Good arm identification via bandit feedback. Mach. Learn. 108(5), 721–745 (2019)MathSciNetCrossRef Kano, H., Honda, J., Sakamaki, K., Matsuura, K., Nakamura, A., Sugiyama, M.: Good arm identification via bandit feedback. Mach. Learn. 108(5), 721–745 (2019)MathSciNetCrossRef
12.
Zurück zum Zitat Kaufmann, E., Cappé, O., Garivier, A.: On the complexity of best-arm identification in multi-armed bandit models. J. Mach. Learn. Res. 17(1), 1–42 (2016)MathSciNet Kaufmann, E., Cappé, O., Garivier, A.: On the complexity of best-arm identification in multi-armed bandit models. J. Mach. Learn. Res. 17(1), 1–42 (2016)MathSciNet
13.
Zurück zum Zitat Locatelli, A., Gutzeit, M., Carpentier, A.: An optimal algorithm for the thresholding bandit problem. In: International Conference on Machine Learning, pp. 1690–1698. PMLR (2016) Locatelli, A., Gutzeit, M., Carpentier, A.: An optimal algorithm for the thresholding bandit problem. In: International Conference on Machine Learning, pp. 1690–1698. PMLR (2016)
Metadaten
Titel
lil’HDoC: An Algorithm for Good Arm Identification Under Small Threshold Gap
verfasst von
Tzu-Hsien Tsai
Yun-Da Tsai
Shou-De Lin
Copyright-Jahr
2024
Verlag
Springer Nature Singapore
DOI
https://doi.org/10.1007/978-981-97-2262-4_7

Premium Partner