Skip to main content

2024 | OriginalPaper | Buchkapitel

Graph Neural Network Approach to Semantic Type Detection in Tables

verfasst von : Ehsan Hoseinzade, Ke Wang

Erschienen in: Advances in Knowledge Discovery and Data Mining

Verlag: Springer Nature Singapore

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

This study addresses the challenge of detecting semantic column types in relational tables, a key task in many real-world applications. While language models like BERT have improved prediction accuracy, their token input constraints limit the simultaneous processing of intra-table and inter-table information. We propose a novel approach using Graph Neural Networks (GNNs) to model intra-table dependencies, allowing language models to focus on inter-table information. Our proposed method not only outperforms existing state-of-the-art algorithms but also offers novel insights into the utility and functionality of various GNN types for semantic type detection. The code is available at https://​github.​com/​hoseinzadeehsan/​GAIT

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Literatur
1.
Zurück zum Zitat Chen, J., Jiménez-Ruiz, E., Horrocks, I., Sutton, C.: Colnet: embedding the semantics of web tables for column type prediction. In: AAAI (2019) Chen, J., Jiménez-Ruiz, E., Horrocks, I., Sutton, C.: Colnet: embedding the semantics of web tables for column type prediction. In: AAAI (2019)
2.
Zurück zum Zitat Chen, J., Jiménez-Ruiz, E., Horrocks, I., Sutton, h.: Learning semantic annotations for tabular data. In: IJCAI. vol. 33, pp. 2088–2094 (2019) Chen, J., Jiménez-Ruiz, E., Horrocks, I., Sutton, h.: Learning semantic annotations for tabular data. In: IJCAI. vol. 33, pp. 2088–2094 (2019)
3.
Zurück zum Zitat Chen, X., Li, L.J., Fei-Fei, L., Gupta, A.: Iterative visual reasoning beyond convolutions. In: CVPR, pp. 7239–7248 (2018) Chen, X., Li, L.J., Fei-Fei, L., Gupta, A.: Iterative visual reasoning beyond convolutions. In: CVPR, pp. 7239–7248 (2018)
4.
Zurück zum Zitat Deng, X., Sun, H., Lees, A., Wu, Y., Yu, C.: Turl: table understanding through representation learning. ACM SIGMOD Rec. 51(1), 33–40 (2022)CrossRef Deng, X., Sun, H., Lees, A., Wu, Y., Yu, C.: Turl: table understanding through representation learning. ACM SIGMOD Rec. 51(1), 33–40 (2022)CrossRef
5.
Zurück zum Zitat Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805 (2018) Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:​1810.​04805 (2018)
6.
Zurück zum Zitat Fernandez, R.C., Abedjan, Z., Koko, F., Yuan, G., Madden, S., Stonebraker, M.: Aurum: A data discovery system. In: ICDE, pp. 1001–1012. IEEE (2018) Fernandez, R.C., Abedjan, Z., Koko, F., Yuan, G., Madden, S., Stonebraker, M.: Aurum: A data discovery system. In: ICDE, pp. 1001–1012. IEEE (2018)
7.
Zurück zum Zitat Feuer, B., Liu, Y., Hegde, C., Freire, J.: Archetype: a novel framework for open-source column type annotation using large language models. arXiv (2023) Feuer, B., Liu, Y., Hegde, C., Freire, J.: Archetype: a novel framework for open-source column type annotation using large language models. arXiv (2023)
8.
Zurück zum Zitat Hu, K., et al.: Viznet: Towards a large-scale visualization learning and benchmarking repository. In: CHI, pp. 1–12 (2019) Hu, K., et al.: Viznet: Towards a large-scale visualization learning and benchmarking repository. In: CHI, pp. 1–12 (2019)
9.
Zurück zum Zitat Hulsebos, M., et al.: Sherlock: A deep learning approach to semantic data type detection. In: SIGKDD, pp. 1500–1508 (2019) Hulsebos, M., et al.: Sherlock: A deep learning approach to semantic data type detection. In: SIGKDD, pp. 1500–1508 (2019)
10.
Zurück zum Zitat Iida, H., Thai, D., Manjunatha, V., Iyyer, M.: Tabbie: Pretrained representations of tabular data. arXiv preprint arXiv:2105.02584 (2021) Iida, H., Thai, D., Manjunatha, V., Iyyer, M.: Tabbie: Pretrained representations of tabular data. arXiv preprint arXiv:​2105.​02584 (2021)
11.
Zurück zum Zitat Kipf, T.N., Welling, M.: Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907 (2016) Kipf, T.N., Welling, M.: Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:​1609.​02907 (2016)
12.
Zurück zum Zitat Korini, K., Bizer, C.: Column type annotation using chatgpt. arXiv (2023) Korini, K., Bizer, C.: Column type annotation using chatgpt. arXiv (2023)
13.
Zurück zum Zitat Li, P., et al.: Table-gpt: Table-tuned gpt for diverse table tasks. arXiv (2023) Li, P., et al.: Table-gpt: Table-tuned gpt for diverse table tasks. arXiv (2023)
14.
Zurück zum Zitat Li, Y., Ouyang, W., Zhou, B., Wang, K., Wang, X.: Scene graph generation from objects, phrases and region captions. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 1261–1270 (2017) Li, Y., Ouyang, W., Zhou, B., Wang, K., Wang, X.: Scene graph generation from objects, phrases and region captions. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 1261–1270 (2017)
15.
16.
Zurück zum Zitat Limaye, G., Sarawagi, S., Chakrabarti, S.: Annotating and searching web tables using entities, types and relationships. VLDB 3(1–2), 1338–1347 (2010) Limaye, G., Sarawagi, S., Chakrabarti, S.: Annotating and searching web tables using entities, types and relationships. VLDB 3(1–2), 1338–1347 (2010)
17.
Zurück zum Zitat Rahm, E., Bernstein, P.A.: A survey of approaches to automatic schema matching. the VLDB Journal 10(4), 334–350 (2001) Rahm, E., Bernstein, P.A.: A survey of approaches to automatic schema matching. the VLDB Journal 10(4), 334–350 (2001)
18.
Zurück zum Zitat Suhara, Y., Li, J., Li, Y., Zhang, D., Demiralp, Ç., Chen, C., Tan, W.C.: Annotating columns with pre-trained language models. In: SIGMOD (2022) Suhara, Y., Li, J., Li, Y., Zhang, D., Demiralp, Ç., Chen, C., Tan, W.C.: Annotating columns with pre-trained language models. In: SIGMOD (2022)
19.
Zurück zum Zitat Sun, Y., Xin, H., Chen, L.: Reca: related tables enhanced column semantic type annotation framework. VLDB 16(6), 1319–1331 (2023) Sun, Y., Xin, H., Chen, L.: Reca: related tables enhanced column semantic type annotation framework. VLDB 16(6), 1319–1331 (2023)
20.
Zurück zum Zitat Veličković, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., Bengio, Y.: Graph attention networks. arXiv preprint arXiv:1710.10903 (2017) Veličković, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., Bengio, Y.: Graph attention networks. arXiv preprint arXiv:​1710.​10903 (2017)
21.
Zurück zum Zitat Wang, D., Shiralkar, P., Lockard, C., Huang, B., Dong, X.L., Jiang, M.: Tcn: Table convolutional network for web table interpretation. In: WWW (2021) Wang, D., Shiralkar, P., Lockard, C., Huang, B., Dong, X.L., Jiang, M.: Tcn: Table convolutional network for web table interpretation. In: WWW (2021)
22.
Zurück zum Zitat Wang, M., et al.: Deep graph library: a graph-centric, highly-performant package for graph neural networks. arXiv preprint arXiv:1909.01315 (2019) Wang, M., et al.: Deep graph library: a graph-centric, highly-performant package for graph neural networks. arXiv preprint arXiv:​1909.​01315 (2019)
23.
Zurück zum Zitat Wang, Z., et al.: Tuta: Tree-based transformers for generally structured table pre-training. In: SIGKDD (2021) Wang, Z., et al.: Tuta: Tree-based transformers for generally structured table pre-training. In: SIGKDD (2021)
24.
Zurück zum Zitat Wolpert, D.H.: Stacked generalization. Neural Netw. 5(2), 241–259 (1992) Wolpert, D.H.: Stacked generalization. Neural Netw. 5(2), 241–259 (1992)
25.
Zurück zum Zitat Yin, P., Neubig, G., Yih, W.t., Riedel, S.: Tabert: pretraining for joint understanding of textual and tabular data. arXiv preprint arXiv:2005.08314 (2020) Yin, P., Neubig, G., Yih, W.t., Riedel, S.: Tabert: pretraining for joint understanding of textual and tabular data. arXiv preprint arXiv:​2005.​08314 (2020)
26.
Zurück zum Zitat Zhang, D., Suhara, Y., Li, J., Hulsebos, M., Demiralp, Ç., Tan, W.C.: Sato: Contextual semantic type detection in tables. arXiv preprint arXiv:1911.06311 (2019) Zhang, D., Suhara, Y., Li, J., Hulsebos, M., Demiralp, Ç., Tan, W.C.: Sato: Contextual semantic type detection in tables. arXiv preprint arXiv:​1911.​06311 (2019)
27.
Zurück zum Zitat Zhang, H., Dong, Y., Xiao, C., Oyamada, M.: Jellyfish: A large language model for data preprocessing. arXiv (2023) Zhang, H., Dong, Y., Xiao, C., Oyamada, M.: Jellyfish: A large language model for data preprocessing. arXiv (2023)
Metadaten
Titel
Graph Neural Network Approach to Semantic Type Detection in Tables
verfasst von
Ehsan Hoseinzade
Ke Wang
Copyright-Jahr
2024
Verlag
Springer Nature Singapore
DOI
https://doi.org/10.1007/978-981-97-2266-2_10

Premium Partner