Papers

What's Up, Doc?": Analyzing How Users Seek Health Information in Large-Scale Conversational AI Datasets
Akshay Paruchuri, Maryam Aziz, Rohit Vartak, Ayman Ali, Best Uchehara, Xin Liu, Ishaan Chatterjee, Monica Agrawal
In EMNLP findings. [ link | arxiv | code | data ]

Diagnosing our datasets: How does my language model learn clinical information?
Furong Flora Jia, David Sontag, Monica Agrawal
In CHIL. [ link | arxiv | data ]

Position: Retrieval-augmented Systems can be Dangerous Medical Communicators
Lionel Wong, Ayman Ali, Raymond Xiong, Zejiang Shen, Yoon Kim, Monica Agrawal
In ICML. [ link | arxiv | data ]

Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models
Yukun Huang, Sanxing Chen, Jian Pei, Manzil Zaheer, Bhuwan Dhingra
In arXiv. [ arxiv | twitter ]

Real-time Factuality Assessment from Adversarial Feedback
Sanxing Chen, Yukun Huang, Bhuwan Dhingra
In ACL. [ arxiv | code | twitter ]

MatViX: Multimodal Information Extraction from Visually Rich Articles
Ghazal Khalighinejad, Sharon Scott, Ollie Liu, Kelly Anderson, Rickard Stureborg, Aman Tyagi, Bhuwan Dhingra
In NAACL. [ link | arxiv | code | twitter ]

Enhancing Large Language Models’ Situated Faithfulness to External Contexts
Yukun Huang, Sanxing Chen, Hongyi Cai, Bhuwan Dhingra
In ICLR. [ link | arxiv | code | data | twitter ]

Mixture-of-Agents Enhances Large Language Model Capabilities
Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou
In ICLR. [ link | arxiv | code | twitter ]

Evaluating Morphological Compositional Generalization in Large Language Models
Mete Ismayilzada, Defne Circi, Jonne Sälevä, Hale Sirin, Abdullatif Köksal, Bhuwan Dhingra, Antoine Bosselut, Duygu Ataman, Lonneke van der Plas
In NAACL. [ link | arxiv | code | twitter ]

GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings
Raghuveer Thirukovalluru, Bhuwan Dhingra
In NAACL Findings. [ arxiv | code ]

How Well Do Large Language Models Understand Tables in Materials Science?
Defne Circi, Ghazal Khalighinejad, Anlan Chen, Bhuwan Dhingra, L. Catherine Brinson
In IMMI. [ link | data ]

ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods
Roy Xie, Junlin Wang, Ruomin Huang, Minxing Zhang, Rong Ge, Jian Pei, Neil Gong, Bhuwan Dhingra
In EMNLP. [ link | arxiv | code | twitter ]

Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies
Junlin Wang, Siddhartha Jain, Dejiao Zhang, Baishakhi Ray, Varun Kumar, Ben Athiwaratkun
In EMNLP. [ arxiv ]

Development and validation of VaxConcerns: A taxonomy of vaccine concerns and misinformation with Crowdsource-Viability
Rickard Stureborg, Jenna Nichols, Bhuwan Dhingra, Jun Yang, Walter Orenstein, Robert A. Bednarczyk, Lavanya Vasudevan
In Vaccine. [ link ]

Sequence Reducible Holdout Loss for Language Model Pretraining
Raghuveer Thirukovalluru, Nicholas Monath, Bhuwan Dhingra, Sam Wiseman
In COLING. [ link | code ]

Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications
Junlin Wang*, Tianyi Yang*, Roy Xie, Bhuwan Dhingra
In NAACL Findings. [ link | arxiv | code | twitter ]

SumCSE: Summary as a transformation for Contrastive Learning
Raghuveer Thirukovalluru, Xiaolan Wang, Jun Chen, Shuyang Li, Jie Lei, Rong Jin, Bhuwan Dhingra
In NAACL Findings. [ link | code ]

Tailoring Vaccine Messaging with Common-Ground Opinions
Rickard Stureborg, Sanxing Chen, Roy Xie, Aayushi Patel, Christopher Li, Chloe Qinyu Zhu, Tingnan Hu, Jun Yang, Bhuwan Dhingra
In NAACL Findings. [ link | arxiv | code | data | twitter ]

Your Large Language Models Are Leaving Fingerprints
Hope McGovern, Rickard Stureborg, Yoshi Suhara, Dimitris Alikaniotis
In arXiv. [ arxiv ]

Atomic Self-Consistency for Better Long Form Generations
Raghuveer Thirukovalluru, Yukun Huang, Bhuwan Dhingra
In EMNLP. [ arxiv ]

Large Language Models are Inconsistent and Biased Evaluators
Rickard Stureborg, Dimitris Alikaniotis, Yoshi Suhara
In arXiv. [ arxiv ]

ChatShop: Interactive Information Seeking with Language Agents
Sanxing Chen, Sam Wiseman, Bhuwan Dhingra
In arXiv. [ arxiv | code ]

IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations
Deqing Fu*, Ghazal Khalighinejad*, Ollie Liu*, Bhuwan Dhingra, Dani Yogatama, Robin Jia, Willie Neiswanger
In COLM. [ link | arxiv | data | twitter ]

Extracting Polymer Nanocomposite Samples from Full-Length Documents
Ghazal Khalighinejad, Defne Circi, L.C. Brinson, Bhuwan Dhingra
In ACL Findings. [ arxiv | code | twitter ]

Characterizing the Confidence of Large Language Model-Based Automatic Evaluation Metrics
Rickard Stureborg, Dimitris Alikaniotis, Yoshi Suhara
In EACL. [ link ]

Adversarial Math Word Problem Generation
Roy Xie, Chengxuan Huang, Junlin Wang, Bhuwan Dhingra
In EMNLP Findings. [ arxiv | code | twitter ]

Calibrating Long-form Generations from Large Language Models
Yukun Huang, Yixin Liu, Raghuveer Thirukovalluru, Arman Cohan, Bhuwan Dhingra
In EMNLP Findings. [ arxiv | code ]

Hierarchical Multi-Label Classification of Online Vaccine Concerns
Chloe Qinyu Zhu*, Rickard Stureborg*, Bhuwan Dhingra
In AI for Health Equity and Fairness. [ link | arxiv ]

Do Not Harm Protected Groups in Debiasing Language Representation Models
Chloe Qinyu Zhu, Rickard Stureborg, Brandon Fain
In arXiv. [ arxiv ]

Exploring the Effect of Frequency Resolution in FNet
Gregory Szumel, Ghazal Khalighinejad, Rickard Stureborg, Sam Wiseman
In SustaiNLP. [ link ]

Learning the Legibility of Visual Text Perturbations
Dev Seth, Rickard Stureborg, Danish Pruthi, Bhuwan Dhingra
In EACL. [ link | arxiv ]

Interface Design for Crowdsourcing Hierarchical Multi-Label Text Annotations
Rickard Stureborg, Bhuwan Dhingra, Jun Yang
In CHI. [ link | arxiv ]

2025

2024

2023